AIが見えない部分を補って生成。
何かしら物体を描いたスケッチや写真を、リアルな3Dモデルに変換して3Dプリンタで印刷したり、テレビゲームで動かしたり、視覚効果を用いて動画に生命を吹き込むには、大量の画像をもとに作業するデジタル・モデリングの技術をもつ人材が必要になります。
ですがNVIDIAはニューラル・ネットワークを訓練して、たった1枚の写真から完全なテクスチャーを持つ3Dモデルを生成することに成功しました。
似た技術は以前からあった
以前にも、3Dモデルを自動生成する似たような技術を見たことがありますが、正確な結果を得るためには、さまざまな角度から撮影した写真がたくさん必要だったり、ソフトウェアに画像内の特定のオブジェクトの寸法や形状を理解させるべく、人間のユーザーが数値を入力したりする必要がありました。
いずれの手法でも、問題対処へのアプローチが間違っているわけではありませんが、もっとカンタンに3Dモデリングができるようになるのは大歓迎です。そうすれば、高度なスキルを持たないユーザーにとっても、幅広い層が使えるようになるツールを利用できるようになりますから。ただ、それがソフトの潜在的な用途を制限してしまうこともあります。
NVIDIAが論文を発表
カナダのブリティッシュコロンビア州バンクーバーで開催される、「神経情報処理システム」年次会議で、NVIDIAの研究者たちが新しい論文「Learning to Predict 3D Objects with an Interpolation-Based Renderer」(内挿ベースのレンダラーで3Dオブジェクトを予測する方法を学ぶ)を発表しました。
そこには、新しいグラフィック・ツール「Differential interpolation-based renderer」(微分可能関数内挿をベースにしたレンダラー)、略してDIB-Rの開発について詳細が記載されています。
DIB-Rの使い方
NVIDIAの研究者らは、複数のデータセット上でDIB-Rのニューラル・ネットワークを訓練しました。そこには、以前に3Dモデルへと変換された写真、複数の角度から提示された3Dモデル、複数の角度から特定の被写体に焦点を合わせた写真のセットなどがあります。
たとえば、鳥のような特定の被写体を2Dから3Dにする方法について、ニューラル・ネットワークを訓練するのにはおおよそ2日かかります。ですが一旦完成すれば、これまでに分析されたことのない2D写真に基づく3Dモデルを、100ミリ秒以内に量産できるのだそうです。
応用範囲が広そう
この驚くべき処理速度が、このツールを特に興味深いものにしています。
なぜなら、ロボットや自律走行車のような機械が、眼前にあるものを認識して3D的に理解する方法が大幅に改善される可能性を秘めているからです。
たとえば、自律走行車がカメラで撮っている映像から生成した静止画像を、瞬時に3Dモデルに変換し、今から回避するべき大型トラックのサイズを正確に計測したり、ロボットが予定された形状に基づいてランダムな物体を適切に拾う方法を予測したりできるようになります。
凄まじい処理能力が監視社会を加速させるかも?
またDIB-Rは、瞬時に生成される3Dモデルが視界の中を移動する人物の画像照合を容易にするため、人物の識別と追跡を行う監視カメラの性能を向上させることもできそうです。
新しい技術はクールなものですが、この場合は監視社会を加速させる可能性を秘めた、恐ろしい面も持ち合わせているということは知っておきましょう。