CRIミドルウェアのリップシンクミドルウェア(オートモーティブワールド2020)
もっと画像を見る
カーナビのガイド音声にアニメキャラの声優を使ったものがあるが、コネクテッドカーにAIエージェントが搭載されるようになると、音声だけでなく画面にアバターが表示されるようになるかもしれない。
エージェントを音声だけでなく画像を伴う場合、人や動物のアバターでの問題は唇の動きをどう再現する(リップシンク)かという問題がある。アニメーションでもこの処理はヘタをすると職人の手作業で口の動きを変えなければならない。この問題は、音声データやマイクの入力に対して、自動で唇の動きを再現してくれるしくみがあれば解決する。
CRIミドルウェアが展示していたADX LipSyncはまさにこれを実現してくれる。同社は、音声処理のミドルウェアを手掛ける会社。高価なDSPやアンプ(ハードウェア)を利用せず、高音質な再生といった信号処理をするソフトウェアを得意とする。たとえば、PC内蔵の安価なスピーカーでもデジタル信号処理を施した音声を作ることで、臨場感のある音、サラウンド(的な)再生を可能にする。車内オーディオなら、限られたスピーカー数でマルチチャネル、定位制御などもソフトウェアだけで対応させることもできる。
ADX2という音源のオーサリングツールももっており、ADX LipSyncと組み合わせて動画やゲーム音声やサウンドを統合的に作ることができる。また、各種開発環境、プラットフォーム(UnityやUnreal Engine 4など)にも対応し、生成できる動画モデルは2D、3Dどちらも対応する。アニメにも映画にも使えるということだ。
言語ごとの母音や特殊な子音・音素を識別できるので、多言語の母音、子音・音素に対応する。
デモでは、マイクの音声を直接拾って、画面上のアバター(アニメキャラ)の口を動かしていた。リアルタイムのシミュレーションが可能ということは、YouTuberは、モーションだけでなく口の動きもリアルに再生できるようになる。車載のAIエージェントがアバターを持つようになれば、その口の動きにも応用できる。