iPhone13の予約が開始されました。これを待てずについ2か月ほどまえにiPhone12を買ったばかりの私としては、少し悔しいです(笑)。
どのような機能が進化しているのか気になっているのですが、カメラ機能が中心のようですね。携帯電話で学生時代を過ごしスマホに移行した人間にとってスマホはやはりモバイル通信機器なのですが、スマホ端末の販売サイトを見ていると、携帯電話が進化したものというよりカメラが進化したもののように見えます。
通信速度はもちろん進化していますが、スマホのコミュニケーション機能については、様々なアプリに依存しています。コミュニケーション機能として進化が期待されるのは音声認識能力です。スマホに話しかけただけで、スマホが答えてくれたり、LINEなどのアプリで音声入力によるテキスト送信ができるのは、AIによる音声認識能力が向上したおかげです。
音声認識の研究自体は1970年代から行われていたのですが、なかなか使えるレベルになりませんでした。2012年にディープラーニングが音声認識でも用いられるようになったことにより、大幅に精度が向上しました。その後は、ナビゲーションシステムやAIスピーカー、そしてスマホなどに音声認識が導入されるようになりました。
しかし、みなさん、どのくらい音声認識を使っていますか?
昔よりは格段に良くなったとはいえ、人間に話すように普通に話してしまうと、誤認識が多くて、思わず笑ってしまうことが多いので、日常的に音声でスマホに話しかける人はいないのではないでしょうか。
今のスマホは、まだ「プンプン」がわからない
この記事を書くにあたり、今現在の音声認識能力を確認すべく、普通にスマホに話しかけてみました。とはいえ、いちいち“Hey, Siri!”と言わなければいけないので、致し方ないことはわかっているのですが、これもなかなかストレスです。
普通に話しかけてみたら、やはり認識してくれないので、「上手に音声認識してくれる方法教えて」と尋ねてみたら「アメリカンジョークを勉強したことがあります」と、始まり、面白いジョークを教えてくれました(笑)。オノマトペ(”ふわふわ”などの擬音語・擬態語)の意味が分かったり生成したりできるAIを開発している私としては、LINEが音声認識しない時に、「もうプンプンだよ」とあえてオノマトペを使ってみたら、「もう分分だよ」と変換されました(笑)。
ディープラーニングにより、画像認識型AIは人を超えるレベルに進化しましたが、音声認識型AIはまだまだのようです。
音声認識が画像認識の能力と同等レベルになる日を待っているうちに、もしかすると、考えただけで通信できるようになる日が来てしまうかもしれません。
2021年5月にNatureに発表された論文によると、「頭の中でイメージした手書き文字」を実際にコンピューター画面上に出力することに成功しているようです。体にまひがある人の脳にインプラントを埋め込むことで、手が使えない人でも、ロボットを操作したり、コミュニケーションができるようになると期待されています。
音声をテキスト変換する技術をSpeech-to-textと言いますが、これはBrain-to-text。頭の中で考えていることが見えてしまう、というSFのような世界が近づいてきているようです。そのうち「新型iPhoneでは思ったことが検索できるようになります」なんて発表される日が来るかも?
坂本真樹(さかもと・まき)/国立大学法人電気通信大学副学長、同大学情報理工学研究科/人工知能先端研究センター教授。人工知能学会元理事。感性AI株式会社COO。NHKラジオ第一放送『子ども科学電話相談』のAI・ロボット担当として、人工知能などの最新研究とビジネス動向について解説している。オノマトペや五感や感性・感情といった人の言語・心理などについての文系的な現象を、理工系的観点から分析し、人工知能に搭載することが得意。著書に「坂本真樹先生が教える人工知能がほぼほぼわかる本」(オーム社)など。