テレビ番組や企画のプレゼンテーション、商品の紹介動画、社員の研修動画など、入力した文字から自動で読み上げ音声を作成する「音声合成ソフト」の活用が広がり、より高品質な有料サービスに注目が集まっている。デジタル化やAIの活用が急速に進む中、今後コンテンツの作成に音声合成ソフトの知識が必須になるかもしれない。代表的な音声合成ソフトや商用サービスの特徴をまとめた。
音声合成ソフトとは
音声合成ソフトとは、文字入力からナレーションを自動生成するソフトを指す。元々は目の不自由な人や細かい字が読めない高齢者向けに開発された。パソコンの画面上で文字を読むことが難しい人が日常生活にかかわる情報をインターネットで手に入れられるよう、県や市などの行政機関のホームページに導入されることが多かった。近年は活用の幅が広がり、民間企業のサイトにも導入されたり、動画コンテンツや企画のプレゼンテーションなどに使われたりしている例も見られる。
動画コンテンツにナレーションをつける場合、これまではナレーターと契約し、スタジオを借りて音声を収録することが多く、完成まで多大な時間と人件費がかかっていた。だが、音声合成ソフトを導入すれば、デスク上でコンテンツにナレーション音声をつけられるようになるため、時間と費用を抑えることができる。また、商品の仕様変更などで音声の差し替えが必要となった場合、読み上げに使った文章の内容を修正するだけで済むため、再収録の手間がかからない。
音声合成ソフトには、個人でも利用できる無料のものから、法人向けの高品質な有料のものまで様々だ。一般的に無料ソフトの場合、導入費用がかからない一方で、使用できる音声の種類が少なかったり、イントネーションの調整が難しかったりする。
有料ソフトの場合は、男性や女性、大人や子供など、複数の種類の音声から用途に合わせた声を選べるほか、イントネーションや声の高さの細かい調整が可能で、感情の起伏まで表現できるものもある。また、日本語以外の言語にも対応しているサービスもあるため、海外向けのコンテンツを作成する際にも活躍する。
ソフトによってサービスの内容が異なるため、有料ソフトの導入を検討する際には、コンテンツの内容に応じてソフトを選ぶ必要がある。以下に主な有料の音声合成ソフトの特徴をまとめた。
ReadSpeaker
1999年にスウェーデンで設立され、これまで世界62カ国に音声読み上げサービスを展開してきたReadSpeaker社が提供している音声合成サービス「ReadSpeaker」。日本語のほか、英語や中国語、韓国語など20カ国の言語に対応した多数の話者の声から読み上げ音声を作成することができる。
Windowsパソコン用のアプリ「speechMaker Desktop」では、読み上げ音声の作成後でも漢字の読み仮名や単語の抑揚、イントネーションを自由に変更することが可能となっている。日本語の場合、カタカナで表記できる単語であればアクセントをすべて再現できるという。また、よく使う単語を登録し、同じ発音を繰り返し使用できるユーザー辞書や、再生時間と文字数の計測、イントロやBGM用の外部音源の挿入など、コンテンツの編集を補助する機能も充実している。
ReadSpeaker社はパソコンとスマートフォン向けアプリや、ネットワーク型のシステムにReadSpeakerの音声合成機能を導入できる開発ツールも提供しているほか、利用者が選定したナレーターの声を収録し、その特徴を生かしたオリジナルの合成音声を作成するサービスも提供している。
AITalk5
「AITalk5」は会社エーアイが提供している音声合成ソフトで、収録した人の音声データをもとに、声の高さや変化パターン、音の長さなどの韻律情報をまとめた韻律辞書を作成し、それをもとに合成音声を作成する「コーパスベース音声合成方式」という技術を採用している。
また、最新のディープラーニング技術を活用し、入力されたテキストを解析して単語間の雑音等を減らし、なめらかで自然な音声に近づける「DNN音声合成方式」も採用しているため、感情の起伏や多様な発話表現が可能だ。
日本語で利用できる音声の種類は男性8人、女性10人の計18種類。声の特徴は大人や子供だけでなく、元気な声や落ち着いた声、標準語や関西弁も選べるため、複数の音声を利用した会話形式のコンテンツなどにも活用できる。
エーアイは他にも音声合成ソフトを提供しており、外国語に対応した「AITalk International」は英語や中国語、韓国語など40言語、54方言に対応した計123人の音声を利用できる。外国人観光客が訪れる観光スポットや、美術館や博物館などの公共施設、駅やデパートなどの商業施設で外国語のナレーションが必要になった場合、外国語のテキストさえ作成すれば、わざわざ外国語話者を手配して収録することなく、手軽に外国語のナレーションを作成することができる。
Amazon Polly
Amazonが提供している音声読み上げサービスで、利用料に応じて料金が変わる従量課金制を採用しているのが特徴だ。ウェブ上の画面に入力したテキストからすぐに読み上げ音声を作成し、ダウンロードすることが可能で、登録した初月から12カ月間は月に500万文字まで無料で利用できる。
日本語の音声の種類は3パターンと国内の音声合成サービスに比べると少ないが、外国語のラインナップが豊富で、英語は16種類、フランス語やドイツ語はそれぞれ4種類と計23言語、男女63人から自由に音声を選ぶことができる。また、Pollyもディープラーニング技術も採用しているため、読み上げ音声が自然な発音に近い。
ここまで主要な有料の音声合成ソフト・サービスを紹介した。AIが作成した読み上げ音声は、すでに人間の発声とほとんど変わらないほど自然な発音を実現している。だが、AI技術の進歩は著しく、ディープラーニング技術を採用しているソフトも多いため、今後学習データの蓄積によって、今以上の完成度の読み上げ音声を作成することができるようになるだろう。
テレビ番組やYouTube動画のナレーション、eラーニングの音声など、コンテンツの最先端にも音声合成ソフトが活用されている。時代に乗り遅れないためにも、読者の中にコンテンツ作成の担当者がいるなら、音声合成ソフトの導入を検討してみてはいかがだろうか。