【2024年】実際に使用している合成音声サービス(日本語、多言語)

ここ数年の合成音声(TTS:Text to Speech)技術進歩はめざましいものがあります。
弊社のeラーニング教材制作においても、合成音声を使用して納品する案件が多くなってきました。
今回は、2024年現在、弊社で実際に納品物として使用している合成音声サービスを紹介します。

2024年現在の使用ソフト

日本語:VOICEPEAK(株式会社AHS)

https://www.ah-soft.com/voice/6nare/

日本語の合成音声、いろいろ使ってきましたが、VOICEPEAKが発売されてからは、基本これを使っています。

  • ソフトウェアとして簡潔で使いやすい
  • 日本語としてとても自然で、調整もできる
  • 買い切りで安価

商用利用不可のソフトウェアは多数ある中、商用利用が可能で、かつ安価!
商用サービスだと、サブスクや従量課金が多い中、これはありがたいです。

外国語:Natural Readers

https://www.naturalreaders.com/commercial.html

英語を主とした外国語に関しては、良質なサービスが多数ありますが、最近はNatural ReadersのCommercialライセンスを契約して使用しています。

日本語以外のナレーション音声は、スタジオ録音するにしても高額になりがちなので「日本語版だけナレーター、英語版は合成音声」といった使い分けはかなり前からありました。

合成音声は安いのか?

合成音声について、よく言われる/聞かれることがあります。

合成音声のほうが安いよね?

いいよ、合成音声で。(そのほうが安いでしょ)

結論からいうと、弊社からの制作費用としては、以下のとおりです。

  • 日本語なら、ナレーターによるスタジオ録音とほぼ同額です
  • 外国語だと、合成音声のほうが安価になることが多いです

プロジェクト全体でみると…

プロジェクト全体としては、ナレーション録音のために関係者のスケジュールを調整し、時間も拘束される、という人的コストまで考慮すると、制作費が同じでも、合成音声のほうが安価といえるかもしれません。

制作会社の立場でいうと…

正直、スタジオ録音の数倍くらいは、音声の制作に工数がかかります。
※ スタジオやナレーターにお支払いしていた費用を内部で消費しています。

ただ、それよりも「修正ができてしまう」がために、修正にかなり工数をとられます。
もちろん読み間違いの修正はするのですが「イントネーション」の修正をやりはじめると、地獄のスパイラルに陥ります。

弊社で合成音声を要望される場合は「機械音声なので、多少のイントネーションの不自然さは許容してください」とあらかじめ念押しさせていただいております。
最近は、合成音声を耳にする機会も多いため、すんなり理解していただけるようになっています。

安いかどうかよりも

制作の立場としては、安いかどうかよりも「人間が読んだほうがよいか」「合成音声を作成したほうがよいか」で選んでいただければと思います。

その他合成音声サービス・ソフトウェア

最後に、上で紹介した以外に、弊社の業務で使用、あるいは具体的に導入検討したことがあるサービスを列挙しておきます

Google Text-to-Speech AI

https://cloud.google.com/text-to-speech?hl=ja

リアルタイムに合成する必要があり、アプリ等に組み込むなら、Googleのサービスが使いやすいです。
日本語の読み上げはいまいちです。

ブラウザ搭載のSpeech Synthesis API

https://caniuse.com/speech-synthesis

意外と知られていませんが、ブラウザで動作するコンテンツであれば、ブラウザの機能でリアルタイムに合成音声を生成し再生できます。

AITalk(株式会社エーアイ)

https://www.ai-j.jp/

自然な日本語音声の読み上げは、こちらのサービスがおそらく最高品質だと思います。
単体のソフトウェアやAPIによる生成など多数のライセンス形態があります。

Read Speaker(HOYA株式会社)

https://readspeaker.jp/

AITalkと同程度に、日本語の読み上が非常に自然で最高品質です。
こちらも多数のライセンス形態があります。

EmotiVoice(オープンソース)

https://github.com/netease-youdao/EmotiVoice

まだ注目しているという段階で実務利用はしていませんが、2023年11月に発表されたばかりの、感情表現豊かなオープンソースの合成音声エンジンです。言語は、英語と中国語のみ。
happiness(幸せ)、excitement(興奮)、sadness(悲しい)、anger(怒り)など、感情の指定をすることで、感情をこめて?読み上げてくれます。

さいごに

合成音声に限らず「eラーニングに音声を入れたい」などのご用命がありましたら、ぜひご相談ください。