【2026年】GoogleのAI音声がVOICEPEAKを超えた!?

1年半ほど前に「【2024年】実際に使用している合成音声サービス(日本語、多言語)という記事を書きましたが…あれから大きく状況が変わりました。
タイトルのとおり、GoogleのAI音声が超進化して「VOICEPEAKを超えた!?」という状況になっています。

前回記事のGoogle Text-to-Speech AIの評価

ずばり、以下のように書いておりました。

日本語の読み上げはいまいちです。

当時の音声を記事に入れておけば比較できたのですが…これが本当に進化しました。

音声デモ

以下の原稿を読ませてみました。

Plaintext
まず「DX」とは一体何なのか、その基礎から見ていきましょう。
DXとは、Digital Transformationの略です。直訳すると「デジタルによる変革」となりますが、単なるデジタル技術の導入を意味するわけではありません。経済産業省が提唱するDXの定義は、非常に示唆に富んでいます。
経済産業省の定義では、DXとは「企業がビジネス環境の激しい変化に対応し、データとデジタル技術を活用して、顧客や社会のニーズを基に、製品やサービス、ビジネスモデルを変革するとともに、業務そのものや、組織、プロセス、企業文化・風土を変革し、競争上の優位性を確立すること」とされています。
この定義は少し長く感じるかもしれませんが、DXの本質を理解するための重要なポイントが凝縮されています。一つずつ、丁寧に紐解いていきましょう。

サンプル1 女性(Zephyr) 落ち着いたナレーション

サンプル2 女性(Zephyr) 明るめに抑揚をつけたナレーション

サンプル3 女性(Zephyr) 関西風のイントネーション

サンプル4 男性(Ferrir) 落ち着いたナレーション

いかがですか?
かなり自然ですよね。

しかもこれ、無調整です。VOICEPEAKは、読み間違いやイントネーションを調整するのにそこそこ手間がかかっていましたが、これは、無調整でこのクオリティが出力されます。

GoogleのAI音声の特徴

圧倒的な自然さ!

無調整で、圧倒的な自然さが凄いです。
VOICEPEAKも、かなり自然なのですが「調整が必要」という前提がありました。

プロンプトで指定ができる

VOICEPEAKにない特徴として「プロンプト」で読み方の指定ができます。上のデモは、以下のような指定をしていました。

サンプル1と4

Plaintext
社会人向けのeラーニング教材のナレーションです。
落ち着いて聞きやすい声で、信頼感を感じる読み方をしてください。
イントネーションは「NHKイントネーション辞典」に準拠した標準語で読んでください。
サンプル2
Plaintext
社会人向けのeラーニング教材のナレーションです。
親しみを感じるよう、抑揚をつけて明るいトーンで少し速めに読んでください。
イントネーションは「NHKイントネーション辞典」に準拠した標準語で読んでください。

サンプル3

Plaintext
社会人向けのeラーニング教材のナレーションです。
親しみを感じるよう、抑揚をつけて明るいトーンで少し速めに読んでください。
関西弁のイントネーションで読んでください。

このように自然言語で指示をだせるのは便利です。

※「NHKイントネーション辞典」に準拠した標準語と指定してみましたが、準拠できているかまで検証できておりません。

話者が豊富

VOICEPEAKは6ナレーターセットという製品で、その名の通り6話者分が入っていたのですが…この記事の執筆時点で話者の数が30も用意されています。話者ごとにイメージと読む速さ(ピッチ)も書かれていて、分かりやすいです。しかも、多言語対応。もう言語関係なく同じ話者を使えます。

音声の一覧はこちらにあります。
https://ai.google.dev/gemini-api/docs/speech-generation?hl=ja

2人の話者の掛け合いができる

掛け合いの音声も、一発で作成できます。
VOICEPEAKでも掛け合いになるよう設定することは可能でしたが、1つ1つ話者を設定する必要がありました。

プロンプト・台本と生成された音声です。

Plaintext
YouTube用の台本です。
語り手=研究者で信頼感のある口調
助手=視聴者目線で親しみやすい口調
視聴者が共感できるよう、感情を込めたトーンとしてください。
助手: スマホやタブレット、ついつい子供に見せすぎてしまうんですが、やっぱり罪悪感があるんですよね。今日は科学的な解決策を聞けると嬉しいです。

語り手: わかりました。まず、最も気になる「何歳からなら大丈夫か」という点ですが、2022年の最新のメタ分析では、2歳未満のスクリーン視聴開始は言語発達に悪影響を及ぼす可能性が高いと結論づけられています。

助手: やっぱり2歳が一つの目安なんですね。でも、言葉を覚える知育アプリなら良い、という話はありませんか?

語り手: 確かに、特定の語彙を増やすという肯定的なデータも一部にはあります。ですが、全体的な研究結果を統合すると「否定的な影響」が上回っているのが現状です。特に、親が子供に直接話しかける時間が減ってしまうことや、背景でテレビがついているだけで赤ちゃんの遊びの質が下がることもわかっています。

助手: つけっぱなしも良くないんですね……。でも、実際問題として、家事の最中や親が疲れている時にスマホに頼らずに育児をするのは、現実的にかなり厳しいです!

デメリット:細かい調整が難しい

細かいイントネーションや読みの調整が難しいです。

不可能という訳ではありませんが、SSMLという特殊なタグを書く必要があり、VOIEPEAKの直感的なインターフェースにはかないません。

SSMLの公式ドキュメント
https://docs.cloud.google.com/text-to-speech/docs/ssml?hl=ja

デメリット:基本的にはエンジニア向け(UIが英語のみ)

GoogleのAI音声サービスは、基本的にWebサービスを開発するエンジニア向けとなっています。

エンジニアが動作検証をするためのPlaygroundというサイトで音声の生成ができるのですが、そのUIは英語のみとなっていますので、慣れが必要です。

まとめ

かなり革新的な進化をとげているので、ぜひ使ってみてください。
次回、具体的なGoogleのAI音声の作り方を紹介する予定です。

最終更新日: 2025-12-22