【Voice Engine】15秒間のスピーチを真似してしゃべるAIをOpenAIが開発!一般公開日は不明
OpenAIが15秒の声をコピーして、そっくりな音声を生成することができるAI「Voice Engine」を発表しました!(読み方は”ボイス・エンジン”です。)
1. Voice Engineは何がすごい?
Voice Engineの凄いところは、本物の音源そっくりな音声を生成できることにあります。
たった15秒間の音声サンプルだけで、似た音声を出すことができるのは今までの音声AIと比べて革新的といえるでしょう。
OpenAIがテキストを音声に変換するAPIの開発を始めたのが2022年の後半です。同じ時期にChatGPT 音声機能の開発が始まりました。
テキストを音声に変換する機能は音楽アプリSpotifyでも活用されており、ポッドキャストの別の言語に翻訳する際に使われているようです。
Voice Engineはさまざまなインターネットの音源を元にトレーニングされたそうですが、ファイン・チューニングはされていません。
自然な音声を再現するために、ディフュージョンプロセスとトランスフォーマーを活用しているようです。
そのおかげで、わずか15秒という短い音源をコピーすることで、本物そっくりな音声をだすことができるようになったと言われています。

(引用元:OpenAI公式サイト)
2. Voice Engineは他の音声AIに勝てるのか
OpenAIというAI界のトップリーダーが音声AIを発表ことは注目に値するでしょう。
しかし、Eleven LabsやReplica Studiosといった他の音声AIがすでに市場にでている状態ではあります。
後出のVoice Engineは音声AI界で普及するのでしょうか。
Tech Crunchの調査によると、Voice Engineが100万字の音声を生成するのにかかるコストは15ドル(約2250円)だそうです。
ライバルサービスであるEleven Labsは10万字で11ドル(1650円)かかることを考えると、Voice Engineの方がコストパフォーマンスは良いといえるでしょう。
ただ、Voice Engineには声の調整機能がついていません。
15秒間の録音した声がそのまま音声の質に反映されるため、望む声が作れないといった不便さはあると考えられそうです。
一方、Eleven Labsは声のトーンやピッチなどを調整することができるので、よりユーザーが聞きたい声を再現しやすいです。
3. Voice Engineはいつ公開?
Voice Engineが公開されるかはまだわかっていません。
ただ、OpenAIはVoice Engineが悪用されないように入念な確認作業を進めているようです。
オープンソースとして公開することも検討はされているもののリスクが大きいため、いまだ検討段階であるようです。
OpenAIのプロダクトスタッフ、ジェフ・ハリス氏はインタビューで「私たちはこの技術の危険性を理解しており、その対策を講じている」と答えました。
今日、AIを使ったディープフェイクが蔓延しており、詐欺や政治的プロパガンダにおいて使用されています。
そういったリスクを抑えるためOpenAIは慎重に開発を進めていることがわかります。
一般公開されるとしても、ハッキング対策やセキュリティのチェックが必要になるので、リリースは当面先になることが予想されます。
いま分かっていることは、OpenAIは最初、約10グループのディベロッパーにのみVoice Engineを公開するということです。
その10グループに共通するのは「音声」をテーマにしたビジネスを提供していたことでした。
10グループのうちに、教育に特化したITサービスを提供する「Age of Learning」、動画生成AIプラットフォームの「HeyGen」などが含まれています。
4. ディープフェイクとして悪用される危険性はある?
Voice Engineがディープフェイクとして悪用される危険性は低いと考えられます。
その理由は、Voice Engineには音声用の「透かし」がつけられることが明らかにされているからです。
ハリス氏はインタビューで、「透かし」を回避する方法がないとは断言しなかったものの、回避耐性があることを明らかにしています。
OpenAIがVoice Engineによって生成された音声を聞き分けることは簡単とも明言していることから悪用される危険性はかなり低くなると予想されるでしょう。
参考文献 ・Navigating the Challenges and Opportunities of Synthetic Voices ・OpenAI built a voice cloning tool, but you can’t use it… yet ・OpenAI previews voice generator, acknowledging election risks