おすすめ検索キーワード
世界中の言語の発話映像を自動生成する画期的ツール──「AIマルチリンガルスタジオ」
TECHNOLOGY

世界中の言語の発話映像を自動生成する画期的ツール──「AIマルチリンガルスタジオ」

コミュニケーションにおける動画コンテンツの重要性がますます高まっています。動画にはメッセージを印象的に、かつわかりやすく伝える力がある一方で、収録や制作にコストと時間がかかるという問題もあります。その課題を解決できるツールが、英国のベンチャー企業のAIエンジンを使った多言語動画生成ソリューション「AIマルチリンガルスタジオ」です。博報堂プロダクツが開発したこのソリューションの機能や可能性について、サービス責任者の納庄正樹に聞きました。

映像と音声を組み合わせ、自然な発話映像を生成する

──「AIマルチリンガルスタジオ」の開発のきっかけをお聞かせください。

納庄
もともとは、あるクライアントからの「タレントのAI映像」がつくれないかというご相談がきっかけでした。人気タレントを起用する場合、映像を何度も撮影するのは時間的にもコスト的にも難しいという問題があります。そこで、タレントをAIでリアルなキャラクターにし、肖像権をお借りしてプロモーション映像に使うことはできないか。そんなご相談でした。

それを実現できそうなソリューションを探したところ、英国のベンチャー企業が開発した多言語動画生成AIのクオリティが非常に高いことがわかりました。タレントをAI映像化するプロジェクトは、スケジュールなどの都合で結局実現しなかったのですが、この製品を数多くのクライアントの課題解決に役立てることはできないかと考え、パッケージソリューションにしたのがAIマルチリンガルスタジオです。

──このソリューションにはどのような機能があるのですか。

納庄
人物の映像を撮影して、それをAIに学習させることで、その人物が自然に話す映像を生成できるソリューションです。話の内容は、既成のボット音源を使うことができます。キーボードで文章を入力し、言語を選ぶと、それが音声になり、動画とシンクロして、まるでその人が実際に話しているような映像が生成されます。

──AIの学習のもとになる映像の撮影には時間がかかるのですか。

納庄
カメラに向かって日本語と英語の原稿を読み上げてもらうだけなので、トータルで1時間程度で終わります。AIはその映像から、例えば眉毛の動きとか口の開き方など、その人が話すときの癖を読み取り、表情まで再現することができます。AIの学習に要する時間は10日くらいです。

──話す内容の入力の手間はどのくらいあるのでしょうか。

納庄
それも簡単です。15秒くらいの長さの原稿であれば、キーボードで入力したあと、1分くらいで生成されます。

──ボット音源にはさまざまな言語が用意されているのですか。

納庄
女性の声で話す言語が52言語、男性の声で話す言語が46言語用意されています。女性の声が多いのは、女性の声の方が活用されるケースが多いということだと思います。もちろん、その中に日本語の音声も含まれています。

──日本語の発話も自然に再現されるのでしょうか。

納庄
そこには、実はまだ課題があります。西洋圏の言葉は、口の動きも含め本当にその人が話しているように見えるくらいほぼ完璧に再現されるのですが、日本語は世界の言語の中ではかなり難しい言葉なので、英語やヨーロッパの言葉ほど流暢に再現されないのが現状です。多少「機械っぽい感じ」が残ることは否めません。とはいえ、原稿を読み上げること自体には何の問題もありません。その精度をどう評価していただけるかだと思います。

──ボット音源は本人の声ではないわけですよね。

納庄
そうなんです。映像と声を同じ人物のもので統一したいときには、その人の声を別途収録する必要があります。タレントなど著名人を起用する場合は、その方法が好ましいと思います。顔はよく知っている人だけれど声はボット音源、というのはやはり不自然ですから。別途、音声を用意して、その人の声を生成する方法もありますが、まだまだ自然な音声を生成するのは難しいようです。

イベント、インナーコミュニケーション、EC──想定される多様な活用法

──このソリューションは、どのようなクライアントニーズに合致すると考えられますか。

納庄
例えば、海外から多くの人が参加する大型イベントにおけるインフォメーションなどにお使いいただけると考えています。映像を一つ用意するだけで、ボット音源でほぼすべての参加者にメッセージを伝えることが可能になります。

もう一つ可能性があると考えられるのは、グローバル企業のインナーコミュニケーションです。日本で開発した製品を海外展開する場合に、海外支社のスタッフにその製品の説明をしたり、販売トレーニングをしたりするのにお使いいただけると思います。開発担当者やプロダクトマネージャーなどが語りかける映像を使えば、メッセージもより伝わりやすくなるのではないでしょうか。

──メディアなどにもお使いいただけるかもしれませんね。

納庄
ええ。ニュースや天気情報を多言語で伝えるといった使い方は大いにありうると思います。

──最近は、ECサイトで動画を使うケースも増えてきています。ECの買い手とのコミュニケーションにAIマルチリンガルスタジオで生成した動画を使うこともできそうです。

納庄
おっしゃるとおりですね。例えば、ECで高額商品を買ったり契約をしたりするのはまだ心理的ハードルが高いと思いますが、映像を使って、店頭で店員が接客してくれるようなコミュニケーションができれば、そのハードルはぐっと下がると思います。顧客の問いかけを想定して、それに対する応答原稿を用意しておけば、対話に近いコミュニケーションを行うことも可能です。映像を使った対話によって、最初のコンタクトから購買や成約までの導線をつくるといった方法は非常に有効なのではないでしょうか。

──AIマルチリンガルスタジオを使うことのクライアントメリットをあらためて教えていただけますか。

納庄
コストとスピード。大きくはその2つのメリットがあります。コストに関しては、一回契約していただければ、1年間何度でもソリューションを活用することが可能です。ボット音源の使用にも制限はありません。ほかに必要なのは、撮影にかかるコストくらいです。タレントを起用してそのつど撮影したり、CGでデジタルキャラクターを制作したりすることと比べれば、圧倒的な低コストで映像を活用することが可能です。

一方のスピードに関しては、必要な作業は原稿作成、映像に登場する人の人選、撮影、AIの学習でほぼすべてなので、早ければトータルで2週間程度で一連の工程を完了させることが可能です。

──ソリューションのアイデア例がありましたら紹介ください。

納庄
例えば、清楚な女優が方言の強いおばあさんの声で話すといったギャップのある映像などは、クリエイティブとして面白いですよね。ぜひ、クリエイターの皆さんにもお使いいただきたいと思っています。

ソリューション活用の先行事例をつくりたい

──このソリューション展開において、博報堂プロダクツはどのような力を発揮できるのでしょうか。

納庄
AI動画生成のテクノロジーとサーバーは提供してもらうのですが、それ以外の原稿制作、撮影、テキスト入力、あるいは別途の音声収録といった作業はすべて私たちがサポートします。例えばテキストを入力する際にも、映像とうまくシンクロさせる入力のコツがあったりします。そういったノウハウもすべてご提供します。

さらに、その映像を使った企画やプランニングなども私たちが得意とするところです。社内にはプロモーションのプロが多数いますし、博報堂DYグループのリソースを活用すれば、あらゆるコミュニケーション施策を実現することが可能です。

──ソリューションに興味を持たれた読者の皆さんに向けて、最後にメッセージをいただけますか。

納庄
技術的に画期的なソリューションであることは間違いありません。しかし、新しいテクノロジーなので、実際に使ってみないとわからないところも多いと考えています。例えばPOC(実証実験)のような形でご一緒させていただき、このソリューション活用の先行事例をつくるパートナーとなっていただければ幸いです。まずは、気軽にご連絡をいただけると嬉しいですね。

sending

この記事はいかがでしたか?

送信
  • 博報堂プロダクツ
    デジタルプロモーション事業本部
    アクティベーション・プランニング部 部長
    九州で焼酎メーカーや通信会社を中心に、さまざまなプロモーションに従事。2016年、デジタルプロモーション事業本部発足と同時に拠点を東京に移動。クライアント業務をおこないながら、若いプランナーの育成や新たなソリューション開発等に積極的に取り組んでいる。