【知っておきたい「AI技術」最新事情③】 2020年代の「AI技術」の基礎知識～自然言語処理に関するAI技術はどこまで進んでいるのか～　後編

2022.01.18

【知っておきたい「AI技術」最新事情③】 2020年代の「AI技術」の基礎知識～自然言語処理に関するAI技術はどこまで進んでいるのか～　後編

AI技術の基礎的な知識や最新動向、最新の事例などについて分かりやすく紹介する本連載。（第一回目はこちら、第二回はこちら）
第三回のテーマは、自然言語処理に関するAI技術です。技術の現状と今後の展望について、AI技術について研究している博報堂ＤＹホールディングスマーケティング・テクノロジー・センター（MTC）の木下陽介、藤井遼、青木千隼、久保田修平に聞きました。

前編はこちら

「正解が無いもの」にAIを使うのは難しい

久保田: AIの自然言語処理技術が具体的に世の中でどのように活用されているかをユースケース別にお話していますが、前編で取り上げた「文書分類」「テキストマイニング」「文章要約」に続いて、四番目のユースケースは翻訳です。
ある言語から別の言語にテキストを翻訳するもので、ブラウザから気軽に使えるツールなども普及しており使っている方も多いと思います。音声認識技術と組み合わせることで違う言語を話す人と会話できるようにしたり、画像認識と組み合わせて目の前にある外国語の文章を読めるようにしたり、ほかの技術と組み合わせたアプリケーションとして世に出ているものも多くあります。

藤井: 最近は一時に比べると収まりつつありますが、5年程前は研究分野として非常に大きなブームとなっていました。翻訳は、人が作成した文章を正解データとして用い、それにどれだけ似ているかを評価する、という点で要約に似ていますが、要約以上に評価が難しい技術だと言えます。要約の場合、人が書いた文章をとりあえずの正解として用いることができますが、翻訳の場合、元の文章にいくつかの解釈があるようなケースで、それを翻訳した文には意味が一つしかない、なんてケースは容易に想像できます。つまり、翻訳はそもそも一対一の正解があるかどうかが疑わしい分野なんです。
　従来の主流の研究はこういったところには一度目をつむり、とにかく多くの翻訳データを用意してそれを学習させることで精度を高めよう、といった考え方で進められていました。そのやり方で多くの翻訳文に対する平均的な精度は向上してきたのですが、個別具体の翻訳事例に対しては「正解がないために正確な評価が出来ない」となり、今は決定打が見つかっていないように感じます。最近でも「Aの方がBのサービスより翻訳の精度がよい」といった評価を聞くことはありますが、多くの場合は個別の事例に関する話であり、研究分野における精度の問題というよりは、各事例の学習データ量やそこから学習できるコツのような部分がどこまで反映されているか、といった違いによっています。

木下: 5年前に翻訳が流行した理由は何だったのでしょうか。

藤井: ディープラーニングが非常に流行った時期と重なっていました。ディープラーニングで何を研究すれば儲かるか、となったときに、需要が高くて何をしているのか理解しやすい翻訳が特に注目された、というのが大きかったのではないでしょうか。

青木: 翻訳と音声認識を使って同時通訳を行い、リアルタイムに会話する、といった場合、翻訳のスピードも大事だと思います。翻訳のスピードを追求しているような研究もあるのでしょうか。

藤井: そういったことを専門にやっている研究者もいます。ただ、最先端の研究が反映されるようなサービスであってもスマホの端末側で全ての処理をするというところまでは行っておらず、クラウドに一部のデータを送って処理をしたものを端末に返す、という流れは必ず入っているのではないかと思います。通信が発生する分、翻訳には時間がかかってしまいます。

木下: 映画の翻訳は直訳ではなく意訳ですよね。AIの翻訳がよりレベルを上げるためには、映画の翻訳のような意訳をできるにようにしなくてはいけないということなのですかね。

藤井: それも難しいところですね。映画の翻訳はプロの方が行っていますが、それに対して不満を持つ視聴者の方も現実には少なからずいらっしゃいます。ですから、意訳であっても正解データをどう用意するか、という同じことが問題になってしまいます。

久保田: 五つ目は文章作成です。コンピューターに文章を作成させる技術のことを指しますが、これにも様々なパターンがあります。0から作る場合もあれば、フォーマットに当てはめていく場合もあります。
　社内での活用例として、広告コピーの自動生成があります。過去のコピーを大量に学習させて、新しいコピーを作る、ということをやっています。クリエイターが作るレベルのものを出すのはなかなか難しいのですが、発想を支援する、インサイト得る、といったレベルであれば使えるのではないかと考えています。試行錯誤しながら取り組んでいるところです。

木下: これは社内では非常に需要がありますね。様々な形で取り組んできました。

藤井: これは人間がやっても難しい分野なので、やはりAIにも難しいです。面白いものを無から作り出したい、ということになるので、翻訳や要約のように「正解が無いかもしれない」といったものではなく、本当に正解がありません。
　プログラムとしては、ランダムな入力を入れて面白い広告コピーを作ることができるものが想像しやすいです。しかしこの場合、仮に一つ面白いコピーができたとして、「似たようなコピーを100個作ってくれ」と言われても、元の入力がランダムなので制御が難しいです。優れている部分に着目して、評価軸を無理やり加えてコントロールしようとすると、意外性のあるコピーは出力されなくなったり、他のタスクに使えないものになったりしてしまいます。
　この難しさは、文章の面白さに関する評価の複雑さにも起因しています。極端な言い方になってしまいますが、優れた小説があったとして、最後の1文を駄文に変えればそれは優れた小説とは言えないと思います。AIにはその小さな1文の違いを、文章全体の大きな意味の違いと捉えることが難しいです。こういった問題を解決できるようにならない限り、AIで無から面白いものを作り出すということは難しいと思います。

木下: 一方で、答えがある領域の文章であれば、AIを使って作成できるということですよね。

青木: あるサービスでは、リスティング広告用のクリックを促すための文章を自動作成しています。ランディングページの内容を要約して、検索サイトの品質スコアやクリック率に関わるようなワードを盛り込む、といった具合です。

藤井: 明瞭で、リンク先の文章の意味を反映しており、攻撃的でない、といったような文章を作成するのであれば、十分に有用だと思いますね。

木下: 広告コピーを作る、ということについて言うと、ニーズがあるのは「生活者の心を動かすような凄いコピーを作って欲しい」といったことではなくて、業務効率化に寄与できないか、ということです。例えば、一つのコピーをSNSのユーザー特性に合わせて少しだけ表現を変えて出し分けるケースが多くあります。そういった、各プラットフォームを使っているユーザーに合わせてコピーを少し変えるようなことをAIを使ってできないか、といったニーズがあり、そちらに対応できる業務支援プロダクトを検討していきたいと思ってます。

チャットボットは適切な質問をできるかどうかが大事

久保田: 六つ目は対話です。人からの質問に対して自動で返答を返すようなAI技術のことを指しています。身近なユースケースとしては、ECサイトや予約サイトで使われることが増えているチャットボットがあります。サイトに埋め込まれていることも増えており、実用化が進んでいます。

木下: 対話は、ここまでに紹介してきた技術を組み合わせているケースが多いのでしょうか。

藤井: そういうものが多くありますね。システムとして考えると、利用者のテキスト入力に反応してテキストを返す、と考えれば翻訳や要約の仲間だと捉えることができます。翻訳や要約と違うところは、会話には流れがあり、一方向に進んでいき、対話特有の事象がいろいろ起こり、それにどうやって対処するかが難しいということです。
　チャットボットとしてありがちですが、「対話」としては適切ではない例として、特定のキーワードが質問に出てきた際に決まった言葉を返すというシステムがあります。例えば「銀行口座」という言葉が質問に含まれていたら、他にどんな言葉が書かれているかに関係なく、普通預金口座の作り方についての紹介文を返すものです。
　そもそも銀行の窓口でやりとりする場合、口座を作りたいという方が来たら、行員の方は「何のために作る口座ですか」と質問しますよね。そして用途によって、普通預金ではなく当座預金だったり、外貨建ての預金を勧めたりするはずです。こういった会話のポイントの一つは、聞き返すことで情報を得るということです。ですから、チャットボットにおいても質問を適切にできることは「対話」を実現する重要な要素になります。

木下: ウェブサイトで使われているチャットボットの多くは、一つの質問に一つの回答を返して終わり、というものが多いですよね。そうではなく、サービス側から質問をしてユーザー側が抱える背景にある課題を見つけることができるのが、優れたチャットボットということですね。

藤井: よく聞くのが、「チャットは煩わしいのでWebフォームでいいのではないか」という意見です。確かにこれには一理あって、Webフォームを上手く使える人にはWebフォームは効果を発揮しますし、入力されたデータも扱いやすいです。しかし実際にはWebフォームを上手く使える人ばかりではありませんし、フォームに入力するよりチャットの方が苦にならないという人も多くいます。実際にSpontenaでチャットボットサービスを運営してみて、Webフォームが苦手な人やハードルを感じている人にとって、自然言語で対話的に入力することがいかに意味のあることなのかが分かりました。

青木: 企業がチャットボットに期待することとして、省力化のような守りの部分と、顧客のエンゲージメント向上のような攻めの部分が考えられると思います。Spontenaの場合は、どちらが多いのでしょうか。

藤井: 現状では守り、省力化を狙って始められる場合が多いですね。使っていくうちに、より発展的に使うにはどうしたらいいかとなっていき、さらにモチベーションが高まるともっと複雑なことも取り組んでみよう、という流れになります。

青木: 私はSpontenaがバックエンドで動いているサービスをよく使います。初めて使った際は、あまりに使いやすくて驚いた記憶があります。

木下: そのサービスの使用例を見ると、かなり言葉足らずだったり単語だけ入力したような場合でも、チャットボットが適切に言葉を返していますよね。これはどうやって実現しているのですか。

藤井: それはAIではなく、地道に辞書を沢山作って対応しています。「この流れでこういう言葉が入力されたら、こういう回答を期待している」といった流れをいくつも登録し、適切に答えを返せるようにしています。

木下: 効用や限界をしっかり理解して使わないと効果が出せないという点で、自然言語処理は画像認識などに比べてはるかに難易度が高い分野だと感じます。タスクやAIの適用箇所を明確化し、ユーザーの課題を解決できるタスクを特定し、開発内容を明確に定義することが非常に重要であり、それがしっかりできないと精度も上がってこないですし効果を発揮しません。我々はそういった開発プロジェクト計画を設計し、AI技術に詳しくない人でもわかるようにプロジェクトを推進していくことでこれまで様々な企業にお声がけいただいていることに繋がっていると思っています。

―今後の自然言語処理の展開について、それぞれがお考えのことを教えてください。

久保田: 自然言語処理は取扱いがとても難しい分野ですが、やはりユーザー体験をうまく設計することが大事だと思います。AIの精度はもちろん100%ではありません。だからこそ、精度80%の中でも成立するベネフィットやユーザー体験をうまく設計することが大事になると思います。
　また、はじめは精度があまり出ていなくてもユーザーがサービス利用することによって蓄積されていくユーザーデータは、AIの精度をより高めていくことに利用できます。ですので、そうしたデータを活用しながら継続的にAIの精度を高め、ユーザー体験としてもより良いものにしていけるような仕組みも合わせて設計することが大事だと思います。

青木: 私は普段、画像処理にAIを用いたプロトタイプやプロダクトを開発しています。自然言語処理は普段関わっている領域ではないのですが、今回お話を聞いたり、情報を見聞きする中で思うことは、自然言語処理はビジネス-エンジニアリング-クリエイティビティの三要素が重要であり、この最後の要素の存在により広告会社の強みを存分に活かせる分野なのではないかということです。画像処理であれば、ビジネスとエンジニアリングに集中することで多くの課題を解決することができますが、自然言語処理となると“言葉の妙”と言えるようなクリエイティブな要素が関わってきます。これまで広告会社が培ってきた言葉を匠に用いることで良質な体験を作る、あるいはビジネスの課題を解決するノウハウを掛け合わせることで大きなインパクトが生まれうる分野だと考えています。

藤井: 今日のお話では、“文法”という言葉を使いませんでしたが、以前は高度な自然言語処理研究であれば当たり前のように文法を対象にしていました。
　今日お話ししてきたように、現在は言葉の意味をベクトルに変換して計算できるようになったため、文法をあまり直接的には扱わなくなっています。ただ最近改めて考えてみて、そもそも文法だと考えていたものには意味が含まれており、その二つが容易に分離できないために認識に齟齬が生まれているのではないか、と思うようになりました。
　例えば、品詞に性別がついている言語があります。日本語にはそれがありません。つまり、日本人にとっての性別は意味の領域にありますが、品詞に性別がある言語を使っている人にとっては性別は文法にも属しているということになります。
　【知っておきたい「AI技術」最新事情③】前編の冒頭でお話した「分布仮説」について思い出してください。現在の技術で扱っている意味とはこの仮説に由来するというのはお話した通りですが、この範囲には定義から明らかに文法が含まれています。文法とは、昔の学者の方が沢山の文章から共通した法則を捉えたものです。つまり、文章を沢山読んでいけば統計的に分かることだと言えます。「文章を統計的に解析すれば発見できる法則」を文法だと定義するなら、今の機械学習から分かるのは、広く考えれば全て文法だといってしまうこともできます。結局、我々が現在機械学習で扱っている範囲というのは、学校で習うような「文法」よりはずいぶん広いですが、「意味」と言った時に想定するとても複雑な領域に比べるとはるかに狭いものだということです。
ですので、広告会社として自然言語処理を使ったソリューションを検討する際には、機械学習が扱える「文法以上意味未満」の領域の拡大を注意深く追いつつも、機械学習には扱えない深い意味についてもっと考えていく必要があると思います。

木下: 私はディープラーニングやAIに長年関わってきて、例えばディープラーニングでは、「広告を打てば売上が上がるという前もって暗黙知となっている法則性を一旦考えない」ということがセオリーと言われます。人間の経験でこの変数は大事だという過去の経験則は一旦忘れて計算機の力に任せたほうが精度があがるという話です。
　しかしAI技術を使ったプロダクト開発のプロジェクトに取り組めば取り組むほど、明確なタスクや法則性を見出したほうがAIを適用しやすいと感じる機会が多くありましたし、「AIを使って欲しい」ということでスタートした案件でも、法則性を見つけた結果、AIを使わずにルールベースでAIプロダクトを組んだほうが優れたUIやUXを作ることができたケースも多くありました。
　我々は以前から、どういった手法を使うかではなく、世の中の生活者の心をどうやったら動かせるのか、という視点で様々な法則性を見つける研究開発に取り組んできました。よく感じるのが、AI技術に向き合っていても結局いかに生活者の心を動かせるか、そこに答えるプロダクト開発に価値があるな、ということです。その部分を探求するのが博報堂らしいのかな、と思っています。

この記事はいかがでしたか？

送信

木下陽介

博報堂　研究開発局　主席研究員
博報堂ＤＹホールディングス　マーケティング・テクノロジー・センター　開発1グループ　グループマネージャー
チーフテクノロジスト

2002年博報堂入社。以来、マーケティング職・コンサルタント職として、自動車、金融、医薬、スポーツ、ゲームなど業種のコミュニケーション戦略、ブランド戦略、保険、通信でのダイレクトビジネス戦略の立案や新規事業開発に携わる。
2010年より現職で、現在データ・デジタルマーケティングに関わるサービスソリューション開発に携わり、生活者DMPをベースにしたマーケティングソリューション開発、得意先導入PDCA業務を担当。
2016年よりAI領域、XR領域の技術を活用したサービスプロダクト開発、ユースケースプロトタイププロジェクトを複数推進、テクノロジーベンチャープレイヤーとのアライアンス、共同研究も行っている。
また、コンテンツ起点のビジネス設計支援チーム「コンテンツビジネスラボ」のリーダーとして、特にスポーツ、音楽を中心としたコンテンツビジネスの専門家として活動中。
藤井遼

博報堂　研究開発局　主席研究員
博報堂ＤＹホールディングス　マーケティング・テクノロジー・センター　開発４グループ　主席研究員
株式会社Spontena　リサーチエンジニア

2014年博報堂入社。マーケティング・テクノロジー・センターで生活者データ分析や機械学習を用いたマーケティングソリューションの研究開発を担当。Spontenaではチャットボットの要素技術として自然言語処理を用いた研究開発を行いながら、顧客企業の業務プロセスとの統合を含んだ高度なチャットアプリケーション開発に従事。
青木千隼

博報堂ＤＹホールディングス　マーケティング・テクノロジー・センター　開発1グループ　テクノロジスト

2017年博報堂入社。FMCG領域におけるマス/デジタルマーケティング業務に従事。2019年より現職、広告自動生成を中心としたAI,XR等先端技術のプロダクト開発、ID/データマーケティング領域におけるメディア企業とのアライアンス推進・ソリューション開発業務に従事。
久保田修平

博報堂ＤＹホールディングス　マーケティング・テクノロジー・センター　開発1グループ　研究員

2019年博報堂入社。マーケティング・テクノロジー・センターで研究員として、ソーシャルデータ分析や機械学習技術を用いたソリューション開発に従事。