【知っておきたい「AI技術」最新事情②】 2020年代の「AI技術」の基礎知識～画像処理に関するAI技術はどこまで進んでいるのか～　前編

2021.07.02

【知っておきたい「AI技術」最新事情②】 2020年代の「AI技術」の基礎知識～画像処理に関するAI技術はどこまで進んでいるのか～　前編

AI技術の基礎的な知識や最新動向、最新の事例などについて分かりやすく紹介する本連載（第一回目はこちら）。第二回のテーマは、画像処理に関するAI技術です。技術の現状と今後の展望について、AI技術について研究している博報堂ＤＹホールディングスマーケティング・テクノロジー・センター（MTC）の木下陽介、熊谷雄介、青木千隼に聞きました。

青木: 今回はより具体的にAIの画像処理技術が世の中でどのように活用されているかをユースケース別にお話しします。一つのユースケースを実現するためにさまざまな技術が組み合わされますが、代表的な技術が多く使われている下図の５つの事例について、ご紹介していきます。ただ、技術的なブレイクスルーによって状況も変わりますので、あくまで現時点での整理としてご理解ください。

―では、図の一つ目の自動車の自動運転ではどういう画像処理技術が使われているのでしょうか？

青木: 一般道における自動運転ではまず必要なのは標識や路面の文字などの認識です。止まらなくてはいけない場所や守らなくてはいけない車線などをあらかじめデータベース化してナビゲーションするやり方もありますが、標識や記号は日々変わるのでリアルタイムな認識も欠かせません。

熊谷: たとえば、前を走る車両に貼られたステッカーに赤い円の中央に白い線が描かれていた場合、「進入禁止」の標識と誤認識する可能性があります。なぜならば、AIが「『進入禁止』の標識はどのような図形であるか」を適切に学習していたとしても、「さすがに目の前の車に貼られることはないだろう」といった状況まで十分に学習できていない可能性があるからです。

木下: そういったことを無くすためにどういった範囲まで正確に認識を行うべきか、どこまでが実際の道路において判断しなければいけないタスクなのか、またはコスト面や運用面で現実的なのか、といった検討はAIエンジンの作り方に工夫がいる部分ですね。

青木: 次に歩行者などの飛び出し予測です。人間がどれくらいの距離にいて、体がどちらを向いていて、どれくらのスピードで動いているか、といったことから危険性を予測します。

熊谷: 常に動く車に搭載されたカメラの視界の中で、人間がどの領域にいるか判断し、箱のような形の図形でターゲティングします。そして、「人が歩いていて、3秒後にトラックの後ろに隠れ、その後また視界に現れるだろう」といったことをアルゴリズムで判断します。私たち人間が無意識で頭の中でやっていることを再現しているわけです。自動運転における画像処理は、様々な画像処理技術の組み合わせで出来ていて、まるで「画像処理の総合格闘技」です。これをリアルタイムに、かつ制限された計算リソースにて実現しなければならないため、非常に難度が高い領域です。

木下: 安全性に関わるので、画像処理を正確にできるかどうかは非常に重要です。先端の技術者はどうリアルタイムに処理できるかを追求しています。ですので画像処理技術だけでなく、通信のレイテンシー（データ処理の遅延）なども考慮してシステムを開発しており、AI技術に加えて周辺技術も組み合わせていくことが重要になってきており、複数の専門家が力を合わせて一緒に開発していく能力が求められてきていますね。

青木: そして三つ目がSLAM（Simultaneous Localization and Mapping）と呼ばれる技術です。簡単に説明しますと、あるカメラに写っている画像のデータを用いて、その空間における3D空間の地図を作成し、同時にその空間の中で自分がどこにいるのかを推定する技術です。人間は目で外の風景を見たときにみている空間とその空間において自分がいる位置を直感で出来るのですが、コンピューターの場合は、カメラを通して得られた平面の画像を活用して3D空間の地図を作成し、同時に、得られた3Dの空間地図内における自己位置を解析し自分がいる位置情報を取得します。GPSなど画像処理以外の技術を使っても自己位置を把握することは可能ですが実際には少しずれていますし、トンネルなどの電波や通信が使えない状況でもリアルタイムに自己位置を把握出来るのがSLAMを使うメリットです。自動運転はもちろんのこと、お掃除ロボットなど、ロボットの自律走行の文脈において活用が進んでいる技術です。

一般生活者向けの身近なSNSサービスでも、工場の業務支援などでも幅広く使われている画像処理技術（スマートフォンアプリ、工場などで既に使われているAI画像処理）

青木: 二番目のユースケ―スはカメラフィルターです。モバイルデバイスのカメラを用いたアプリケーションという観点で、便宜的にここではそう呼びます。例えば、スマートフォンの顔認証機能でロックを解除する機能です。その際、RGBの色が分かる一般的なカメラ以外に、暗闇でも顔を認識するための赤外線カメラや、3Dで顔の形状を理解するための深度センサーなどが使われます。3Dデータも含めてデータベースに登録し、本人の画像とマッチしているかの判定を高い精度で実現する事例が増えています。

木下: 映し出された映像にリアルタイムでメイクを施したり、動物の耳や鼻をを付けるスマートフォンアプリが流行っていますが、この技術が使われていますね。

熊谷: 目を大きくする、顎をシュッとさせる、涙袋を強調するといった加工も同じ技術ですね。カメラフィルターは人間の領域を推定して背景を切り抜く際にも使われています。以前は、グリーンバックでないと背景の切り抜きは難しかったのですが、今はリアルタイムにピクセル単位で人間の領域を切り抜いています。
あとは姿勢推定によるARコンテンツ表示ですね。単眼のカメラで撮った画像から、ユーザーの骨格を推定し、バーチャルの3Dモデルを動かせるようになりました。AR上のアバターにリアルタイムで自分と同じ動きをさせる、といった応用です。以前は大きなスタジオと複雑なモーションキャプチャーが必要でしたが、簡単に実現できます。

青木: 三番目のユースケースは製品の異常検知です。具体的には、製品の外観を見て異常があるかどうかを判断する「外観検査」と呼ばれる、工場ではよく行われている作業をAI技術を用いて効率化・省人化する取り組みです。これはAI技術の用途として、かなり早い段階から実装されてきました。
　正常品と不良品の画像を集めて、AIに学習させます。これにより、「傷が付いているもの」「白くて丸い形の物体が付着してしまったもの」などを分けられます。ただ、この方法には課題があります。一般的に正常品より不良品の方が数が圧倒的に少ないため、十分な学習データを集めるのが難しいのです。そこで発展したのが、正常品の画像のみを使った不良品の検出です。事前に学習した正常品の特徴に当てはまらないものを、不良品として検出します。

―後者の方法が万能に思えるのですが、これまでのアプローチとどう違うのでしょうか。

熊谷: 正常品の画像のみを使う方法は、多岐に渡る不良品のパターンに対応出来るというメリットはあるものの、モデルの学習が難しいという課題もあります。正常品の画像から、「正常品らしさ」を学ぶのは人間には簡単に思えてもアルゴリズムには難しいためです。そのため、どちらのアプローチで取り組むべきかにはドメイン知識が必要です。

木下: AIを使った異常検知にはまだ課題があるとは言え、そもそも人間が異常を判断する作業も非常に手間がかかりますし、見落としなどもあります。これをAIに置き換えることで、明らかなミスが減ったり作業が早くなったりといったさまざまなメリットがあるため、社会実装の実証実験/PoCが進んでいます。
　レントゲン写真からAIが病気を見つける、といった使い方も基本的にこれと同じです。人間では稀に見落としてしまう病気の兆候や症状を、AIが検知することもあります。

≪後編へつづく≫

この記事はいかがでしたか？

送信

木下陽介

博報堂　研究開発局　主席研究員
博報堂ＤＹホールディングス
マーケティング・テクノロジー・センター
開発1グループ　グループマネージャー
チーフテクノロジスト

2002年博報堂入社。以来、マーケティング職・コンサルタント職として、自動車、金融、医薬、スポーツ、ゲームなど業種のコミュニケーション戦略、ブランド戦略、保険、通信でのダイレクトビジネス戦略の立案や新規事業開発に携わる。
2010年より現職で、現在データ・デジタルマーケティングに関わるサービスソリューション開発に携わり、生活者DMPをベースにしたマーケティングソリューション開発、得意先導入PDCA業務を担当。
2016年よりAI領域、XR領域の技術を活用したサービスプロダクト開発、ユースケースプロトタイププロジェクトを複数推進、テクノロジーベンチャープレイヤーとのアライアンス、共同研究も行っている。
また、コンテンツ起点のビジネス設計支援チーム「コンテンツビジネスラボ」のリーダーとして、特にスポーツ、音楽を中心としたコンテンツビジネスの専門家として活動中。
熊谷雄介

博報堂ＤＹホールディングス
マーケティング・テクノロジー・センター
開発4グループ　上席研究員

通信業界を経て2015年博報堂入社。統計的機械学習を用いた購買予測、メディアプランニング、シミュレータ開発、動画像広告の効果予測、データフュージョンの研究開発、実案件対応に従事。
青木千隼

博報堂ＤＹホールディングス　マーケティング・テクノロジー・センター　開発1グループ　テクノロジスト

2017年博報堂入社。FMCG領域におけるマス/デジタルマーケティング業務に従事。2019年より現職、広告自動生成を中心としたAI,XR等先端技術のプロダクト開発、ID/データマーケティング領域におけるメディア企業とのアライアンス推進・ソリューション開発業務に従事。