テレワークの生産性を上げるオンライン会議効率化サービス「Telelogger」 開発の裏側と今後の展望
博報堂アイ・スタジオは7月末にオンライン会議の作業を効率化するクラウドサービス「Telelogger」のβ版の提供を開始しました。
同サービスは音声認識によって会話をテキスト化する機能に加え、事前にアジェンダを共有したり、会議の進行をよりスムーズにするための共同編集や、会議後の議事録の作成を効率化する機能などを備えています。開発の経緯、具体的なサービス、今後の展開などについて同社ビジネス開発ユニットの平川育男ゼネラルマネージャー・プロダクトマネージャーと河津正和テクニカルディレクターに聞きました。
社内での研究リソースとコロナ禍での課題意識が生み出したTelelogger
──Teleloggerを開発したきっかけを教えて下さい。
- 平川
- 我々が所属する博報堂アイ・スタジオは今年で設立20周年になります。これまでデジタル制作やWeb制作を中心としたマーケティング支援などを手掛けてきたのですが、全社の成長速度を加速するため、社内の多様なリソースを活かして領域拡張に取り組んでいます。我々の部門ではBtoBのSaaS事業で新規のソリューションを立ち上げるというミッションが決まりました。その担当が私と河津になります。
今年4月から大小様々な事業案を40~50程検証しており、「Telelogger」の取り組みはそのうちの一つです。以前から社内のエンジニアが音声をブラウザで認識する技術を研究目的で開発しており、これに河津が着目し、現在のコロナ禍において増えているテレワークの支援に使えるのではないかと提案してくれました。
「音声認識」をテレワーク支援に使おうと思った経緯ですが、コロナ禍で移動することがなくなった分オンライン会議の数が急速に増えており、発言の内容は聞き取れても話者が誰か分かりにくく議事録を取るのに苦労している、といった課題を周囲から聞くことが増えていたからです。また、オンライン会議を楽にするためのプロダクト自体がまだあまりないことにも気がつきました。そこでオンライン会議の無駄を無くし、作業を減らすためのサービスを我々で作ることに決めました。
コロナ禍の現在だけでなく、今後“アフターコロナ”と呼ばれる状況になったとしても、働き方の概念が変わりつつあるので、人のコミュニケーションや知識の共有はオンラインに移っていくのではないかと感じています。会社で近くの人にちょっと質問する、といったことがこれからはどんどん減っていくはずです。
そうした状況を踏まえて現在のオンライン会議を考えると、「誰が話したか分からない」「タイピングの音が気になり議事録を取りづらい」「会議やファイル共有のために使っているツールが人によって異なり、後から検索する時に困る」といった課題があり、これらの解消は欠かせないと思うようになりました。
──コロナ禍でのテレワークの課題把握においてリサーチなどはされましたか?
- 平川
- まず開発にあたって、現状で音声認識と会議の効率化に関するサービスを片っ端から研究しました。また、そういったサービスを導入したり、必要とされている企業の経営者の方たちにヒアリングをさせていただきました。以前博報堂DYグループの社内起業プロジェクトで新規事業を立ち上げた経験を生かし、世の中の大きなデータを見るよりも、多くの現場の人の声を聞いて、その声から共通するものを吸い上げることを心掛けました。
──テレワークを支援するTeleloggerの特徴的な機能についてご説明いただけますか。
- 平川
- コアとなるのはやはり音声認識による文字起こしの機能です。
テレワークでは複数人がいる打ち合わせだと、誰がどんな意見を言ったか判別しづらいことも課題です。Teleloggerでは、話者を認識して文字起こしするので、誰が何を話したのかを後からでも確認できます。それに付随した重要な機能は、会議後にアクセスして会議の内容を簡単に振り返ることができる機能です。音声の録音も残るので、もし文字起こしに誤変換があり内容がよく分かりにくい場合でも、簡単に音声を確認してテキストを編集できます。
二つ目は、会議に関するアジェンダ、目的、オンライン会議ツールのURL、参加者など会議に関する情報を一括で管理できる点です。カレンダーのアプリと連携して、普段の予定と会議の予定をまとめて見る、といったことも可能です。また、会議の進行支援機能で、テンプレートを利用することで会議を簡単に進行できます。会議は人によって準備の仕方に差が出てしまう、テンプレートを活用することで同じフォーマットで会議の進行を進めることができます。
──「音声認識による文字起こし」についてもう少し詳しく伺わせてください。
- 河津
- 博報堂アイ・スタジオでは、日頃、新しいテクノロジーやアイディアを共有する文化が根付いています。ある日、私の後輩のエンジニアが「こんなのを作ってみたよ」と共有してくれたプログラムがTeleloggerの元になりました。パソコンのブラウザ上で音声を認識しリアルタイムに変換しています。
話者を認識して文字を起こせているのは、会議に参加する参加者のパソコンごとに音声を取得し、紐付けているからです。ここは「オンライン会議」という形を強みに変えた点です。
と言いますのも、リアルの場で話者の認識をしようとする場合、一つのマイクに集音された音から話し手の違いを認識する必要がありますが、技術的に難しいため完全には実用化まで至っていません。しかし、オンラインであれば、話者ごとに使っているマイクが異なるので「このマイク・PCから来る音声はこの人」といった具合に、簡単に話者を特定できます。
──音声認識は、音声入力などで少し前から盛り上がっていた印象があるのですが、正確さなどで課題も多かったように感じます。現在の技術ではいかがでしょうか?
- 河津
- 3~4年前から技術自体は揃っていて、コロナ禍の需要によって音声認識、文字起こしの技術が再度盛り上がってきた、という印象です。オンラインでのやり取りをはじめ、社会の様々な場面に相性のいい技術だと思いますし、技術的にもビジネス的にも、改めて注目されていると思います。博報堂アイ・スタジオとしても、過去に音声認識を使ったサービスを外部向けに提供した事例があります。直近だと、2019年に3DCG女子高生Sayaが神奈川県・鎌倉女学院高等学校の生徒たちと会話する「1日転校生Saya」のプロジェクトです。その際にも、「どういう環境であれば音声を認識できるか」といったことは色々と検討してきました。こういった様々な施策や、エンジニアが積み上げて来た知識、ノウハウが背景としてあったので、今回Teleloggerでは、素早くサービスを開発できました。
──データの安全性についてはどう考えていますか。クラウド上に会議のデータが残ることを不安に思う方もいらっしゃると思います。
- 平川
- 会議の音声や文字起こしなどのデータは、当然我々開発側も見ることはできませんし、会議の参加者しかアクセスできないように制限をかけています。我々が変換精度を高めるための作業を行う際にも、生データを加工して切り出したものを使っているので、全体のデータがどうなっているかは分からないようになっています。
セキュリティに関しては博報堂アイ・スタジオはPマークを取得しており、セキュリティ対応に特化したメンバーも多く在籍しています。一番お問い合わせが多い点ですので、我々としても非常にシビアに取り組んでいます。
日常の業務に溶け込むUI /UX
──開発の工夫や苦労などがあれば教えてください。
- 平川
- 文字起こし自体は、オープンに利用できるAIエンジンのAPIを利用することで、かなり高い精度で認識できますので、ベースとして利用しています。ただ、これをそのまま会議で使おうとすると音声が認識されるまでにタイムラグがあるせいで、発言している人が「認識が成功しているのかな」と不安に感じるのではないかと思いました。そこで別の技術を併用しています。
- 河津
- 既存の音声認識技術では、認識された言葉が画面に表示されるまで2~3秒かかってしまいます。これが不安を感じさせる要因なのですが、ラグがないように見せるために“音声を聞き取った議事録担当の人がその場でタイピングしている”ような具合で表示しています。このようにすれば、“認識されている感”を演出できますし、単純に使っていて気持ちがいいと思います。
またAIエンジンや音声に関しては、独自の処理を加え、より認識精度が向上するような技術的工夫も行っております。
- 平川
- BtoB向けのサービスは、見た目が堅苦しかったり、操作が複雑なものが多い印象です。今では多くの人が、スマホやPCで、toC向けの便利で使いやすいサービスを利用しています。ですので、今回心掛けたのは、より親しみやすく、使いやすくすることでした。なるべく文字を使わずにイラストを使ったり、よく使われているコミュニケーションサービスと連動した際に違和感のないデザインになるようにも工夫しました。
サービスのアップデートと今後の展望
──Teleloggerはこれで完成ではなく日々アップデートを重ねていると伺いました。
- 平川
- 現在は、特に文字起こしの精度を高めることに尽力しています。既存の技術を使えば認識率が90%程度になることは一般的に分かっているのですが、音声認識の使い勝手をより良くするためには、認識率を上げることよりも文脈に沿った変換をどれだけできるか、といった部分が重要になります。例えば日本語は改行や句読点によって読みやすさが変わるので、そういったところに取り組んでいますね。
- 河津
- どうしても意図した形で変換されないということもやはり起きるので、一つ一つ言葉の選定を学習させるような地道な作業もやっています。今はイヤホンを付けて使っていただくのを推奨しています。これは音声認識の精度が上がるからなのですが、PCからそのまま音を出して会議に出席したい方も多くいらっしゃると思うので、PCから出力した音もフィルタリングできるようにしていきたいと考えています。
また、今は日本語に特化するようにチューニングしていますが、英語など他言語に対応したチューニングも可能です。今後ニーズがあれば追加していけたらと検討しています。
──今後追加したい機能はありますか。
- 平川
- 実装したいと考えながらまだ完成していない機能は山のようにあります。今回β版という形でスピード感をもって制作しましたので、必要と感じる機能は今後どんどん追加していきます。正式版ではより会議に特化したエディタや、決まったことをタスクとして振り返り管理できるような機能を付加できるよう、現在開発しております。
将来的には、会議の発言により個人のナレッジが見えてくると企業としても新しい発見や暗黙知を顕在化するのに繋がるのかなとも思っています。発言から「この人はこの事象に詳しそうだ」と分かれば、その話題について知りたいときはその人に質問する、といったことが可能になりますよね。
Teleloggerによって、会議の無駄と会議にまつわる無駄な作業を0にし、日々の業務の生産性向上に貢献していけるように、さらに改良していきたいです。
──Teleloggerをどういう業種、どういうお悩みをお持ちの企業様に使っていただきたいですか。
- 平川
- 多くの企業にお使いいただきたいですが、強いて言えば、オンライン会議でやり取りされることが多い企業におすすめしたいですね。普段のオンライン会議と一緒にTeleloggerを活用することで、より便利に業務を遂行できるようになると思います。今回ヒアリングした企業では、未だにICレコーダーで会議を録音して、会議の逐語録を作っている企業の方もいらっしゃいますので、そういった風習が残っている企業、組織の方々に是非お勧めしたいですね。
個人でもご利用いただけるので、まずはご自身の発言を記録したり、ウェビナーの文字起こしに使いたいという方にもお使いいただけたらと思っています。
オンライン会議効率化クラウドサービス Telelogger
https://bit.ly/3hZozKt
この記事はいかがでしたか?
-
博報堂アイ・スタジオ
ビジネス開発ユニット
ゼネラルマネージャー・プロダクトマネージャー
-
博報堂アイ・スタジオ
ビジネス開発ユニット
テクニカルディレクター