2

人間よりはるかに正確!? 読唇術を学習する人工知能

  • このエントリーをはてなブックマークに追加

by [2016年11月30日]

オックスフォード大学とGoogle DeepMindの研究者らは、機械学習が耳の不自由な人の大きな助けになるかもしれないという希望を示す論文を発表しました。
この論文によると、AIが読唇術をマスターしたということです。さらにAIによる読唇術は、人間をはるかに上回る正確性を持っています。
今は手話が耳の不自由な方の主要な会話のツールですが、この技術が普及すればもっと会話を楽しめるようになるかもしれませんね。

読唇術は非常に難解!

読唇術とは文字通り、相手の唇の動きを読み取ることで相手が何を話しているのか理解することです。しかし、文字は違うのに唇の動きは同じというものもあるため、読唇術を身に着けるのは非常に困難です。
上の動画は「読唇術はどのくらい簡単だと思いますか?」という題で、実際に読唇術に挑戦することが出来るという内容になっています。動画では約3秒程度の短い例が3つ挙げられていますが、どれも難しく、読唇術の奥の深さを感じられるのではないでしょうか。
読唇術を経験したことのないみなさん、是非一度上の動画で試してみてください。

AIが読唇術を習得!

このように読唇術は非常に難しいため、AIが読唇術を学習するには大量のデータセットが必要でした。
そのデータセットは、英国放送協会(BBC)が放映したコンテンツから得られました。その中でも話している人の顔が字幕とともに映っているもの数千時間分が用いられたそうです。放送には自然な表情が写っているので、多様なポーズや表現、背景、出身民族の影響が出ていましたが、これが逆に訓練や評価の手助けとなったといいます。

提供:オックスフォード大学/Google DeepMind

オックスフォード大学/Google DeepMindの発表より

人間をはるかに凌ぐ性能が証明

今回開発された技術について、人間にも達成できることとAIの性能とを比較するため、読唇術の専門家を呼んでテストが行われました。これは、BBCの映像から無作為に抽出された200本の動画中で話されている100字程度の文章を、専門家とAIの双方に解読してもらい、その正確性を比較するというテストです。
ここで言う読唇術の専門家とは、この分野で約10年の経歴を持ち、法廷や王族の結婚式でも読唇術の解読スキルを用いたことがある人を指します。つまりベテランの方です。
2
このテストで専門家は、動画中の人の顔全体を見るのは許されましたが、背景を見ることは禁止されました。これは字幕を読んだり放送の内容から予測したりすることが無いようにするためです。また、専門家は話されている単語を確信するために、10回は持続して見ても良いというルールも設けられました。
このように厳密に定められたルールの下でテストを実施した結果、専門家が正しく解読できたのは実際に話されていた言葉の1/4にも届きませんでした。これは以前の研究内容にも一致しており信頼できる数値です。
一方AIは、動画中の半数の言葉を正しく解読することができました。
この実験からは、AIの読唇術は人間をはるかに上回っていると言えます。

この論文中では、機械が唇の動きを読み取れるようになると、騒がしい環境で電話に指示やメッセージを書き取らせたり、複数の人間が同時に話している際の内容の理解に役立てたり、自動音声認識機能の性能を全体的に向上させたりできるだろうとも述べられています。
今回開発された読唇術技術は英語版ですが、日本語への早急な対応もお願いしたいと思います。

▼参考リンク
Lip Reading Sentences in the Wild(PDF)

タグ:
PageTopへ