tape

編集部は“テープ起こし”から解放されるのか?クラウド型音声認識を採用した『VoXT』を試す

  • このエントリーをはてなブックマークに追加

by [2013年11月27日]

 株式会社アドバンスト・メディアが、ライターや編集者垂涎の文字起こしサービス『VoXT』を公開しました。VoXT(ボクスト)は、音声認識をクラウドベースで提供しており、下記のような特長を持っています。

  • 文字起こしに特化した便利な音声再生プレイヤー
  • 音声認識を使った分だけ支払いができる従量課金制
  • ホームページから簡単申込み。クラウド型なので、日々音声認識の精度が進化
  •  日々文字起こし作業に苦労している編集部で、さっそく試させてもらいましたよ!

    文字起こしって本当に大変なのです

    筆者は、映像編集ソフト『Vegas Pro』を、テープ起こしや波形編集でも使用している

     文字起こしは、かつての録音メディアの名前からテープ起こしとも言われますが、インタビューやセミナー、会議をICレコーダー等に録音し、その内容をテキスト化する作業のことです。
     作業時間>録音時間となり、対象が1時間、2時間に及ぶのは当たり前。ヘッドホンを装着しての長時間の集中力が求められます。さらに、しゃべっている人が複数になるともう何が何だか…。
     このため、専用のツールはもちろん、文字起こしを専門に請け負う業者も存在するくらい大変なのです。

    以前の録音データで実験

     はじめにお断りしておきますと、公式サイトには音声認識システムについて下記のように説明されています。

    録音マイクと発話者の口との距離が約5センチ程度で、周囲のノイズがほとんど無い状態であれば、音声認識システムで高精度な文字変換が可能となります。
    音声認識システムは、非常にデリケートであるため、人が聞き取りやすくても、ICレコーダーを会議室のテーブルの上に置いて、マイクと発話者が遠い状態や、講演発表などの演者の声が会場スピーカーで流れるのを録音するなどでは、残念ながらほとんど文字変換ができません。また、複数の人が同時に喋り音声がかぶってしまっている場合なども、音声認識システムで文字化することは困難になります。

    インタビューは、社内にあるオープンな会議スペースにて、女性が男性に話を聞くもので、録音はテーブルに置いたICレコーダーで行なった

     このほかにも、指向性マイクの使用が推奨されているなど、なかなか厳しい要件です。
     とはいうものの、編集部としては、これまでどおりの録音方法できちんと変換してもらえれば、それに越したことはありません。そこで、以前インタビューを行なった時の録音データの一部を使って実験してみました。

     VoXTには、発注前の段階で、文字変換に適した音声なのかを確認できる1分間のお試し機能があります。今回はこの機能を使って変換精度を確かめてみることにします。

     音声文字変換には、対象音声ファイルの3~4倍程度の時間がかかるとのこと。ちなみに1時間のファイルを変換してみたところ、かかった時間は2時間45分ほどでした。
     無料体験では、1分のファイルを2回まで処理することが可能です。この長さのファイルであれば、変換処理は数分で終わります。せっかくなので、2回処理してみたのですが、変換結果に違いはありませんでした。
     それでは、変換結果をご覧ください。

    原文(しゃべった内容そのまま)
    レコーダー近い男性 まあ、著作権対策、まあこれ、パクリって訴えられないための対策っすね。この人が言ってるのは。
    レコーダー遠い女性 ああ~
     まあ、素材はちゃんと自分で作ろうっていう。うん。
     でも、ライセンスを活用することってたぶんそっち側ってことですよね。
     うん、そうですね。許諾とれば、あの、大丈夫っていう。むしろ逆に大丈夫っていう。
     (笑)
     で、許諾取って何かあった場合は、その、許諾出したほうの責任と。
     うーん。
     とですね、特許権の部分は、えー、対策無いってまあこれはあの、えー自分が誤って侵害してしまうほうの対策っていうのは、無いっていうか、たまたま、あの、侵してしまう特許っていっぱいあると思うんですよ。

    お試し文字変換の結果
    著作権財産+129.0でないからあいさつをしたり、総裁がちゃんと自分で作ろうっていう。
    今先生の挨拶は別ですねいただくためだ。
    退職金なしで客に対する意見で調査等でなかった場合バス
    ただ下した方の責任
    そうですね。
    東京電力は、桜井さんもあればOKなんで心配してしまうものですって
    第10回たまたま犯してしまう。特許権があると思いますよ。

     いかがでしょうか? どの言葉がどの変換結果に対応しているのかがわかりにくく、レコーダーから遠かった女性の声はほとんど認識されていないようです。
     推奨録音環境では無かったので覚悟はしていましたが、そのまま記事に使うには厳しい結果となりました。

    変換後はエディタで仕上げよう

     音声認識だけに目が行きがちですが、VoXTはもう1つ目玉機能として、文字起こしエディタ『VoXTアプリ』を搭載しています。変換結果の精度にかかわらず、テキストの仕上げはこのエディタで行なうことになります。

    このためだけにインストールしておいても良さそうな文字起こしエディタ『VoXTアプリ』

     変換後に編集を開始すると、専用のエディター『VoXTアプリ』が起ちあがります。
     ここでは、発言箇所ごとに変換結果がリスト化されており、文章を選択して再生すると、該当の波形部分がループ再生されます。繰り返し聞いて、変換で不十分な部分をきちんとした日本語にすることができたら、次の文章へ…という感じで文字起こしを進めることになります。
     文字起こしに特化したツールを音声認識からシームレスに利用できるので、作業効率が格段にあがります。

     音声認識→エディターの連携やエディターそのものの出来が好印象でしたが、やはり文字起こし作業を劇的に改善してくれるのは音声認識機能です。VoXTは日々音声認識の精度が進化していくとのことなので、APPREVIEWでは機会を見つけてもう一度評価してみたいと考えております。

    VoXTの価格表
     登録から2週間は無料お試し期間として、1時間分の音声ファイルを無料で文字変換する事が可能です。
    VoXT公式サイト

    ▼録音環境を整えて検証した記事はこちら
    編集部は“テープ起こし”から解放されそうな気配…クラウド型音声認識の正しい使い方

    コメントは受け付けていません。

    PageTopへ