多くの労力がかかる音声書き起こし作業

2019年03月14日、株式会社東芝は、リアルタイムで会議や講演などにおける発話を高精度にテキスト化し、読みやすい字幕を表示する「会議・講演向け音声自動字幕システム」(以下、同システム)を開発したと発表した。

多くの聴覚障がい者が社会で活躍しているが、会議や講演では必要十分な情報を得ることができないため、情報を保障する施策の拡充が求められている。

このため、会議や講演の字幕表示や、記録としての書き起こしなどが行われているが、現在は、多くの労力がかかっている状況だ。

一方で、今後は労働力不足が加速すると懸念されており、音声書き起こし作業の代替手段として、音声認識AI技術に対する期待が高まっている。

「会議・講演向け音声自動字幕システム」の概要

同システムでは、高精度音声認識AIとリアルタイム字幕化技術によって、聴覚障がい者の業務をサポートし、生産性の向上を実現するとしている。

音声認識AIでは、「ええと」「あの」などのフィラーや「きょ、今日は」などの言いよどみが発声された場合の音響的特徴を学習する音響モデルを用いており、フィラーや言いよどみを検出することが可能だ。

このため、リアルタイム字幕表示の際に、フィラーや言いよどみを薄く表示することで視聴者の読みやすさを向上させ、ドキュメントとして残す際には消去して簡潔な形で仕上げることができる。

また、言語モデルとして、言いよどみが検出された場合、その単語をスキップして連鎖スコアを計算するため、通常の文章にはないイレギュラーな単語の連鎖をモデル化する必要がなくなる。

同システムを、5つのメインセッションがある実際の講演で実証実験を行ったところ、編集や事前学習を行うことなしに、発言内容が把握できるレベル85%の平均音声認識率という結果になったとのこと。

(画像は東芝公式ホームページより)

▼外部リンク

東芝 ニュースリリース
http://www.toshiba.co.jp/rdc/detail/1903_01.htm