導入事例

AmiVoice API

株式会社テレビ朝日クリエイト様

正確かつ速い生放送の字幕付与が、専門スキルなしで実現できる製品を開発。

    利用サービス
  • API

左から下永𠮷 寛之様、横山 岳史様、LIM・JOOSUK様

元来、生放送番組に付与する字幕テキスト制作については、「高い入力スキル」や「高い認識精度を出せるリスピークスキル」が必要となり、専門スキルを持った人材が必要でした。テレビ朝日クリエイト様では、長年培ってきた生字幕制作に関する知見とAIを組み合わせることによって、「生字幕制作に高い専門スキルは不要」でありながら「視聴者に対し正確で読みやすい字幕を提供」できる製品「J-TAC Pro」を開発。開発の背景とAmiVoice採用の効果について、同社の字幕制作局 リアルタイム字幕部 兼 開発運用部 下永𠮷 寛之様、字幕制作局 開発運用部 横山 岳史様、CG制作局 CGシステム部 LIM・JOOSUK様に伺いました。

課題・背景

生放送の字幕制作では専門スキルを持つ人材の確保が課題

リアルタイム字幕の主な制作方式としては、
・人間が放送音声を聞き起こしてタイピングする方式(高速入力方式)
・放送音声をリスピークして音声認識でテキスト化する方式
・放送音声を音声認識に直接かけてテキスト化する方式
の3つが挙げられます。

これまでテレビ朝日クリエイトでは人間が放送音声を聞き起こしてタイピングする方式(高速入力方式)を用いていましたが、これに対応できる高速入力者の業務負荷が年々増大していたことに加えて、このような特殊なスキルを持った人材を確保することも課題となっていました。これらの課題を解決するために、新しい制作方式として「放送音声を直接音声認識して誤認識箇所を修正する方式」を確立し、その実現のためにJ-TAC Pro を自社開発することとしました。

2012年にAmiVoiceの当時最新の音声認識技術に触れたことがきっかけで、2013年にはパッケージ字幕制作の一部を自動化する支援システム「J-TAC」をリリースしました。その後も様々なシステムの開発を行ってきましたが、実運用にこぎつけられたシステムもあれば、運用面での諸問題を乗り越えられずに挫折してしまったシステムもあり、ここまで試行錯誤の繰り返しとなっていました。
それが、近年の音声認識技術の劇的な進化と音声認識エンジンを手軽に活用できる「AmiVoice API」のサービス開始により、これまで抱えてきた諸問題を克服する可能性を見いだせたことが採用の理由となります。

導入の効果

発話から字幕付与までのタイムラグの大幅削減に成功

従来方式(高速入力方式)によるリアルタイム字幕付与は発話から文字起こししているために、どうしても発話から字幕付与までに遅延が発生していました。

この遅延をいかに小さくするかがAI 音声認識による生字幕制作システムの開発においても課題ではあったのですが、「J-TAC Pro」開発当初の仕様では発話単位で音声認識結果を出力していたため、発話者が息継ぎなどをしないで一気にしゃべった場合には認識結果を出力するまでに長時間かかっていました。そこから校正作業を行うことで発話から字幕付与までの遅延が従来方式よりも大きくなることが課題でした。

この遅延の問題をどうしても解決する必要があり、長期間にわたって試行錯誤していました。御社の技術者との意見交換の場「音声認識エンジンから送信される認識結果の途中確定情報を取得する方法」があることがわかり、この方法を新たに採用することで発話から校正作業開始までの時間を大幅に短縮することに成功しました。話から字幕付与までの遅延を従来方式と同じか、さらに小さくすることが可能となり、「J-TAC Pro」の開発は一気に前進しました。

「数字の音声認識結果が間違えることがほぼなく、すごい」などユーザーからは高い評価

ユーザー企業からは具体的には以下のような反応をいただいています。

・対象番組(ニュースなど)における音声認識の精度が他社製品と比較して高い
・ニュースなどで事前に固有名詞などが判明していない場合でも、音声認識エンジンへの単語登録が簡単に行えることがよい
・他社製品と違い、音声認識中の途中確定情報が取得できることで、校正作業をいち早く開始することができるため、発話から字幕表示までの遅延を少なくできる
・注目度の高いニュースにおける固有名詞が音声認識エンジンに反映されるまでのタイムラグが短い
・弊社では数字情報を多く取り扱っている番組で使用しているが、数字情報については音声認識結果が間違えることがほぼない。すごいと思った!

認識精度や機能については、弊社においても同じ印象を持っています。
また、AmiVoice APIには各ユーザーの利用状況を確認できる機能があるのも助かっていますし、不具合や要望などの技術的な問合せと回答のやりとりがスムーズなのにも安心しております。

音声認識端末の画面

校正端末の画面

今後の展望

多くのテレビ放送局の省力化に寄与できるように

2024年4月より静岡朝日テレビにおいて、生放送番組で「J-TAC Pro」を使用してリアルタイム字幕付与が開始されました。次いで2025年1月からはテレビ東京においても、一部の生放送番組に対して「J-TAC Pro」を使用してリアルタイム字幕付与が開始されました。「J-TAC Pro」が他のテレビ局の省力化にも寄与できるように、さらに便利なシステムへと改修していきます。また将来的には本システムがテレビ放送だけでなく様々な動画配信サービスでも利用していただけるように、新しいサービス展開の検討と新機能追加を積極的に進めていきます。

サービス概要

AI生字幕制作システム「J-TAC Pro」は、テレビ放送における字幕放送のうち「生放送番組に付与する字幕テキスト制作」を、「より簡単、より効率的、より迅速」に行うことのできる画期的な製品です。
放送音声をAI音声認識が高精度でリアルタイムにテキスト化、さらにAI自動改行機能で視聴者が読みやすい字幕となる改行挿入までも自動処理化したことで、人間はAI音声認識の誤認識箇所を修正するだけで生字幕テキストとして完成させられることが特長となっています。

サービス詳細はこちら>

社名 株式会社テレビ朝日クリエイト
事業内容 テレビ番組等の美術プロデュース、イベント等の企画・制作、字幕制作ほか
URL http://www.tv-asahi-create.co.jp
APIを無料で利用開始