株式会社PLAY様
音声認識を使って動画コンテンツを字幕化。動画配信のためのストレージサービスがより使いやすく
メディアデータの管理や流通に特化したストレージサービス「KRONOS DRIVE」を提供する株式会社PLAY様。
同サービスは、放送局や動画配信サービスを展開している方に利用されています。
動画コンテンツの消費速度がどんどん速くなる昨今において、コンテンツの制作、流通を加速させるために音声認識がどのように使われているのか、PLAY CLOUD 本部 テックリードの丸山 健一様に伺いました。
課題・背景
消費スピードが速い動画配信業界で
迅速な配信をサポートするのに音声認識を活用
弊社は国内最大級の動画配信サービスを数多く手掛けていますが、昨今では若者世代を中心に「倍速視聴」などの視聴スタイルが広まるなど、コンテンツの消費速度はかつてないほどに高まっている状況です。
そのため、すでに完成しているコンテンツを配信するだけではなく、コンテンツの制作や流通を加速させるべく、放送局を始めとしたコンテンツホルダのお客様や、動画配信サービスを展開されているお客様などを支援するメディアサプライチェーンプラットフォームとして KRONOS DRIVE の提供を開始しました。
KRONOS DRIVEは、Google ドライブのようなストレージサービスで、メディアデータの管理や流通に特化しており、主なご利用用途としては、動画や画像などのデータの管理や外部への共有、簡易的な編集やフォーマット変換、配信サービスへの入稿など動画配信を進めるうえで必要な処理を簡単に行うことができます。
これまでのKRONOS DRIVEでは、既存の字幕データを変換することはできたのですが、そもそも字幕データが全くない状態から字幕作成が必要なケースも多く、そういった場合においてより迅速かつ簡単に字幕を作ることができるよう、音声認識技術を活用することにしました。
導入の決め手
認識精度の高さと「発話部分のみの課金」が魅力
放送関連の業界内での採用事例が多くあった点と、認識精度が非常に高かった点を考慮して AmiVoice API を採用しました。
また、実際に発話区間と認識された区間のみが課金対象となる(無音の部分は課金対象にならない)点も、他社サービスにはない特長で、これによりコストを最適化できるのも大きなポイントだと考えています。
また、API のインターフェースとしてはシンプルな作りでしたので、実装について特に難しさを感じることはありませんでした。
導入の効果
字幕化の作業がラクに迅速に
コンテンツによって得手不得手があるとは感じますが、日本語の音声認識に特化しているということで、概ね高い認識精度であると感じています。
生成 AI 系のサービスを使用すると意訳が入ることがありますが、AmiVoice API では元の音声に忠実に書き起こされる点も私たちのニーズに合っていました。
また、開発者の観点では、数時間程度の長尺のコンテンツであっても分割することなく 1 度のリクエストで処理できるため、シンプルに実装ができて良かったと思います。
本機能はリリース後まもない状況ではありますが、すでにいくつかのお客様にご利用をいただいている状況です。
一方で、音声認識 API を使用して書き起こした字幕をそのまま配信することは難しく、どうしても人間による確認や修正作業は必要になります。
KRONOS DRIVE ではこういった作業をラクにするためのさまざまな機能も提供しております。
今後の展望
KRONOS DRIVE の字幕書き起こし機能については、日本語以外の言語にもサポートを拡大したいと考えています。
AmiVoice API は現在英語と中国語、韓国語をサポートしていますが、今後さらに多くの言語がサポートされることを期待しています。
また、日本語と英語など複数の言語が混じっている音声の書き起こしについてもお客様から要望をいただくことがありますので、対応されると嬉しく思います。
サービス概要
KRONOS DRIVE はファイルやメタデータの管理、ファイル共有、動画編集、動画変換、配信プラットフォームへの入稿のために必要なすべての機能を備えたストレージサービスです。また、最先端の技術と国内最大規模の配信実績を有する株式会社 PLAY では、プレミアムコンテンツの配信に必要なあらゆる機能を備えたオールインワンプラットフォーム「PLAY CLOUD」を提供しております。コンテンツの配信や流通に関してお悩みの場合は、是非とも弊社までご相談ください。
社名 | 株式会社PLAY |
---|---|
事業内容 | 動画ソリューション事業 |
URL | https://play.jp |