ニュース
  • HOME
  • ニュース
  • 同期HTTP・WebSocketインタフェースの「話者ダイアライゼーション」に結果を調整するパラメータを追加しました

同期HTTP・WebSocketインタフェースの「話者ダイアライゼーション」に結果を調整するパラメータを追加しました

2023.10.02 アップデート

同期HTTP・WebSocketインタフェースを利用して「話者ダイアライゼーション」機能を使うときに、話者ダイアライゼーションの結果を調整するためのパラメータ(`diarizerAlpha`と`diarizerTransitionBias`)が利用できるようになりました。

今までは、非同期HTTPインタフェースであれば、結果が意にそわない場合、推定する話者の数の範囲を調整することでAPI利用者が結果を調整することができました。一方、同期HTTP・WebSocketインタフェースでは、API利用者が結果を調整することができませんでした。

今回の更新で同期HTTP・WebSocketインタフェースでは、下記2つのパラメーターで調整が可能になりました。

・新規話者の出現しやすさを制御するパラメータ
・話者の切り替わりやすさを制御するパラメータ

パラメータの調整により、話者の検出のされやすさを調整していただくことができるようになります。
詳細や利用方法については、下記マニュアルを参照してください。

■話者ダイアライゼーション マニュアル
https://docs.amivoice.com/amivoice-api/manual/user-guide/function/speaker-diarization/

■話者ダイアライゼーションとは
複数の話者が含まれる音声に対して、誰がいつ話したのかを推定する技術です。独自開発の音響モデルを用いて、事前学習なしで音声から発話者を推定し、発言内容と発話者を自動的に紐づけます。
会議や対面営業、面談、動画への字幕付与など、複数人が話をするシーンでご利用いただけます。
https://amivoice-tech.hatenablog.com/entry/2022/02/01/

APIを無料で利用開始