制限事項について - AmiVoice Cloud Platform

HTTP音声認識 API及び WebSocket音声認識 APIに関連した以下の制限があります。

◆HTTP音声認識API

・受付可能な音声データの最大容量:16MB

HTTP音声認識APIには、一回でアップロードできる音声データの上限があります。この上限を超える音声データをアップロードする必要がある場合は、WebSocket音声認識APIを利用してください。

◆WebSocket音声認識API

・セッション維持最大時間:24時間

WebSocket音声認識APIを利用する際の、セッションを維持できる最大時間は24時間です。音声が送信中であるかどうかに関わらず、セッション維持時間を過ぎた場合には、サーバ側から切断処理を行います。その場合は、再度接続してください。

◆共通

・非音声区間による強制切断時間:50秒

音声認識サーバに送信されてくる音声データに対する発話区間検出処理が、50秒間にわたって発話開始を検知できなかった場合、発話を行っていないものとみなして、サーバ側から強制切断処理を行います。その場合は、再度接続してください。

・ひとつの発話区間の最大時間: 30秒

音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。

※ 発話区間とは、1秒以上の無音時間(声のない時間)で区切られた「声のある」区間です。