HTTP音声認識 API及び WebSocket音声認識 APIに関連した以下の制限があります。
◆HTTP音声認識API
・受付可能な音声データの最大容量:16MB
HTTP音声認識APIには、一回でアップロードできる音声データの上限があります。この上限を超える音声データをアップロードする必要がある場合は、WebSocket音声認識APIを利用してください。
◆WebSocket音声認識API
・セッション維持最大時間:24時間
WebSocket音声認識APIを利用する際の、セッションを維持できる最大時間は24時間です。音声が送信中であるかどうかに関わらず、セッション維持時間を過ぎた場合には、サーバ側から切断処理を行います。その場合は、再度接続してください。
◆共通
・非音声区間による強制切断時間:50秒
音声認識サーバに送信されてくる音声データに対する発話区間検出処理が、50秒間にわたって発話開始を検知できなかった場合、発話を行っていないものとみなして、サーバ側から強制切断処理を行います。その場合は、再度接続してください。
※この切断が発生した場合、WebSocket音声認識APIでは、p応答パケットで以下のエラーメッセージが通知されます。
“p can’t feed audio data to recognizer server”
・ひとつの発話区間の最大時間: 30秒
音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。
※ 発話区間とは、1秒以上の無音時間(声のない時間)で区切られた「声のある」区間です。