制限事項について - AmiVoice Cloud Platform

3種類の音声認識 APIの各々について、以下の制限があります。

◆ WebSocket音声認識API

・セッション維持最大時間:24時間

WebSocket音声認識APIを利用する際の、セッションを維持できる最大時間は24時間です。音声が送信中であるかどうかに関わらず、セッション維持時間を過ぎた場合には、サーバ側から切断処理を行います。その場合は、再度接続してください。

・非音声区間による強制切断時間:50秒

音声認識サーバに送信されてくる音声データに対する発話区間検出処理が、50秒間にわたって発話開始を検知できなかった場合、発話を行っていないものとみなして、サーバ側から強制切断処理を行います。その場合は、再度接続してください。
※この切断が発生した場合、WebSocket音声認識APIでは、p応答パケットで以下のメッセージが通知されます。
“p can’t feed audio data to recognizer server”

・ひとつの発話区間の最大時間: 30秒

音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。
※ 発話区間とは、1秒弱以上の無音(声のない時間)で区切られた「声のある」区間です。

◆ 同期HTTP音声認識API

・受付可能な音声データの最大容量:16MB

同期HTTP音声認識APIには、一回でアップロードできる音声データの上限があります。この上限を超える音声データをアップロードする必要がある場合は、非同期HTTP音声認識APIを利用してください。

・非音声区間による強制切断時間:50秒

音声認識サーバに送信されてくる音声データに対する発話区間検出処理が、50秒間にわたって発話開始を検知できなかった場合、発話を行っていないものとみなして、サーバ側から強制切断処理を行います。その場合は、再度接続してください。

・ひとつの発話区間の最大時間: 30秒

音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。
※ 発話区間とは、1秒弱以上の無音時間(声のない時間)で区切られた「声のある」区間です。

◆ 非同期HTTP音声認識API

・受付可能な音声データの最大容量:2.14GB

非同期HTTP音声認識APIには、一回でアップロードできる音声データの上限があります。

・ひとつの発話区間の最大時間: 60秒

音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。
※ 発話区間とは、1秒弱以上の無音時間(声のない時間)で区切られた「声のある」区間です。

・非音声区間による強制切断時間:制限なし

発生しません。

・音声認識結果の保存期間:7日間

音声認識処理が終わって、結果を保存し始めてから7日間サーバで保存します。その後、削除されます。

・マイページの音声再生機能

マイページの音声再生機能には対応していません。