音声フォーマットについて - AmiVoice Cloud Platform

本サービスに送信できる音声データのフォーマットは、以下の通りです。
[フォーマット名]が、接続時に指定する文字列です。

16KHz未満(8KHz/11KHz)のサンプリングレートの音声データを受け付けて認識可能なエンジンは、現時点では汎用エンジン( -a-general )のみです。その他の領域特化型のエンジンは16KHz以上のフォーマットの音声データを送信してください。

対応音声データ形式フォーマット名 *3
raw – PCM LittleEndian 16bit – 8KHz – mono lsb8k
raw – PCM BigEndian 16bit – 8KHz – mono msb8k
raw – PCM LittleEndian 16bit – 11KHz – mono lsb11k
raw – PCM BigEndian 16bit – 11KHz – mono msb11k
raw – PCM LittleEndian 16bit – 16KHz – monolsb16k
raw – PCM BigEndian 16bit – 16KHz – mono msb16k
raw – PCM LittleEndian 16bit – 22KHz – mono lsb22k
raw – PCM BigEndian 16bit – 22KHz – mono msb22k
Wave 音声 (PCM) – LittleEndian 16bit – 8KHz/11KHz – mono/stereo *2 8k
Speex *1 音声 (Ogg コンテナ) – 8KHz/11KHz – mono/stereo *2 8k
Opus *1 音声 (Ogg コンテナ) – 8KHz/11KHz – mono/stereo *2 8k
Wave 音声 (PCM) – LittleEndian 16bit – 16KHz以上 – mono/stereo *2 16k
Speex *1 音声 (Ogg コンテナ) – 16KHz以上 – mono/stereo *2 16k
Opus *1 音声 (Ogg コンテナ) – 16KHz以上 – mono/stereo *2 16k

*1 Speex : quality 7以上 、Opus :圧縮率10分の1程度までとなります。
*2 stereo音声の場合、1チャンネル目のみが音声認識処理対象となります。
*3 フォーマット名は、大文字小文字が区別されません。

※ rawと書かれた音声データ(ヘッダレスデータ) を送信する場合には、いついかなる時も、 エンディアンとサンプリングレートを正しく表現するフォーマット名を指定してください。 実際の エンディアンもしくはサンプリングレートと、指定されたフォーマット名が一致してない場合には、認識精度が著しく悪い結果 (ほぼ認識できていない状態) となりますので、十分にご注意ください。

※raw以外の音声データ(ヘッダあり)を「HTTP音声認識API」で送信する場合には、音声認識サーバはフォーマット名の指定よりもヘッダ情報を優先して採用し、常に適切な音声認識処理を行います。

※raw以外の音声データ(ヘッダあり)を「WebSocket音声認識API」で送信する場合には、音声認識サーバは 受け取った音声データのサンプリングレートについて、ヘッダ情報 よりもフォーマット名の指定を優先して採用します(エンディアンやステレオ音声かどうかの判定はヘッダ情報に従います)。 従って、 WebSocket音声認識API の場合で、 8KHzと16KHzの各専用モードの備わった エンジン(現時点では汎用エンジンのみ)を利用する場合には、たとえ「ヘッダありの音声ファイル」を送信する場合であっても、8kもしくは16kの指定を正しく使い分けることで、余計なアップサンプリング処理やダウンサンプリング処理を回避することができ、その結果、認識精度がよくなります。