音声フォーマットについて - AmiVoice Cloud Platform

本サービスに送信できる音声データのフォーマットは、以下の通りです。
[フォーマット名]が、接続時に指定する文字列です。

16kHz未満(8kHz/11kHz)のサンプリングレートの音声データを受け付けて認識可能なエンジンは、現時点では日本語の「会話_汎用」エンジン( -a-general )のみです。その他の領域特化型のエンジンは16kHz以上のフォーマットの音声データを送信してください。

対応音声データ形式フォーマット名 *3
raw – PCM LittleEndian 16bit – 8kHz – mono *4lsb8k
raw – PCM BigEndian 16bit – 8kHz – mono *4 msb8k
raw – PCM LittleEndian 16bit – 11kHz – mono *4lsb11k
raw – PCM BigEndian 16bit – 11kHz – mono *4 msb11k
raw – PCM LittleEndian 16bit – 16kHz – monolsb16k
raw – PCM BigEndian 16bit – 16kHz – mono msb16k
raw – PCM LittleEndian 16bit – 22kHz – mono lsb22k
raw – PCM BigEndian 16bit – 22kHz – mono msb22k
raw – mu-Law 8bit – 8kHz – monomulaw
raw – A-Law 8bit – 8kHz – monoalaw
Wave 音声 (PCM) – LittleEndian 16bit – 8kHz/11kHz – mono/stereo *2 *4 8k
Wave 音声 (mu-Law) – 8kHz – mono/stereo *2 *48k
Wave 音声 (A-Law) – 8kHz – mono/stereo *2 *48k
Speex 音声 (Ogg コンテナ) – 8kHz/11kHz – mono/stereo *2 *48k
Opus 音声 (Ogg コンテナ) – 8kHz/11kHz – mono/stereo *2 *4 8k
MP3 音声 – 8kHz/11kHz – mono/stereo *2 8k
Wave 音声 (PCM) – LittleEndian 16bit – 16kHz以上 – mono/stereo *2 16k
Speex 音声 (Ogg コンテナ) – 16kHz以上 – mono/stereo *1 *2 16k
Opus 音声 (Ogg コンテナ) – 16kHz以上 – mono/stereo *1 *2 16k
MP3 音声 – 16kHz以上 – mono/stereo *2 16k

*1 Speex : quality 7以上 、Opus :圧縮率10分の1程度までとなります。
*2 stereo音声の場合、1チャンネル目のみが音声認識処理対象となります。
*3 フォーマット名は、大文字小文字が区別されません。
*4 現在 8kまたは11kを指定できるのは日本語「会話_汎用」エンジンだけです。

※「HTTP 音声認識 API」で「raw 以外の音声データ(ヘッダあり音声データ) 」を送信する場合のみ、例外的に「フォーマット名」の指定を省略できます。それ以外の場合は、必ず実際の音声データ形式に対応する「フォーマット名」を指定するようにしてください。