音声フォーマットについて - AmiVoice Cloud Platform

本サービスに送信できる音声データのフォーマットは、以下の通りです。
[フォーマット名]が、接続時に指定する文字列です。

16KHz未満(8KHz/11KHz)のサンプリングレートの音声データを受け付けて認識可能なエンジンは、現時点では汎用エンジン( -a-general )のみです。その他の領域特化型のエンジンは16KHz以上のフォーマットの音声データを送信してください。

対応音声データ形式フォーマット名 *3
raw – PCM LittleEndian 16bit – 8KHz – mono *4lsb8k
raw – PCM BigEndian 16bit – 8KHz – mono *4 msb8k
raw – PCM LittleEndian 16bit – 11KHz – mono *4lsb11k
raw – PCM BigEndian 16bit – 11KHz – mono *4 msb11k
raw – PCM LittleEndian 16bit – 16KHz – monolsb16k
raw – PCM BigEndian 16bit – 16KHz – mono msb16k
raw – PCM LittleEndian 16bit – 22KHz – mono lsb22k
raw – PCM BigEndian 16bit – 22KHz – mono msb22k
raw – mu-Law 8bit – 8KHz – monomulaw
raw – A-Law 8bit – 8KHz – monoalaw
Wave 音声 (PCM) – LittleEndian 16bit – 8KHz/11KHz – mono/stereo *2 *4 8k
Wave 音声 (mu-Law) – 8KHz – mono/stereo *2 *48k
Wave 音声 (A-Law) – 8KHz – mono/stereo *2 *48k
Speex 音声 (Ogg コンテナ) – 8KHz/11KHz – mono/stereo *2 *48k
Opus 音声 (Ogg コンテナ) – 8KHz/11KHz – mono/stereo *2 *4 8k
MP3 音声 – 8KHz/11KHz – mono/stereo *2 8k
Wave 音声 (PCM) – LittleEndian 16bit – 16KHz以上 – mono/stereo *2 16k
Speex 音声 (Ogg コンテナ) – 16KHz以上 – mono/stereo *1 *2 16k
Opus 音声 (Ogg コンテナ) – 16KHz以上 – mono/stereo *1 *2 16k
MP3 音声 – 16KHz以上 – mono/stereo *2 16k

*1 Speex : quality 7以上 、Opus :圧縮率10分の1程度までとなります。
*2 stereo音声の場合、1チャンネル目のみが音声認識処理対象となります。
*3 フォーマット名は、大文字小文字が区別されません。
*4 現在 8kまたは11kを指定できるのは汎用エンジンだけです。

※「HTTP 音声認識 API」で「raw 以外の音声データ(ヘッダあり音声データ) 」を送信する場合のみ、例外的に「フォーマット名」の指定を省略できます。それ以外の場合は、必ず実際の音声データ形式に対応する「フォーマット名」を指定するようにしてください。