音声フォーマットについて - AmiVoice Cloud Platform

本サービスに送信できる音声データのフォーマットは、以下の通りです。
フォーマット名が、接続時に指定する文字列です。

16kHz未満(8kHz/11kHz)のサンプリングレートの音声データを受け付けて認識可能なエンジンは、現時点では日本語の「会話_汎用」エンジン( -a-general )のみです。その他の領域特化型のエンジンは16kHz以上のフォーマットの音声データを送信してください。

HTTP 音声認識 APIで 、かつ、ヘッダありの音声データ (raw 以外の音声データ) を送信する場合のみ、例外的に「フォーマット名」の指定を省略できます。それ以外の場合は、必ず実際の音声データ形式に対応する「フォーマット名」を指定するようにしてください。 ※ ヘッダありの音声データをHTTP 音声認識 API で送信する際に、(省略することなく) 明示的に指定した「フォーマット名」と実際のヘッダの内容に齟齬がある場合は、 ヘッダの内容 が正しいものとして採用されます。

(ヘッダなし) 音声データ形式                    フォーマット名  *3 *4
raw – PCM LittleEndian 16bit – 8kHz – mono *4lsb8k
raw – PCM LittleEndian 16bit – 11kHz – mono *4 lsb11k
raw – PCM LittleEndian 16bit – 16kHz – mono lsb16k
raw – PCM LittleEndian 16bit – 22kHz – mono lsb22k
raw – PCM LittleEndian 16bit – 32kHz – mono lsb32k
raw – PCM LittleEndian 16bit – 44.1kHz – mono lsb44k
raw – PCM LittleEndian 16bit – 48kHz – mono lsb48k
raw – PCM BigEndian 16bit – 8kHz – mono *4 msb8k
raw – PCM BigEndian 16bit – 11kHz – mono *4 msb11k
raw – PCM BigEndian 16bit – 16kHz – mono msb16k
raw – PCM BigEndian 16bit – 22kHz – mono msb22k
raw – PCM BigEndian 16bit – 32kHz – mono msb32k
raw – PCM BigEndian 16bit – 44.1kHz – mono msb44k
raw – PCM BigEndian 16bit – 48kHz – mono msb48k
raw – mu-Law 8bit – 8kHz – monomulaw
raw – A-Law 8bit – 8kHz – monoalaw
(ヘッダあり) 音声データ形式                     フォーマット名  *3 *4
Wave 音声 (PCM) – LittleEndian 16bit – 8kHz/11kHz – mono/stereo *2 *4 8k
Wave 音声 (PCM) – LittleEndian 16bit – 16kHz以上 – mono/stereo *2 16k
Wave 音声 (mu-Law) – 8kHz – mono/stereo *2 *48k
Wave 音声 (A-Law) – 8kHz – mono/stereo *2 *48k
Speex 音声 (Ogg コンテナ) – 8kHz/11kHz – mono/stereo *2 *48k
Speex 音声 (Ogg コンテナ) – 16kHz以上 – mono/stereo *1 *216k
Opus 音声 (Ogg コンテナ) – 8kHz/11kHz – mono/stereo *2 *48k
Opus 音声 (Ogg コンテナ) – 16kHz以上 – mono/stereo *1 *2 16k
MP3 音声 – 8kHz/11kHz – mono/stereo *2 *4 *5 8k
MP3 音声 – 16kHz以上 – mono/stereo *2 *5 16k
FLAC 音声 – 8kHz/11kHz – mono/stereo *2 *4 8k
FLAC 音声 – 16kHz以上 – mono/stereo *216k

*1 Speex : quality 7以上 、Opus :圧縮率10分の1程度までとなります。
*2 stereo音声の場合、1チャンネル目のみが音声認識処理対象となります。
*3 フォーマット名は、大文字小文字が区別されません。
*4 現在 8kまたは11kを指定できるのは日本語「会話_汎用」エンジンだけです。
*5 mp3にはID3タグを含めないでください。