ここでは、非同期HTTPインターフェースを使用して音声認識のリクエスト方法を学びます。
1. 基本的なリクエストを実行する
必須パラメータのみの基本的なリクエストを実行します。
非同期HTTPインターフェースの音声認識は、「音声認識ジョブの作成」と「ジョブの状態の取得」のステップに分かれています。音声認識ジョブの作成後、レスポンスで取得したsessionidを使用して、ジョブの状態の取得します。ジョブの状態の取得を数秒ごとに実行し、レスポンスの違いを確認します。
リクエストの条件
音声認識エンジン:日本語・会話_汎用
使用する音声ファイル:test.wav
リクエストとレスポンス例
音声認識ジョブの作成 リクエスト
Linux・Mac
curl https://acp-api-async.amivoice.com/v1/recognitions \
-F u=$APP_KEY \
-F d=-a-general \
-F a=@test.wav
Windows
curl https://acp-api-async.amivoice.com/v1/recognitions -F u=%APP_KEY% -F d=-a-general -F a=@test.wav
音声認識ジョブの作成 レスポンス
{
"sessionid": "0196d7fa13880a306b8f9c99",
"text": "..."
}
ジョブの状態の取得 リクエスト
Linux・Mac
curl -H "Authorization: Bearer $APP_KEY" \
https://acp-api-async.amivoice.com/v1/recognitions/0196d7fa13880a306b8f9c99
Windows
curl -H "Authorization: Bearer %APP_KEY%" https://acp-api-async.amivoice.com/v1/recognitions/0196d7fa13880a306b8f9c99
ジョブの状態の取得 レスポンス
{
"status": "queued",
"session_id": "0196d7fa13880a306b8f9c99",
"service_id": "ami-webinar"
}
{
"status": "started",
"session_id": "0196d7fa13880a306b8f9c99",
"service_id": "ami-webinar"
}
{
"status": "processing",
"session_id": "0196d7fa13880a306b8f9c99",
"service_id": "ami-webinar",
"audio_size": 306980,
"audio_md5": "40f59fe5fc7745c33b33af44be43f6ad"
}
{
"status": "completed",
"session_id": "0196d7fa13880a306b8f9c99",
"service_id": "ami-webinar",
"audio_size": 306980,
"audio_md5": "40f59fe5fc7745c33b33af44be43f6ad",
"segments": [
{
"results": [
{
"tokens": [
{
"written": "アドバンスト・メディア",
"confidence": 1.0,
"starttime": 410,
"endtime": 1578,
"spoken": "あどばんすとめでぃあ"
},
{
"written": "は",
"confidence": 1.0,
"starttime": 1578,
"endtime": 1914,
"spoken": "は"
},
{
"written": "、",
"confidence": 0.51,
"starttime": 1914,
"endtime": 1978,
"spoken": "_"
},
{
"written": "人",
"confidence": 0.97,
"starttime": 1978,
"endtime": 2314,
"spoken": "ひと"
},
{
"written": "と",
"confidence": 0.97,
"starttime": 2314,
"endtime": 2426,
"spoken": "と"
},
{
"written": "機械",
"confidence": 0.97,
"starttime": 2426,
"endtime": 2826,
"spoken": "きかい"
},
{
"written": "と",
"confidence": 1.0,
"starttime": 2826,
"endtime": 2954,
"spoken": "と"
},
{
"written": "の",
"confidence": 0.94,
"starttime": 2954,
"endtime": 3082,
"spoken": "の"
},
{
"written": "自然",
"confidence": 1.0,
"starttime": 3082,
"endtime": 3450,
"spoken": "しぜん"
},
{
"written": "な",
"confidence": 1.0,
"starttime": 3450,
"endtime": 3530,
"spoken": "な"
},
{
"written": "コミュニケーション",
"confidence": 1.0,
"starttime": 3530,
"endtime": 4378,
"spoken": "こみゅにけーしょん"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 4378,
"endtime": 4442,
"spoken": "を"
},
{
"written": "実現",
"confidence": 1.0,
"starttime": 4442,
"endtime": 4922,
"spoken": "じつげん"
},
{
"written": "し",
"confidence": 1.0,
"starttime": 4922,
"endtime": 5290,
"spoken": "し"
},
{
"written": "、",
"confidence": 0.72,
"starttime": 5290,
"endtime": 5610,
"spoken": "_"
},
{
"written": "豊か",
"confidence": 1.0,
"starttime": 5610,
"endtime": 5994,
"spoken": "ゆたか"
},
{
"written": "な",
"confidence": 1.0,
"starttime": 5994,
"endtime": 6090,
"spoken": "な"
},
{
"written": "未来",
"confidence": 1.0,
"starttime": 6090,
"endtime": 6490,
"spoken": "みらい"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 6490,
"endtime": 6570,
"spoken": "を"
},
{
"written": "創造",
"confidence": 0.95,
"starttime": 6570,
"endtime": 7034,
"spoken": "そうぞう"
},
{
"written": "して",
"confidence": 1.0,
"starttime": 7034,
"endtime": 7226,
"spoken": "して"
},
{
"written": "いく",
"confidence": 0.99,
"starttime": 7226,
"endtime": 7418,
"spoken": "いく"
},
{
"written": "こと",
"confidence": 0.95,
"starttime": 7418,
"endtime": 7674,
"spoken": "こと"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 7674,
"endtime": 7722,
"spoken": "を"
},
{
"written": "目指し",
"confidence": 1.0,
"starttime": 7722,
"endtime": 8090,
"spoken": "めざし"
},
{
"written": "ます",
"confidence": 1.0,
"starttime": 8090,
"endtime": 8506,
"spoken": "ます"
},
{
"written": "。",
"confidence": 0.84,
"starttime": 8506,
"endtime": 8794,
"spoken": "_"
}
],
"confidence": 1.0,
"starttime": 250,
"endtime": 8794,
"tags": [],
"rulename": "",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"utteranceid": "20250516/16/0196d7fa60330a30547439d0_20250516_162352",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
"code": "",
"message": ""
}
2. ログ保存なしで実行する
1と同じリクエストをログ保存なしで実行します。
リクエストの条件
音声認識エンジン:日本語・会話_汎用
使用する音声ファイル:test.wav
リクエストとレスポンス例
音声認識ジョブの作成 リクエスト
ログ保存なしで実行する場合は、dパラメータにloggingOptOut=Trueを追加します。
Linux・Mac
curl https://acp-api-async.amivoice.com/v1/recognitions \
-F u=$APP_KEY \
-F d="grammarFileNames=-a-general loggingOptOut=True" \
-F a=@test.wav
Windows
curl https://acp-api-async.amivoice.com/v1/recognitions -F u=%APP_KEY% -F d="grammarFileNames=-a-general loggingOptOut=True" -F a=@test.wav
音声認識ジョブの作成 レスポンス
{
"sessionid": "0196d7fa13880a306b8f9c99",
"text": "..."
}
ジョブの状態の取得 リクエスト
Linux・Mac
curl -H "Authorization: Bearer $APP_KEY" \
https://acp-api-async.amivoice.com/v1/recognitions/0196d7fa13880a306b8f9c99
Windows
curl -H "Authorization: Bearer %APP_KEY%" https://acp-api-async.amivoice.com/v1/recognitions/0196d7fa13880a306b8f9c99
ジョブの状態の取得 レスポンス
{
"status": "completed",
"session_id": "0196d7fa13880a306b8f9c99",
"service_id": "ami-webinar",
"audio_size": 306980,
"audio_md5": "40f59fe5fc7745c33b33af44be43f6ad",
"segments": [
{
"results": [
{
"tokens": [
{
"written": "アドバンスト・メディア",
"confidence": 1.0,
"starttime": 410,
"endtime": 1578,
"spoken": "あどばんすとめでぃあ"
},
{
"written": "は",
"confidence": 1.0,
"starttime": 1578,
"endtime": 1914,
"spoken": "は"
},
{
"written": "、",
"confidence": 0.51,
"starttime": 1914,
"endtime": 1978,
"spoken": "_"
},
{
"written": "人",
"confidence": 0.97,
"starttime": 1978,
"endtime": 2314,
"spoken": "ひと"
},
{
"written": "と",
"confidence": 0.97,
"starttime": 2314,
"endtime": 2426,
"spoken": "と"
},
{
"written": "機械",
"confidence": 0.97,
"starttime": 2426,
"endtime": 2826,
"spoken": "きかい"
},
{
"written": "と",
"confidence": 1.0,
"starttime": 2826,
"endtime": 2954,
"spoken": "と"
},
{
"written": "の",
"confidence": 0.94,
"starttime": 2954,
"endtime": 3082,
"spoken": "の"
},
{
"written": "自然",
"confidence": 1.0,
"starttime": 3082,
"endtime": 3450,
"spoken": "しぜん"
},
{
"written": "な",
"confidence": 1.0,
"starttime": 3450,
"endtime": 3530,
"spoken": "な"
},
{
"written": "コミュニケーション",
"confidence": 1.0,
"starttime": 3530,
"endtime": 4378,
"spoken": "こみゅにけーしょん"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 4378,
"endtime": 4442,
"spoken": "を"
},
{
"written": "実現",
"confidence": 1.0,
"starttime": 4442,
"endtime": 4922,
"spoken": "じつげん"
},
{
"written": "し",
"confidence": 1.0,
"starttime": 4922,
"endtime": 5290,
"spoken": "し"
},
{
"written": "、",
"confidence": 0.72,
"starttime": 5290,
"endtime": 5610,
"spoken": "_"
},
{
"written": "豊か",
"confidence": 1.0,
"starttime": 5610,
"endtime": 5994,
"spoken": "ゆたか"
},
{
"written": "な",
"confidence": 1.0,
"starttime": 5994,
"endtime": 6090,
"spoken": "な"
},
{
"written": "未来",
"confidence": 1.0,
"starttime": 6090,
"endtime": 6490,
"spoken": "みらい"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 6490,
"endtime": 6570,
"spoken": "を"
},
{
"written": "創造",
"confidence": 0.95,
"starttime": 6570,
"endtime": 7034,
"spoken": "そうぞう"
},
{
"written": "して",
"confidence": 1.0,
"starttime": 7034,
"endtime": 7226,
"spoken": "して"
},
{
"written": "いく",
"confidence": 0.99,
"starttime": 7226,
"endtime": 7418,
"spoken": "いく"
},
{
"written": "こと",
"confidence": 0.95,
"starttime": 7418,
"endtime": 7674,
"spoken": "こと"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 7674,
"endtime": 7722,
"spoken": "を"
},
{
"written": "目指し",
"confidence": 1.0,
"starttime": 7722,
"endtime": 8090,
"spoken": "めざし"
},
{
"written": "ます",
"confidence": 1.0,
"starttime": 8090,
"endtime": 8506,
"spoken": "ます"
},
{
"written": "。",
"confidence": 0.84,
"starttime": 8506,
"endtime": 8794,
"spoken": "_"
}
],
"confidence": 1.0,
"starttime": 250,
"endtime": 8794,
"tags": [],
"rulename": "",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"utteranceid": "20250516/16/0196d7fa60330a30547439d0_20250516_162352",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
"code": "",
"message": ""
}
関連情報
3. ワンタイムAPPKEYで音声認識を実行する
ワンタイムAPPKEYは、マイページに記載されたAPPKEYと同様の機能を持つ「サービス認証キー文字列」ですが、「発行日時と有効時間」にもとづいて「有効期限日時」が設定されている点が異なります。 また、接続元のIPアドレスの制限を設けることができます。
ワンタイムAPPKEYを取得するリクエストを実行し、発行されたワンタイムAPPKEYで音声認識を実行します。
音声認識結果が取得できることを確認した後、有効時間を過ぎてから再度結果取得のリクエストを送信して認証エラーが返ることを確認します。
リクエストの条件
音声認識エンジン:日本語・会話_汎用
使用する音声ファイル:test.wav
ワンタイムAPPKEYの設定
有効時間:2分間
サービスIDとサービスパスワードは、マイページの「接続情報」タブに記載されています。
リクエストとレスポンス例
ワンタイムAPPKEY取得 リクエスト
{サービスID}と{サービスパスワード}は、自身の情報に置き換えてください。
Linux・Mac
curl https://acp-api.amivoice.com/issue_service_authorization \
-d sid={サービスID} \
-d spw={サービスパスワード} \
-d epi=120000
Windows
curl https://acp-api.amivoice.com/issue_service_authorization -d sid={サービスID} -d spw={サービスパスワード} -d epi=120000
ワンタイムAPPKEY取得 レスポンス
94E41E1E659641E507635A48BC3B00FA61F9A9985A113F9F36D58BBF97F139F07EB0B24C75ED
音声認識ジョブの作成 リクエスト
上記で取得したAPPKEYを使用して音声認識を実行します。
Linux・Mac
curl https://acp-api-async.amivoice.com/v1/recognitions \
-F u=94E41E1E659641E507635A48BC3B00FA61F9A9985A113F9F36D58BBF97F139F07EB0B24C75ED \
-F d=-a-general \
-F a=@test.wav
Windows
curl https://acp-api-async.amivoice.com/v1/recognitions -F u=94E41E1E659641E507635A48BC3B00FA61F9A9985A113F9F36D58BBF97F139F07EB0B24C75ED -F d=-a-general -F a=@test.wav
音声認識ジョブの作成 レスポンス
{
"sessionid": "0196d7fa13880a306b8f9c99",
"text": "..."
}
ジョブの状態の取得 リクエスト
Linux・Mac
curl -H "Authorization: Bearer 94E41E1E659641E507635A48BC3B00FA61F9A9985A113F9F36D58BBF97F139F07EB0B24C75ED" \
https://acp-api-async.amivoice.com/v1/recognitions/0196d7fa13880a306b8f9c99
Windows
curl -H "Authorization: Bearer 94E41E1E659641E507635A48BC3B00FA61F9A9985A113F9F36D58BBF97F139F07EB0B24C75ED" https://acp-api-async.amivoice.com/v1/recognitions/0196d7fa13880a306b8f9c99
ジョブの状態の取得 レスポンス
{
"status": "completed",
"session_id": "0196d7fa13880a306b8f9c99",
"service_id": "ami-webinar",
"audio_size": 306980,
"audio_md5": "40f59fe5fc7745c33b33af44be43f6ad",
"segments": [
{
"results": [
{
"tokens": [
{
"written": "アドバンスト・メディア",
"confidence": 1.0,
"starttime": 410,
"endtime": 1578,
"spoken": "あどばんすとめでぃあ"
},
{
"written": "は",
"confidence": 1.0,
"starttime": 1578,
"endtime": 1914,
"spoken": "は"
},
{
"written": "、",
"confidence": 0.51,
"starttime": 1914,
"endtime": 1978,
"spoken": "_"
},
{
"written": "人",
"confidence": 0.97,
"starttime": 1978,
"endtime": 2314,
"spoken": "ひと"
},
{
"written": "と",
"confidence": 0.97,
"starttime": 2314,
"endtime": 2426,
"spoken": "と"
},
{
"written": "機械",
"confidence": 0.97,
"starttime": 2426,
"endtime": 2826,
"spoken": "きかい"
},
{
"written": "と",
"confidence": 1.0,
"starttime": 2826,
"endtime": 2954,
"spoken": "と"
},
{
"written": "の",
"confidence": 0.94,
"starttime": 2954,
"endtime": 3082,
"spoken": "の"
},
{
"written": "自然",
"confidence": 1.0,
"starttime": 3082,
"endtime": 3450,
"spoken": "しぜん"
},
{
"written": "な",
"confidence": 1.0,
"starttime": 3450,
"endtime": 3530,
"spoken": "な"
},
{
"written": "コミュニケーション",
"confidence": 1.0,
"starttime": 3530,
"endtime": 4378,
"spoken": "こみゅにけーしょん"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 4378,
"endtime": 4442,
"spoken": "を"
},
{
"written": "実現",
"confidence": 1.0,
"starttime": 4442,
"endtime": 4922,
"spoken": "じつげん"
},
{
"written": "し",
"confidence": 1.0,
"starttime": 4922,
"endtime": 5290,
"spoken": "し"
},
{
"written": "、",
"confidence": 0.72,
"starttime": 5290,
"endtime": 5610,
"spoken": "_"
},
{
"written": "豊か",
"confidence": 1.0,
"starttime": 5610,
"endtime": 5994,
"spoken": "ゆたか"
},
{
"written": "な",
"confidence": 1.0,
"starttime": 5994,
"endtime": 6090,
"spoken": "な"
},
{
"written": "未来",
"confidence": 1.0,
"starttime": 6090,
"endtime": 6490,
"spoken": "みらい"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 6490,
"endtime": 6570,
"spoken": "を"
},
{
"written": "創造",
"confidence": 0.95,
"starttime": 6570,
"endtime": 7034,
"spoken": "そうぞう"
},
{
"written": "して",
"confidence": 1.0,
"starttime": 7034,
"endtime": 7226,
"spoken": "して"
},
{
"written": "いく",
"confidence": 0.99,
"starttime": 7226,
"endtime": 7418,
"spoken": "いく"
},
{
"written": "こと",
"confidence": 0.95,
"starttime": 7418,
"endtime": 7674,
"spoken": "こと"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 7674,
"endtime": 7722,
"spoken": "を"
},
{
"written": "目指し",
"confidence": 1.0,
"starttime": 7722,
"endtime": 8090,
"spoken": "めざし"
},
{
"written": "ます",
"confidence": 1.0,
"starttime": 8090,
"endtime": 8506,
"spoken": "ます"
},
{
"written": "。",
"confidence": 0.84,
"starttime": 8506,
"endtime": 8794,
"spoken": "_"
}
],
"confidence": 1.0,
"starttime": 250,
"endtime": 8794,
"tags": [],
"rulename": "",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"utteranceid": "20250516/16/0196d7fa60330a30547439d0_20250516_162352",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
"code": "",
"message": ""
}
ジョブの状態の取得 レスポンス(有効時間外)
{
"errorCode": 401,
"errorMessage": "Failed to authorize for the app_key"
}
4. ノイズの入った音声を認識する
AmiVoice APIでは、深層学習モデルのセグメンタを使用しているため、単純な音量によるセグメンタよりも高い精度で発話区間を検出することが出来ます。
下図はtest-noise.wavの音声波形です。ノイズが入っているため、どこからどこまで発話があるのかわかりにくい状態です。
この音声を使用して音声認識を実行し、発話区間が過不足なく検出されていることを確認します。

リクエストの条件
音声認識エンジン:日本語・会話_汎用
使用する音声ファイル:test-noise.wav
リクエストとレスポンス例
音声認識ジョブの作成 リクエスト
Linux・Mac
curl https://acp-api-async.amivoice.com/v1/recognitions \
-F u=$APP_KEY \
-F d=-a-general \
-F a=@test-noise.wav
Windows
curl https://acp-api-async.amivoice.com/v1/recognitions -F u=%APP_KEY% -F d=-a-general -F a=@test-noise.wav
音声認識ジョブの作成 レスポンス
{
"sessionid": "0196d7fa13880a306b8f9c99",
"text": "..."
}
ジョブの状態の取得 リクエスト
Linux・Mac
curl -H "Authorization: Bearer $APP_KEY" \
https://acp-api-async.amivoice.com/v1/recognitions/0196d7fa13880a306b8f9c99
Windows
curl -H "Authorization: Bearer %APP_KEY%" https://acp-api-async.amivoice.com/v1/recognitions/0196d7fa13880a306b8f9c99
ジョブの状態の取得 レスポンス
{
"status": "completed",
"session_id": "0196d7fa13880a306b8f9c99",
"service_id": "ami-webinar",
"audio_size": 306980,
"audio_md5": "40f59fe5fc7745c33b33af44be43f6ad",
"segments": [
{
"results": [
{
"tokens": [
{
"written": "アドバンスト・メディア",
"confidence": 1.0,
"starttime": 410,
"endtime": 1578,
"spoken": "あどばんすとめでぃあ"
},
{
"written": "は",
"confidence": 1.0,
"starttime": 1578,
"endtime": 1914,
"spoken": "は"
},
{
"written": "、",
"confidence": 0.51,
"starttime": 1914,
"endtime": 1978,
"spoken": "_"
},
{
"written": "人",
"confidence": 0.97,
"starttime": 1978,
"endtime": 2314,
"spoken": "ひと"
},
{
"written": "と",
"confidence": 0.97,
"starttime": 2314,
"endtime": 2426,
"spoken": "と"
},
{
"written": "機械",
"confidence": 0.97,
"starttime": 2426,
"endtime": 2826,
"spoken": "きかい"
},
{
"written": "と",
"confidence": 1.0,
"starttime": 2826,
"endtime": 2954,
"spoken": "と"
},
{
"written": "の",
"confidence": 0.94,
"starttime": 2954,
"endtime": 3082,
"spoken": "の"
},
{
"written": "自然",
"confidence": 1.0,
"starttime": 3082,
"endtime": 3450,
"spoken": "しぜん"
},
{
"written": "な",
"confidence": 1.0,
"starttime": 3450,
"endtime": 3530,
"spoken": "な"
},
{
"written": "コミュニケーション",
"confidence": 1.0,
"starttime": 3530,
"endtime": 4378,
"spoken": "こみゅにけーしょん"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 4378,
"endtime": 4442,
"spoken": "を"
},
{
"written": "実現",
"confidence": 1.0,
"starttime": 4442,
"endtime": 4922,
"spoken": "じつげん"
},
{
"written": "し",
"confidence": 1.0,
"starttime": 4922,
"endtime": 5290,
"spoken": "し"
},
{
"written": "、",
"confidence": 0.72,
"starttime": 5290,
"endtime": 5610,
"spoken": "_"
},
{
"written": "豊か",
"confidence": 1.0,
"starttime": 5610,
"endtime": 5994,
"spoken": "ゆたか"
},
{
"written": "な",
"confidence": 1.0,
"starttime": 5994,
"endtime": 6090,
"spoken": "な"
},
{
"written": "未来",
"confidence": 1.0,
"starttime": 6090,
"endtime": 6490,
"spoken": "みらい"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 6490,
"endtime": 6570,
"spoken": "を"
},
{
"written": "創造",
"confidence": 0.95,
"starttime": 6570,
"endtime": 7034,
"spoken": "そうぞう"
},
{
"written": "して",
"confidence": 1.0,
"starttime": 7034,
"endtime": 7226,
"spoken": "して"
},
{
"written": "いく",
"confidence": 0.99,
"starttime": 7226,
"endtime": 7418,
"spoken": "いく"
},
{
"written": "こと",
"confidence": 0.95,
"starttime": 7418,
"endtime": 7674,
"spoken": "こと"
},
{
"written": "を",
"confidence": 1.0,
"starttime": 7674,
"endtime": 7722,
"spoken": "を"
},
{
"written": "目指し",
"confidence": 1.0,
"starttime": 7722,
"endtime": 8090,
"spoken": "めざし"
},
{
"written": "ます",
"confidence": 1.0,
"starttime": 8090,
"endtime": 8506,
"spoken": "ます"
},
{
"written": "。",
"confidence": 0.84,
"starttime": 8506,
"endtime": 8794,
"spoken": "_"
}
],
"confidence": 1.0,
"starttime": 250,
"endtime": 8794,
"tags": [],
"rulename": "",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"utteranceid": "20250516/16/0196d7fa60330a30547439d0_20250516_162352",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
"code": "",
"message": ""
}
また、以下の理由から、非同期HTTPインターフェースでは他のインターフェースよりも音声認識精度が良くなる可能性があります。
- レスポンスをすぐに返す必要がないため、ある時点の音声の発話内容を推定するのに、多くの未来の情報を先読みしてから処理を行うことができる
- 同期HTTPやWebSocketインタフェースを使って認識させるときよりも、計算リソースを多く利用できるように設定されている
同期HTTPインターフェースでtest-noise.wavを音声認識し、非同期HTTPインターフェースの音声認識結果との違いを確認します。
リクエストとレスポンス例
リクエスト
Linux・Mac
curl https://acp-api.amivoice.com/v1/recognize \
-F u=$APP_KEY \
-F d=-a-general \
-F a=@test-noise.wav
Windows
curl https://acp-api.amivoice.com/v1/recognize -F u=%APP_KEY% -F d=-a-general -F a=@test-noise.wav
レスポンス
{
"results": [
{
"tokens": [
{
"written": "アドバンスト・メディア",
"confidence": 1.00,
"starttime": 832,
"endtime": 2048,
"spoken": "あどばんすとめでぃあ"
},
{
"written": "は",
"confidence": 0.98,
"starttime": 2048,
"endtime": 2400,
"spoken": "は"
},
{
"written": "、",
"confidence": 0.99,
"starttime": 2400,
"endtime": 2512,
"spoken": "_"
},
{
"written": "人",
"confidence": 0.71,
"starttime": 2512,
"endtime": 2784,
"spoken": "ひと"
},
{
"written": "と",
"confidence": 0.74,
"starttime": 2784,
"endtime": 2896,
"spoken": "と"
},
{
"written": "機械",
"confidence": 0.93,
"starttime": 2896,
"endtime": 3296,
"spoken": "きかい"
},
{
"written": "と",
"confidence": 0.99,
"starttime": 3296,
"endtime": 3424,
"spoken": "と"
},
{
"written": "の",
"confidence": 0.96,
"starttime": 3424,
"endtime": 3552,
"spoken": "の"
},
{
"written": "自然",
"confidence": 1.00,
"starttime": 3552,
"endtime": 3904,
"spoken": "しぜん"
},
{
"written": "な",
"confidence": 1.00,
"starttime": 3904,
"endtime": 4000,
"spoken": "な"
},
{
"written": "コミュニケーション",
"confidence": 1.00,
"starttime": 4000,
"endtime": 4848,
"spoken": "こみゅにけーしょん"
},
{
"written": "を",
"confidence": 1.00,
"starttime": 4848,
"endtime": 4912,
"spoken": "を"
},
{
"written": "実施",
"confidence": 0.19,
"starttime": 4912,
"endtime": 5088,
"spoken": "じっし"
},
{
"written": "原始",
"confidence": 0.46,
"starttime": 5100,
"endtime": 5996,
"spoken": "げんし"
},
{
"written": "豊か",
"confidence": 0.89,
"starttime": 6076,
"endtime": 6460,
"spoken": "ゆたか"
},
{
"written": "な",
"confidence": 1.00,
"starttime": 6460,
"endtime": 6572,
"spoken": "な"
},
{
"written": "未来",
"confidence": 1.00,
"starttime": 6572,
"endtime": 6956,
"spoken": "みらい"
},
{
"written": "を",
"confidence": 0.99,
"starttime": 6956,
"endtime": 7052,
"spoken": "を"
},
{
"written": "創造",
"confidence": 0.79,
"starttime": 7052,
"endtime": 7484,
"spoken": "そうぞう"
},
{
"written": "する",
"confidence": 0.51,
"starttime": 7732,
"endtime": 7860,
"spoken": "する"
},
{
"written": "こと",
"confidence": 0.96,
"starttime": 7860,
"endtime": 8148,
"spoken": "こと"
},
{
"written": "を",
"confidence": 1.00,
"starttime": 8148,
"endtime": 8196,
"spoken": "を"
},
{
"written": "目指し",
"confidence": 0.63,
"starttime": 8196,
"endtime": 8484,
"spoken": "めざし"
}
],
"confidence": 0.91899997,
"starttime": 800,
"endtime": 8484,
"tags": [],
"rulename": "",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実施原始豊かな未来を創造することを目指し"
}
],
"utteranceid": "20250605/11/01973df8fe660a301e5294c6_20250605_114337",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実施原始豊かな未来を創造することを目指し",
"code": "",
"message": ""
}
音声認識結果
同期HTTPインターフェース
アドバンスト・メディアは、人と機械との自然なコミュニケーションを実施原始豊かな未来を創造することを目指し
非同期HTTPインターフェース
アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。