AmiVoice API
エンジンの種類と価格

AmiVoice APIの価格

  • 業界最安値!1時間99円からの従量制

    様々なシーンやビジネスで使用できる「汎用エンジン」は、1時間99円(税込み)からご利用可能。高品質な音声認識が低コストでご利用いただけます。

  • 発話している部分のみが課金対象なのでどこよりも低コスト

    認識した全ての音声時間に利用料がかかる他社APIに対し、AmiVoice APIは、音声データから検出した発話区間だけを課金対象としています。音声のない無音区間には料金がかかりません。
    ※ BGMやテレビ音声、隣席の話し声、その他一部の雑音は発話区間として検出される場合があります。

  • 一定秒数での切り上げなし

    他社の音声認識APIは、一定秒数(15〜60秒)へ切り上げて計算されるものが多いですが、AmiVoice APIは1秒単位で計算します。

  • 毎月60分まで無料

    すべてのエンジン・感情分析オプションは、毎月60分無料でご利用いただけます。コストをかけずに検証・開発することが可能です。

利用料金毎月60分無料

利用料金は、利用した音声時間をもとにして、月ごとに計算・請求されます。
利用用途に合わせて、データのログ保存の有無がお選びいただけます。

汎用

様々なシーンやビジネスを想定した汎用的な言語モデルです。
日本語・英語・中国語の音声認識エンジンをご用意しています。

言語モデル 音響モデル 利用シーン例 料金
ログあり ログなし
汎用 会話 会議、コールセンター等の通話、取材、放送、スピーチなど、会話の文字起こしに適したエンジンです。 すべての「会話」エンジンに共通の特徴として、 「えーっと」や「あのー」などの不要語の除去や、くだけた発話の認識が得意です。​
99.0円/時間
0.0275円/秒
158.4円/時間
0.0440円/秒
音声入力 スマホ・タブレットなどのデバイスへの音声入力や音声操作に適したエンジンです。ChatGPT等、生成系AI を使った音声対話システム への入力にも最適です。認識できる語彙数が「会話」エンジンに比べて約1.5倍あり、例えば、芸能人・スポーツ選手、ランドマーク・施設名なども広くカバーしています。 料金
99.0円/時間
0.0275円/秒
158.4円/時間
0.0440円/秒

(税込み)

領域特化

医療系

病状や病名・薬品名・医療機器の名称など、医療業界の専門用語が含まれた音声を高精度で認識します。

言語モデル 音響モデル 利用シーン例 料金
ログあり ログなし
医療 会話 医療会議や診察等、医療業界の会話・会議の文字起こしなど
297.0円/時間
0.0825円/秒
475.2円/時間
0.1320円/秒
音声入力 介護記録や医療関連の音声入力など
電子カルテ 音声入力 電子カルテの所見、診断書、診療情報提供書、紹介状等、各種医療文書の作成など
製薬 会話 文字起こしや対面営業時の会話の文字起こしなど
音声入力 薬剤師の服薬指導文の作成、MRの営業日報の音声入力など 料金
297.0円/時間
0.0825円/秒
475.2円/時間
0.1320円/秒

(税込み)

領域特化

金融・保険

株式・証券や経済市場用語、保険の種類や保険の契約関連用語などの専門用語が含まれた音声を高精度に認識します。

言語モデル 音響モデル 利用シーン例 料金
ログあり ログなし
金融 会話 文字起こしや対面営業時の会話の文字起こしなど
148.5円/時間
0.04125円/秒
237.6円/時間
0.0660円/秒
音声入力 日報、メール作成の音声入力など
保険 会話 文字起こしや対面営業時の会話の文字起こしなど
音声入力 日報、メール作成の音声入力など 料金
148.5円/時間
0.04125円/秒
237.6円/時間
0.0660円/秒

(税込み)

オプション毎月60分無料

オプションの機能利用時は、上記利用料金に追加で以下が課金されます。

感情分析

発話の裏に隠れされた感情の起伏を把握できるなど、より詳細な声の分析が可能になります。非同期HTTP音声認識APIでご利用いただけます。

感情分析
158.4円/時間
0.0440円/秒

(税込み)

※各エンジンについて利用料(税抜)が10円に満たない場合、請求はありません。
※毎月の「使用量」は、サーバーに送信された音声データのうち、実際に発話のある「発話区間」の累計時間となります(1秒未満切り捨て)。
※料金は、当月の「使用量」に各プランの単価を乗じて算出されます(1円未満切り捨て)。
※当月の「使用量」からそれぞれ無料枠時間(60分)が差し引かれます。

\ 毎月60分まで無料、検証にご活用ください /

APIを無料で利用開始

オンラインで相談する

法的情報・信頼性

言語モデル・音響モデルとは

言語モデル

大量のテキストデータから学習した、ある単語やフレーズの前後にどのような単語やフレーズが出やすいかの確率を表現したモデルです。さまざまなシーンやビジネスで幅広くご利用いただける「汎用」、医療や金融などの専門用語を高精度で認識する「領域特化型」、ルール化された定型文(フレーズ)や単語だけを認識する「ルールグラマ」の大きく3種類の言語モデルがご利用いただけます。

※カスタマイズや掲載しているもの以外のモデルのご提供も可能な場合があります。お気軽にご相談ください。

音響モデル

音響モデルは、「あ」「い」「う」などの音の特徴を大量のデータをもとに学習したモデルです(実際は「あ」は1種類ではなくて、前後の音によって特徴が変わるため多くの種類があります)。日本語・英語などの言語ごとに構築しますが、さらに同じ日本語でも話し方や話す環境など、用途に応じて最適な音響モデルを用意しています。
音声の種類ごとに使い分けることでさらに高い認識精度を得ることができます。

※カスタマイズや掲載しているもの以外のモデルのご提供も可能な場合があります。お気軽にご相談ください。

APIを無料で利用開始