AmiVoice(アミボイス)とは

AmiVoiceとは
  • 特長
  • 認識精度を試す
  • エンジンの種類
  • HOME
  • AmiVoiceとは

AI音声認識技術 AmiVoiceとは

  • 音声認識市場シェアNo.1の音声認識エンジンを開発用に提供

    AmiVoice は20 年以上のノウハウ・データが蓄積された高精度かつ高速の音声認識エンジン。日本語に対する高い認識精度に定評があり様々なシーンで使われています。

    ※合同会社ecarlate「音声認識市場動向2022」音声認識ソフトウェア/クラウドサービス市場

  • 最新の技術による高い認識率

    自社内に独自の研究部門を持ち、最新の技術やデータを使って分析やチューニングを行っています。最新のディープラーニング技術や、その発展技術であるリカレントニューラルネットワークのBi-LSTM(Long Short-Term Memory)技術をエンジンに実装し、高い認識率を実現しています。

  • ビジネスユースに特化、
    専門用語にも強い

    業務に不適切な用語を省くことで誤認識を軽減したビジネスユースに強い言語モデルを使用しています。さらに、医療・金融・保険・コンタクトセンターなど業界特有の用語の認識精度が高いエンジンもご用意しているほか、製品名や固有名詞などの登録・認識も可能です。

  • 自然な話し方で認識できる

    音声を認識させるために話し方を不自然に変える必要はありません。アクセントやイントネーション、会話スピードに左右されず、より自然な発話を認識します。また、事前に自分の話し方のクセを学習する必要はないため、老若男女を問わず誰の音声であっても簡単に認識します。

  • 強力なノイズ対策技術で騒音の中でも安心

    周囲の騒音や雑音は、認識率に大きく影響します。AmiVoiceはノイズ対策技術で、街の中はもとより、工場、自動車・電車・飛行機などの騒音が多い場所での音声や、電話などの聞き取りづらい音声もクリアに認識。利用場所やシーンを選びません。

エンジンの種類

AmiVoiceの音声認識エンジンは、さまざまな「言語モデル」と「音響モデル」を組み合わせることで、利用シーンに合わせてより高い認識精度を実現しています。

エンジン一覧

汎用

様々なシーンやビジネスを想定した汎用的な言語モデルです。
日本語・英語・中国語の音声認識エンジンをご用意しています。

言語モデル 音響モデル 利用シーン例
汎用 会話 幅広い場面での会話・会議の文字起こしなど
音声入力 日報入力、メール作成、音声操作、音声検索など

※SDKの価格についてはお問い合わせください。

領域特化

医療系

病状や病名・薬品名・医療機器の名称など、医療業界の専門用語が含まれた音声を高精度で認識します。

言語モデル 音響モデル 利用シーン例
医療 会話 医療会議や診察等、医療業界の会話・会議の文字起こしなど
音声入力 介護記録や医療関連の音声入力など
電子カルテ 音声入力 電子カルテの所見、診断書、診療情報提供書、紹介状等、各種医療文書の作成など
製薬 会話 文字起こしや対面営業時の会話の文字起こしなど
音声入力 薬剤師の服薬指導文の作成、MRの営業日報の音声入力など

※SDKの価格についてはお問い合わせください。

医療系エンジンを詳しく見る

領域特化

金融・保険

株式・証券や経済市場用語、保険の種類や保険の契約関連用語などの専門用語が含まれた音声を高精度に認識します。

言語モデル 音響モデル 利用シーン例
金融 会話 文字起こしや対面営業時の会話の文字起こしなど
音声入力 日報、メール作成の音声入力など
保険 会話 文字起こしや対面営業時の会話の文字起こしなど
音声入力 日報、メール作成の音声入力など

※SDKの価格についてはお問い合わせください。

ルールグラマ

ルール化された定型文(フレーズ)や単語だけを認識します。定義化された言葉のみが対象のため、より高い精度で認識します。

音響モデル サンプリングレート 利用シーン例
音声入力 16kHz / 8kHz 開発者が文法を定義することでさまざまな利用シーンで活用可能
ロボットやシステムの操作、データ入力、IVRなど

※AmiVoice API はルールグラマに対応していません。

言語モデル・音響モデルとは

言語モデル

大量のテキストデータから学習した、ある単語やフレーズの前後にどのような単語やフレーズが出やすいかの確率を表現したモデルです。さまざまなシーンやビジネスで幅広くご利用いただける「汎用」、医療や金融などの専門用語を高精度で認識する「領域特化型」、ルール化された定型文(フレーズ)や単語だけを認識する「ルールグラマ」の大きく3種類の言語モデルがご利用いただけます。

※カスタマイズや掲載しているもの以外のモデルのご提供も可能な場合があります。お気軽にご相談ください。

音響モデル

音響モデルは、「あ」「い」「う」などの音の特徴を大量のデータをもとに学習したモデルです(実際は「あ」は1種類ではなくて、前後の音によって特徴が変わるため多くの種類があります)。日本語・英語などの言語ごとに構築しますが、さらに同じ日本語でも話し方や話す環境など、用途に応じて最適な音響モデルを用意しています。
音声の種類ごとに使い分けることでさらに高い認識精度を得ることができます。

※カスタマイズや掲載しているもの以外のモデルのご提供も可能な場合があります。お気軽にご相談ください。

お役立ち資料