AmiVoiceとは

AmiVoiceとは
  • 特長
  • 認識精度を試す
  • エンジンの種類
  • HOME
  • AmiVoiceとは

AI音声認識技術 AmiVoiceとは

  • 音声認識市場シェアNo.1の音声認識エンジンを開発用に提供

    AmiVoice は20 年以上のノウハウ・データが蓄積された高精度かつ高速の音声認識エンジン。日本語に対する高い認識精度に定評があり様々なシーンで使われています。

    ※ ITR 「ITR Market View : AI市場2021」 音声認識市場ベンダー別売上金額シェア(2015~2021年度予測)

  • 最新の技術による高い認識率

    自社内に独自の研究部門を持ち、最新の技術やデータを使って分析やチューニングを行っています。最新のディープラーニング技術や、その発展技術であるリカレントニューラルネットワークのBi-LSTM(Long Short-Term Memory)技術をエンジンに実装し、高い認識率を実現しています。

  • ビジネスユースに特化、
    専門用語にも強い

    業務に不適切な用語を省くことで誤認識を軽減したビジネスユースに強い言語モデルを使用しています。さらに、医療・金融・保険・コンタクトセンターなど業界特有の用語の認識精度が高いエンジンもご用意しているほか、製品名や固有名詞などの登録・認識も可能です。

  • 自然な話し方で認識できる

    音声を認識させるために話し方を不自然に変える必要はありません。アクセントやイントネーション、会話スピードに左右されず、より自然な発話を認識します。また、事前に自分の話し方のクセを学習する必要はないため、老若男女を問わず誰の音声であっても簡単に認識します。

  • 強力なノイズ対策技術で騒音の中でも安心

    周囲の騒音や雑音は、認識率に大きく影響します。AmiVoiceはノイズ対策技術で、街の中はもとより、工場、自動車・電車・飛行機などの騒音が多い場所での音声や、電話などの聞き取りづらい音声もクリアに認識。利用場所やシーンを選びません。

認識精度を試す

お試しになりたい言語、言語モデル、音響モデルを選択し、「音声認識スタート」ボタンを押してお話しください。
ご自由にお話しいただくか、例文を読み上げると認識結果が表示されます。

※言語、言語モデル、音響モデルや用途を変更した場合は、新たに「音声認識スタート」ボタンを押してください。

例文が表示されます。
こちらはサンプルテキストです。ここに音声入力された文章が入ります。
残り 30秒

注意事項

  • 本サービスの利用をもって、利用規約を承諾したものとみなします。
  • 対応ブラウザは、Windows(Chrome、Firefox、Microsoft Edge)、Android(Chrome、Firefox、Microsoft Edge)、Mac(Safari)、iOS(Safari)のそれぞれ最新バージョンとなります。
  • ブラウザによっては録音音質が悪くなる場合があります。精度が良くないと感じられた場合は、別の対応ブラウザでお試しください。
  • ブラウザのセキュリティ項目でマイク機能を有効にしてください。
  • 本サービス試用時間は1回あたり30秒です。再度利用したい場合は、音声認識スタートボタンをクリックしてください。
  • 音声データ及びテキストデータは音声認識の性能向上のために利用させていただく場合がございます。

エンジンの種類

AmiVoiceの音声認識エンジンは、さまざまな「言語モデル」と「音響モデル」を組み合わせることで、利用シーンに合わせてより高い認識精度を実現しています。

※「言語モデル」と「音響モデル」を組み合わせたエンジンのラインアップからお選びいただけます。

言語モデル

音響モデル

言語モデル

大量のテキストデータから学習した、ある単語やフレーズの前後にどのような単語やフレーズが出やすいかの確率を表現したモデルです。さまざまなシーンやビジネスで幅広くご利用いただける「汎用」、医療や金融などの専門用語を高精度で認識する「領域特化型」、ルール化された定型文(フレーズ)や単語だけを認識する「ルールグラマ」の大きく3種類の言語モデルがご利用頂けます。

※カスタマイズや掲載しているもの以外のモデルのご提供も可能な場合があります。お気軽にご相談ください。

汎用

  • 様々なシーンやビジネスを想定した汎用的な言語モデルです。

領域特化

  • 医療

    病状や病名、医療機器の名称など、医療業界の専門用語が含まれた音声を高精度で認識します。

  • 電子カルテ

    病状や病名、医療機器の名称など、医療業界の専門用語が含まれ、電子カルテなどの入力に特化した言語モデルです

  • 製薬

    医療用医薬品やOTC医薬品、病名など、製薬の専門用語が含まれた音声を高精度で認識します。

  • 保険

    保険の種類や保険の契約関連用語など、保険業界の専門用語が含まれた音声を高精度で認識します。

  • 金融

    株式・証券や経済市場関連用語など、金融業界の専門用語が含まれた音声を高精度で認識します。

ルールグラマ

  • ルール化された定型文(フレーズ)や単語だけを認識します。定義化された言葉のみが対象のため、より高い精度で認識します。

音響モデル

音響モデルは、「あ」「い」「う」などの音の特徴を大量のデータをもとに学習したモデルです(実際は「あ」は1種類ではなくて、前後の音によって特徴が変わるため多くの種類があります)。日本語・英語などの言語ごとに構築しますが、さらに同じ日本語でも話し方や話す環境など、用途に応じて最適な音響モデルを用意しています。
音声の種類ごとに使い分けることでさらに高い認識精度を得ることができます。

※カスタマイズや掲載しているもの以外のモデルのご提供も可能な場合があります。お気軽にご相談ください。

  • 会話

    対面の会議や打ち合わせ、Web会議など、人同士の自然発話音声に強いエンジンです。

  • 音声入力

    音声操作やメール作成など、PCやスマートフォンに対して行う音声入力に強いエンジンです。

音響モデル一覧

言語 音響モデル サンプリングレート 説明
日本語 会話 16kHz / 8kHz 会議を含む対面での自然発話、音声通話など、人との自然発話音声を対象としたモデル
音声入力 16kHz 音声操作や文字入力など人がPCやスマホに対して音声入力をする音声を対象としたモデル
英語 デフォルト 16kHz / 8kHz 主に北米を中心とした話者を対象としたモデル
中国語
(標準)
デフォルト 16kHz / 8kHz 中国本土の標準語を対象としたモデル

エンジン一覧

汎用

言語モデル 音響モデル 利用シーン例 対応サービス
API API Private SDK
汎用 会話 幅広い場面での自然発話・会議の文字起こしなど
音声入力 日報入力、メール作成、音声操作、音声検索など

※中国語、英語の音声認識エンジンも用意しています。

領域特化

言語モデル 音響モデル 利用シーン例 対応サービス
API API Private SDK
医療 会話 医療会議や診察等、医療業界の自然発話・会議の文字起こしなど
音声入力 介護記録や医療関連の音声入力など
電子カルテ 音声入力 電子カルテの所見、診断書、診療情報提供書、紹介状等、各種医療文書の作成など
製薬 会話 文字起こしや対面営業時の自然発話の文字起こしなど
音声入力 薬剤師の服薬指導文の作成、MRの営業日報の音声入力など
保険 会話 文字起こしや対面営業時の自然発話の文字起こしなど
音声入力 日報、メール作成の音声入力など
金融 会話 文字起こしや対面営業時の自然発話の文字起こしなど
音声入力 日報、メール作成の音声入力など

ルールグラマ

音響モデル サンプリングレート 利用シーン例 対応サービス
API API Private SDK
音声入力 16kHz / 8kHz 開発者が文法を定義することでさまざまな利用シーンで活用可能
ロボットやシステムの操作、データ入力、IVRなど
-
資料ダウンロードDL