言語モデル
大量のテキストデータから学習した、ある単語やフレーズの前後にどのような単語やフレーズが出やすいかの確率を表現したモデルです。さまざまなシーンやビジネスで幅広くご利用いただける「汎用」、医療や金融などの専門用語を高精度で認識する「領域特化型」、ルール化された定型文(フレーズ)や単語だけを認識する「ルールグラマ」の大きく3種類の言語モデルがご利用頂けます。
※カスタマイズや掲載しているもの以外のモデルのご提供も可能な場合があります。お気軽にご相談ください。
AmiVoice は20 年以上のノウハウ・データが蓄積された高精度かつ高速の音声認識エンジン。日本語に対する高い認識精度に定評があり様々なシーンで使われています。
※ ITR 「ITR Market View : AI市場2021」 音声認識市場ベンダー別売上金額シェア(2015~2021年度予測)
自社内に独自の研究部門を持ち、最新の技術やデータを使って分析やチューニングを行っています。最新のディープラーニング技術や、その発展技術であるリカレントニューラルネットワークのBi-LSTM(Long Short-Term Memory)技術をエンジンに実装し、高い認識率を実現しています。
業務に不適切な用語を省くことで誤認識を軽減したビジネスユースに強い言語モデルを使用しています。さらに、医療・金融・保険・コンタクトセンターなど業界特有の用語の認識精度が高いエンジンもご用意しているほか、製品名や固有名詞などの登録・認識も可能です。
音声を認識させるために話し方を不自然に変える必要はありません。アクセントやイントネーション、会話スピードに左右されず、より自然な発話を認識します。また、事前に自分の話し方のクセを学習する必要はないため、老若男女を問わず誰の音声であっても簡単に認識します。
周囲の騒音や雑音は、認識率に大きく影響します。AmiVoiceはノイズ対策技術で、街の中はもとより、工場、自動車・電車・飛行機などの騒音が多い場所での音声や、電話などの聞き取りづらい音声もクリアに認識。利用場所やシーンを選びません。
お試しになりたい言語、言語モデル、音響モデルを選択し、「音声認識スタート」ボタンを押してお話しください。
ご自由にお話しいただくか、例文を読み上げると認識結果が表示されます。
※言語、言語モデル、音響モデルや用途を変更した場合は、新たに「音声認識スタート」ボタンを押してください。
注意事項
AmiVoiceの音声認識エンジンは、さまざまな「言語モデル」と「音響モデル」を組み合わせることで、利用シーンに合わせてより高い認識精度を実現しています。
※「言語モデル」と「音響モデル」を組み合わせたエンジンのラインアップからお選びいただけます。
言語モデル
音響モデル
大量のテキストデータから学習した、ある単語やフレーズの前後にどのような単語やフレーズが出やすいかの確率を表現したモデルです。さまざまなシーンやビジネスで幅広くご利用いただける「汎用」、医療や金融などの専門用語を高精度で認識する「領域特化型」、ルール化された定型文(フレーズ)や単語だけを認識する「ルールグラマ」の大きく3種類の言語モデルがご利用頂けます。
※カスタマイズや掲載しているもの以外のモデルのご提供も可能な場合があります。お気軽にご相談ください。
様々なシーンやビジネスを想定した汎用的な言語モデルです。
病状や病名、医療機器の名称など、医療業界の専門用語が含まれた音声を高精度で認識します。
病状や病名、医療機器の名称など、医療業界の専門用語が含まれ、電子カルテなどの入力に特化した言語モデルです
医療用医薬品やOTC医薬品、病名など、製薬の専門用語が含まれた音声を高精度で認識します。
保険の種類や保険の契約関連用語など、保険業界の専門用語が含まれた音声を高精度で認識します。
株式・証券や経済市場関連用語など、金融業界の専門用語が含まれた音声を高精度で認識します。
ルール化された定型文(フレーズ)や単語だけを認識します。定義化された言葉のみが対象のため、より高い精度で認識します。
音響モデルは、「あ」「い」「う」などの音の特徴を大量のデータをもとに学習したモデルです(実際は「あ」は1種類ではなくて、前後の音によって特徴が変わるため多くの種類があります)。日本語・英語などの言語ごとに構築しますが、さらに同じ日本語でも話し方や話す環境など、用途に応じて最適な音響モデルを用意しています。
音声の種類ごとに使い分けることでさらに高い認識精度を得ることができます。
※カスタマイズや掲載しているもの以外のモデルのご提供も可能な場合があります。お気軽にご相談ください。
対面の会議や打ち合わせ、Web会議など、人同士の自然発話音声に強いエンジンです。
音声操作やメール作成など、PCやスマートフォンに対して行う音声入力に強いエンジンです。
言語 | 音響モデル | サンプリングレート | 説明 |
---|---|---|---|
日本語 | 会話 | 16kHz / 8kHz | 会議を含む対面での自然発話、音声通話など、人との自然発話音声を対象としたモデル |
音声入力 | 16kHz | 音声操作や文字入力など人がPCやスマホに対して音声入力をする音声を対象としたモデル | |
英語 | デフォルト | 16kHz / 8kHz | 主に北米を中心とした話者を対象としたモデル |
中国語 (標準) |
デフォルト | 16kHz / 8kHz | 中国本土の標準語を対象としたモデル |
言語モデル | 音響モデル | 利用シーン例 | 対応サービス | ||
---|---|---|---|---|---|
API | API Private | SDK | |||
汎用 | 会話 | 幅広い場面での自然発話・会議の文字起こしなど | |||
音声入力 | 日報入力、メール作成、音声操作、音声検索など |
※中国語、英語の音声認識エンジンも用意しています。
言語モデル | 音響モデル | 利用シーン例 | 対応サービス | ||
---|---|---|---|---|---|
API | API Private | SDK | |||
医療 | 会話 | 医療会議や診察等、医療業界の自然発話・会議の文字起こしなど | |||
音声入力 | 介護記録や医療関連の音声入力など | ||||
電子カルテ | 音声入力 | 電子カルテの所見、診断書、診療情報提供書、紹介状等、各種医療文書の作成など | |||
製薬 | 会話 | 文字起こしや対面営業時の自然発話の文字起こしなど | |||
音声入力 | 薬剤師の服薬指導文の作成、MRの営業日報の音声入力など | ||||
保険 | 会話 | 文字起こしや対面営業時の自然発話の文字起こしなど | |||
音声入力 | 日報、メール作成の音声入力など | ||||
金融 | 会話 | 文字起こしや対面営業時の自然発話の文字起こしなど | |||
音声入力 | 日報、メール作成の音声入力など |
音響モデル | サンプリングレート | 利用シーン例 | 対応サービス | ||
---|---|---|---|---|---|
API | API Private | SDK | |||
音声入力 | 16kHz / 8kHz | 開発者が文法を定義することでさまざまな利用シーンで活用可能 ロボットやシステムの操作、データ入力、IVRなど |
- |