Tech Blog
-
2023.06.26
"会議"の音声でOpenAIのWhisperとAmiVoiceの音声認識率を比較してみた
会議の音声をOpenAIのWhisperとAmiVoiceで音声認識して、それぞれの音声認識精度を比べました。結果としてはAmiVoiceの方が誤認識が大幅に少なく高精度でした。Whisperの誤認識の例など出しながらこの差の要因について解説します。
-
2023.05.15
AmiVoice APIで不要語(フィラー)を表示するか除去するか選ぶ方法
AmiVoiceAPIには不要語(フィラー)を自動的に除去する機能があります。しかし音声認識を使う場面によってはフィラーを除去せず表示した方がいいこともあります。今回はフィラーの除去を制御するやり方について解説します。
-
2023.04.17
ステレオ音声ファイルをモノラル音声ファイル×2に変換するやり方
AmiVoice APIはステレオの音声ファイルを音声認識させると片方のチャネルしか認識されない仕様になっています。ステレオ音声ファイルの右チャンネルと左チャンネルに異なる音が入っている場合を想定して、今回はSoXというツールを使ったステレオ音声ファイルをモノラル音声ファイルx2に変換する方法について説明します。
-
2023.04.03
音声認識処理後の音声データはどこへ行く?
音声認識処理した音声をどのように管理しているか、個人情報などが入っている音声データの場合どのプランを選んだらいいのかなど、AmiVoice APIを検討されるお客様からよく頂くセキュリティに関する質問にお答えします。
-
2023.03.13
OpenAIのWhisperの音声認識率を計測してみた(AmiVoice VS Whisper)
2022年の9月にOpenAIからWhisperという音声認識エンジンが公開されました。このWhisperとAmiVoiceの音声認識精度を比較してみました。
-
2023.03.06
音声認識の仕組みをざっくり解説!
どのように音声を文字にするのか音声認識の仕組みや種類、それぞれの特長や適切なエンジンの選び方を、音声認識の研究に携わっているエンジニアがざっくりと、かつ分かりやすく解説します。
-
2023.02.06
マイク選びが音声認識活用の決め手。マイク利用と発話のポイント
誤認識を防ぎ、認識率を上げるためには、音声認識に適したマイクを選ぶことが大切です。マイクの選び方や利用方法、発話のポイントについてご紹介します。
-
2023.01.16
コンタクトセンターの通話を音声認識で文字化する仕組み SIP編
コンタクトセンターで音声認識を活用し、通話を自動で文字化する仕組みをご紹介します。SIPプロトコルを利用して通話の音声を取得する方法です。
-
2022.12.20
【中級者向け】AmiVoice の単語の読みの自動変換について
日本語では「先生(せんせい)」を時として「せんせー」と発音するケースがあるように、読み仮名と実際の発音が少し変化することがあります。AmiVoiceではその変化に対応するために指定された読みを自動的に変化させていますが、読みを厳密に指定したい時には少しコツが必要になります。今回はその読みの指定について詳細に説明をします。
-
2022.11.29
音声認識に必要なサンプリングレートはどのくらいか?
音声認識をする時の最適なサンプリングレートの解説をします。また、AmiVoice APIでのサンプリングレートの扱いについても細かく解説します。
-
2022.11.24
NPCの実現間近!?VRChat 向け音声対話アバター「AIアバターAOI」開発者インタビュー
メタバース空間上での対応を自動化する音声対話アバター「AIアバターAOI」の開発者インタビューです。NPC(ノンプレイヤーキャラクター)が実現するかも!と各所で話題になりました。
-
2022.10.31
AmiVoice APIの単語登録機能で選択可能な「クラス」の解説(汎用エンジン)
AmiVoiceの単語登録では「クラス」を指定することで、より適切な音声認識が出来るようになります。今回はAmiVoice APIで最もよく使われている汎用エンジンの「会話_汎用」と「音声入力_汎用」の2つのエンジンについてどのようなクラスを指定できるかを解説します。
よく見られている記事
新着記事
- 音声認識を使ったシステム開発の前提条件<後編>ー開発ノウハウシリーズ2ー
- 音声認識を使ったシステム開発の前提条件<前編>ー開発ノウハウシリーズ1ー
- 方言の音声認識、どこまでできる?AmiVoiceの場合