Tech Blog
  • HOME
  • Blog
  • 方言の音声認識、どこまでできる?AmiVoiceの場合

方言の音声認識、どこまでできる?AmiVoiceの場合

公開日:2025.01.30 最終更新日:2025.01.30
f:id:amivoice_techblog:20210115094116p:plain 安藤章悟

みなさま、こんにちは。

「AmiVoiceは方言を音声認識できるのか?」という質問をよくいただきますので記事にすることにしました。

AmiVoiceは日本語の方言を音声認識できるのか?

本当は「YES」「NO」で白黒ハッキリさせたいのですが、この質問はなかなか一筋縄ではいかないものです。ポイントは3点あります。

  • その方言が一般的か(学習データに含まれているか)
  • その方言の音素が一般的な日本語に近いかどうか
  • その方言にアクセント・イントネーションの違いがあっても問題ないか

それでは詳しく説明していきましょう。

AmiVoiceは方言をある程度音声認識できる。どこまでできるかは、学習データ次第

まず、AmiVoiceをはじめ多くの音声認識エンジンは学習されているデータに基づいて音声を認識します。より多くのデータが学習されるほど音声認識精度が高くなる傾向がありますので、方言においてもより多く学習されているほど音声認識精度が高くなりやすいと言えるでしょう。

方言にもいろいろありますが、2つのグループに分けてみましょう。

  • 多くの人々によって広く使われているもの
  • 限られた地域内でのみ使われる比較的少人数が使うもの

広く使われている方言は音声認識エンジンの学習データに含まれる可能性が高くなり、音声認識精度が高くなりやすいです。しかし、少人数の方言については、その限られた使用範囲のため学習データが不足しがちで、音声認識が難しくなる傾向があります。

しかし、学習データ量だけがすべてではありません。その方言が、共通語や他の多人数が使う方言と似ている場合は、たとえ学習データが少なくても、比較的高い音声認識精度になるでしょう。逆に言えば、その方言の特徴が共通語から大きく逸脱している場合、音声認識は困難になるでしょう。

上記をまとめると、方言を音声認識できるかどうかは以下のようにまとめることができます。

・多くの人が使う方言:音声認識されやすい
・使う人は少ないが共通語に近い方言:比較的音声認識されやすい
・使う人が少なく共通語から離れた方言:音声認識が難しい

AmiVoiceでは方言の持つ音素が独特だと音声認識が難しい可能性がある

日本語では一般的に母音は「あいうえお」の5つとされており、AmiVoiceの日本語エンジンでも基本的にはそれに則っています。しかし方言によってはこれと違う母音を使うこともあります。

例えば名古屋弁では連続した母音「あい[ai]」の発音が「えあ[æ]」に転ずることがあるそうです。例えば「鳴いた[naita]」という動詞の発音は [næːta] に変わるそうです。発音は「にゃあた」や「ねぁた」に近いまたは中間くらいのものだと思います。

なので「猫がにゃあと鳴いた」という文は「猫がにゃあ[njaː]とにゃあ[næː]た」となるそうですが、ポイントとして2回出てくる「にゃあ」の発音がそれぞれ別になるそうです。

AmiVoiceの日本語エンジンでは「えあ[æ]」という音素は基本的には持っていないためこの発音を区別して音声を理解することができません。[næː]と発音した時には音が近い「にゃあ」や「ねあ」と音声認識される可能性が高いと思われます。

これはあくまで一例ですが、方言にはこのように音素・発音が異なる場合があるため、音声認識がうまくされにくくなるケースはあるでしょう。

AmiVoiceはアクセント・イントネーションに強い

方言にはイントネーションやアクセントという要素もあります。例えば「バナナ」は、関東では「なな」(最初にアクセント)、関西では「ばな」(真ん中にアクセント)のように、アクセントが異なると思います。※地域や話者によっては同じアクセントのこともあるかと思います。

AmiVoiceはこういったアクセントの違いには強いです。基本的に問題なく音声認識をすることができると考えていいでしょう。

少し細かい話になりますが、AmiVoiceは25年以上と長く提供しているので、その音声認識エンジンの世代も途中で何度も変わっています。世代によってアクセントに強い理由がちょっとずつ違ったりもしていますが、どれもテストや実績でアクセントに強いことが確認されています

で、結局方言は音声認識できるの?

本当は「◯◯方言の音声認識率は何%です」のようなデータがあればいいのですが、AmiVoiceでは方言に着目して学習データや評価データを集めたことが無いので、実は方言の音声認識精度は定量的には分かっていません。

なので、定性的ではありますが、まとめとして「私が考える音声認識が難しそうな方言の特徴」を挙げてみようと思います。

  • 読みが独特な単語やフレーズ
    方言の中でも、読みがオリジナルな単語・フレーズは音声認識が難しいです。単語登録機能を使えばある程度カバーすることもできますが、そういった単語・フレーズが膨大にある場合は個別に専用の音声認識エンジンを構築する(要相談)必要があります。
  • 共通語と異なる音素
    「あいうえお」以外の母音があったり、その他音素の体系が共通語と離れていると音声認識が難しいでしょう。膨大な音声データがあればエンジンを作ることも可能(要相談)ですが、非常に難易度が高いといえます。

こういった特徴のある音声を音声認識したい時は、何かしらの対策が必要かもしれません。AmiVoice APIを使ってサービス開発している方で、こういう場面で困った場合は技術的な問い合せからご相談頂くといいかと思います(難しい方言に対しては、あまりビシっと解決できるソリューションは無いかもしれませんけど・・)。

また、この情報は記事を書いた2024年現在のものです。今後のバージョンアップや新世代の音声認識エンジンが登場したら、もしかするともっと簡単に方言を音声認識できるようになる日が来るかもしれませんね。

この記事を書いた人


  • 安藤章悟

    音声認識の研究をしていたら、近所に音声認識屋を見つけてしまい入社。今に至る。

    趣味は海外旅行と美味しいものを食べることとサウナ。

    : @anpyan

APIを無料で利用開始