Tech Blog
  • HOME
  • Blog
  • 音声認識の大敵「雑音環境」でも認識精度を上げるテクニック

音声認識の大敵「雑音環境」でも認識精度を上げるテクニック

公開日:2024.08.30 最終更新日:2024.10.07
f:id:amivoice_techblog:20210115094116p:plain 安藤章悟

みなさま、こんにちは。

音声認識の精度を上げるコツを紹介する連載企画。第4回目は音声認識にとっての難敵「雑音」についてです。言うまでもなく、雑音が多い環境では音声認識の精度が低下してしまいます。しかし、実際に音声認識を利用するシーンでは、周囲の雑音が避けられない状況も少なくありません。

そこで今回は、雑音が音声認識にどのような影響を与えるのか、そして雑音の多い環境でも音声認識の精度を高めるための具体的なテクニックについて詳しくご紹介します。

雑音が音声認識に及ぼす影響

さて、多くの方が気になるのは「どの程度の雑音なら許容できるのか」という点ではないでしょうか。確かに、人間の場合、多少周囲がうるさくても相手の声を聞き取れることが多いですよね。音声認識も同様に、軽度の雑音であれば問題なく認識できることが多いです。しかし、実際に認識率を計測してみると、雑音が大きくなるにつれて認識率は著しく低下しますし、あまり気にならない程度の小さな雑音でも、認識率に影響を与えてしまうこともあります。

このため、音声認識の精度を最大化するためには、可能な限り雑音を抑えることが重要だと言えるでしょう。

下記の波形は左から「雑音が少ない」「雑音が多い」「雑音がひどく多い」という音声を表現したものです。

  • 「雑音が少ない」(左)
    これは理想的な波形です。音声の波形が振れている箇所(発話部分)と、全く振れていない箇所(無音部分)に分かれています。ほとんどノイズは入っておらず、音声認識精度が最も高くなります。
  • 「雑音が多い」(中央)
    こちらは少し雑音が入った状態を示しています。無音であるはずの箇所でも音声波形が振れており、ノイズが混じっているのがわかります。この程度のノイズがあると、音声認識の精度は目に見えて低下します。
  • 「雑音がひどく多い」(右)
    波形全体が大きく振れており、視覚的にどこが発話かを判断するのが難しい状態です。このような音声では認識精度が著しく低下し、適切な対策が必要になります。

「どの程度の雑音でどのくらい認識率が下がるのか?」という問いに対する答えは、状況によって異なるため一概に言うことは難しいです。しかし、上記の中央の波形程度に雑音が混じっている場合は、認識精度の低下に十分注意が必要です。

雑音が多い環境ではどうすればよいか?

では、雑音が多いときにどういう対策をとればいいのかを解説していきます。主な対策として考えられるのはこちらの3つです。

  • マイク音量を絞り、マイクの近くに口を寄せて、大きな声で喋る
  • 指向性のあるマイクを使用する
  • 雑音除去を使う(効果がある場合もありますが、注意も必要です)

最も効果的な対策は、最初に挙げた「マイク音量を絞り、マイクの近くに口を寄せて、大きな声で話す」ことです。これは、人との会話に例えると「相手の耳元で大きな声で話す」ようなものです。雑音が多い環境では、この方法が最も効果的に音声認識の精度を高める手段となります。

上の波形を用いて説明しますと、左の波形にはかなりの雑音が含まれています。ここで、マイクに口を近づけて大きな声で話すことで、中央の波形のように雑音に対して発話を相対的に大きくすることができます。ただし、これだけでは音が大きすぎて音割れをしてしまう可能性が上がってしまいます。そこで、マイク音量を絞ることで音量を適切にし、右の波形のようにすることができます。これにより、音声認識の精度が向上する可能性が高まります。

さらに、指向性のあるマイクを使用することも、雑音に対して発話を効果的に拾うために有効です。指向性マイクは特定の方向からの音を集中的に拾うため、周囲の雑音を軽減し、発話をより大きな音として捉えることができます。

また、雑音除去(ノイズキャンセル)の機能を活用することも有効な対策の一つです。しかし、注意が必要なのは、雑音除去の手法によっては、通常のマイクで録音された音と特徴が変化してしまうことがあり、その結果、音声認識の精度が低下する場合があります。使用する際は、こうしたリスクを考慮しながら適切に活用してください。

その他のノイズ対策

これ以外にも、以下のような対策を検討することで、音声認識の精度を少しずつ改善することが可能です。即効性のある対策は少ないですが、これらのポイントを押さえることで、ノイズの影響を最小限に抑えることができるでしょう。

  • ノイズ源からできるだけ離れる
  • ノイズが発生しているタイミングでの発話を避ける(例: 駅のホームで電車が通過する時など)
  • 物陰など、比較的雑音が届きにくい場所で発話する

まとめ

今回は雑音が音声認識の精度に及ぼす影響と、雑音をなるべく抑えるためのテクニックについてご紹介しました。もし、音声認識システムを使用する際に雑音が多くてうまく認識されない場合は、ぜひ今回ご紹介した「マイク音量を絞り、マイクの近くに口を寄せて、大きな声で喋る」という方法を試してみてください。

音声認識の精度を向上させるコツを紹介してきた本連載も、次回で最終回となります。次回は「適切な通信環境での使用」について解説いたします。

この記事を書いた人


  • 安藤章悟

    音声認識の研究をしていたら、近所に音声認識屋を見つけてしまい入社。今に至る。

    趣味は海外旅行と美味しいものを食べることとサウナ。

    : @anpyan

APIを無料で利用開始