Tech Blog

騒音に負けない！音声認識の使いこなし方-２．騒音の対処法と注意すべきポイント-

公開日：2024.07.02　最終更新日：2025.03.04

音声認識精度アップの方法

f:id:amivoice_techblog:20210115094116p:plain

りんごの人

みなさんはどのような環境で音声認識システムを利用していますか？
静かな空間で利用している人もいるとは思いますが、職場の環境音の中や製造現場での騒音下で利用している人もいるかと思います。今回は、「騒音環境に負けない音声認識の使いこなし方」というテーマで、2回に分けてご紹介します。2回目のテーマは「騒音の対処法と注意すべきポイント」について解説していきます。

【この記事で解決できるお悩み】

過去騒音が原因で音声認識がうまく使えなかった
周りの音がうるさくて、うまく音声認識精度が出なかった
音声認識のサービスを開発販売していて騒音環境下での対処法を知りたい

1回目のテーマ「そもそも騒音とはなにか」についてはこちらの記事をチェック▼

騒音に負けない！音声認識の使いこなし方-１．騒音ってなに？-

騒音環境下で音声認識を快適に利用するために

では、実際に騒音環境下で音声認識するためにはなにを注意すればいいかのポイントを解説していきます。

騒音環境下で音声認識を行う際のポイント

騒音環境下で注意したいポイントは下記の4つです。

適切なマイクを選択する
マイクの使い方
ソフトウェア制御
音声認識の運用

マイクの選択は、指向性、装着型、感度、調整機能の選定をする必要があります。
マイクの使い方に関しては、「マイクの感度を下げて、口元に近くなるように装着し、大きな声で発話する」というこの3つのステップを守ると認識精度が高くなります。
（以下「マイクの選び方」は失敗しないマイク選びとは～音声認識率はマイクでも変わる！～でもご紹介している内容と同じものになります）

マイクの選び方①「指向性があるマイク」は音声認識しやすい

マイクの選び方について説明していきます。まず、マイクには指向性というものがあります。

上のイラストで説明すると、ほとんどのヘッドセットマイクは口元方向への感度が高い設定で、口元以外の後方の感度は低い設定になっています。この場合は、発話の音声を音量を大きく取得して、周囲からのノイズの影響を減らすことができます。
雑音が少ない環境があれば指向性を気にしなくても音声認識は使用できます。例えば、ノートパソコンのマイクは指向性がないものがほとんどなので、オフィスの環境で音声認識をテストする場合だと問題なく使用できます。ただ、騒音環境下でノートパソコンの内蔵マイクで音声認識を使用するのは難しくなります。

マイクの選び方②指向性の種類

続いて指向性の種類について説明します。

無指向性のマイクは、全方向の音も同じ大きさで取得するというものです。例えば、机の真ん中に置いて、複数方向からの音を取りたい場合には、有効に働きます。騒音環境下では色んな方向からのノイズを拾ってしまうので、かなり適さないマイクです。なお、ノートPCの内蔵マイクはほぼ無指向性のマイクです。

単一指向性のマイクは、正面（上方向）からの音の感度が最も高く、逆に背後から入る音に関しては、小さく取得する構造をしてます。実際に音は回り込むので完全にゼロにはなりませんが、正面からの音の方が取れる点から、単一指向性のマイクは騒音環境下での利用において適したマイクといえます。

マイクの選び方③装着型のマイクをおすすめする理由

次に、マイクのタイプについて説明していきます。マイクは装着型をおすすめしています。

理由は、指向性の向きでや口元への近さを固定できる点です。
例えば、ハンドマイクは口の近くで使い指向性もわかりやすいですが、固定はされてないので口元と距離が離れてしまいます。

一方でヘッドセットは完全に固定されているので、指向性もわかりやすくて、音声認識には非常に向いているマイクになります。頭にかぶるタイプや耳に掛けるタイプ、ヘルメットの紐に引っ掛けるタイプなど様々ありますが、どれも人が動いてもをしてもマイクが固定されるので作業中にも適しています。

マイクの選び方④感度調整機能について

マイクの選び方についてのトピックで、感度調整機能についても触れておきます。
マイクの感度とは、音を電気信号に変換する際に「どの程度の大きさに変換するか」の指標になります。

マイク感度が小さい状態で音声を録音すると、同じ音声でも小さい音として録音されます。

録音の音量設定は、マイク感度で調整することを知っておくと役に立ちます。マイクの感度調整はOS の設定やアプリケーションの設定からも変更できるますが、マイク本体に調整つまみなどがある方が調整が容易です。

まとめると、「指向性がある」「装着型である」「感度調整機能がついてる」かが、マイクの選定において非常に重要なポイントになっています

マイクの使い方

騒音環境下でマイクを使う重要なポイントとして、「マイクの感度を下げて、口元に近くなるように正しく装着をして、大きな声で発話をする」ということが最も適した使い方になります。

下図の左の波形は発話とノイズを一緒に認識していて、発話区間が検出できなかった音声データになります。

マイクの感度を下げると発話の音声もノイズも、どちらの音も小さく取得するので、真ん中の図のようになります。
その状態で、口元にマイクが近くなるように装着した状態で、大きな声で発音をすると発話部分の音声のみが大きく取得され認識されます。ノイズに対して発話をした部分が大きくなるため、理想的な音声に近づくことになります。

大きな声で発音する際に、マイクの感度が下げられないと音割れを起こしてしまうので、感度調整ができるマイクであることが重要なポイントになってきます。

ソフトウェア側で行える騒音制御

あくまで前途で説明してきたマイクのセッティングが正しく行われていることが前提です。ソフトウェア側で設定できる騒音対策をご紹介します。

■ノイズキャンセリング機能
ノイズキャンセル機能を使うことで、ノイズを誤って認識してしまうことを減らしたり、人が話している区間を正しく推定し、認識率を向上する効果が期待できます。ただし、ノイズキャンセル機能は一般に元の音声と比べて音声が歪んでしまいます。そのため、音声認識エンジンが利用している音響モデルとのミスマッチにより、認識精度が下がる傾向があります。

■マイクの感度調整はOS上でも可能
マイクの感度調整機能はOS上でも操作することができます。ただ、マイクに調整機能が付いているものはそこで調整した方が効果的です。特に音割れしているときに、OS上でマイクの感度調整をしても、音割れした音声のまま音圧を下げていることになるので、音声データとしては質は変わりません。音割れを起こしているときはマイク自体で感度調整するのを推奨します。

■発話区間検出の設定
発話の開始や終了の検出を調整する感度のような機能が備わっているアプリケーションであれば、調整することで音声認識の対象を広げたり、狭めたりすることで認識精度を改善できる可能性があります。ただし、これらの調整ができないアプリケーションの場合は、一般ユーザーが変更することは難しいと思います。AmiVoiceの場合は、発話区間検出プログラムのパラメータを柔軟に調整できますので、サービスを開発されている方はご相談ください。

なお、騒音とは関係ないのですが、AmiVoiceではエンジンモードの選定ができ、特定の専門用語が多い場合や現場の発話した内容に合わせてエンジンモードを選定することで音声認識精度をアップできる仕様になっています。

音声認識の運用

4つ目のポイントは、設定ではなく物理的に解決するという考え方です。

ノイズのないタイミングで発話する→単純に、発話タイミングにノイズがなければ関係ない
ノイズから離れて発話する→エアコンの真下や音源となる機械の側など、物理的に騒音の原因から離れる
風防（マイクカバー）を装着する→息がマイクにかかりノイズとなってしまうことを防ぐことに効果的

以上4つを踏まえていれば、騒音環境下でも音声認識の精度を保つことができます。

騒音環境下で音声認識精度を上げるためには

ここまで「騒音に負けない音声認識の使いこなし方」をテーマに説明してきました。改めてポイントをまとめます。

＜騒音環境下で音声認識を行うには＞

適切なマイクを選択する：指向性、装着型間の調整機能を目安に、適切に選定する
マイクの使い方：感度を下げて、口元に近いように装着し、大きな声で発話する
ソフトウェアの制御：音声認識設定を見直しする
音声認識の運用：物理的に騒音を回避する

以上が騒音環境下で音声認識をするための重要なポイントになっています。この記事を読んで悩みが解消されたり、疑問が解決されれば幸いです。ぜひ、今後の参考にしてみてください。

また、製造・物流業界で音声入力を使った業務効率UPの事例をまとめた資料をこちらから無料でダウンロードいただけます。1－2分で読めますのでお気軽にご覧ください。

製造・物流業の音声認識活用事例集

この記事を書いた人

りんごのひと

新卒5年目のプログラマ。物理の研究から心機一転ITの世界へ。

趣味のゲームもプログラマ目線で考えるようになってしまった。