失敗しないマイク選びとは~音声認識率はマイクでも変わる!~


みなさま、こんにちは。
音声認識においてマイクの選択は重要な要素の1つです。マイクは多種多様であり利用目的や環境に応じて最適なマイクを選ぶことがとても大切です。
音声認識の精度を最優先に考えるのであれば、口元で使用するタイプのマイクを選ぶといいでしょう。マイクと口との距離が近いというのは、人間に例えると耳の近くで喋るのと同じです。周囲のノイズの影響を減らしてクリアな音声を拾うことができるようになります。今回はこのようなポイントを中心として、音声認識精度が高くなるマイクの選び方をお伝えします。
※本記事は音声認識精度を上げる5つのコツを連載で解説していくシリーズの2回目です。1つめのコツは「適切な話し方をする」をご覧ください。
こんな方におすすめの記事です
- 音声認識の認識率をもっと良くしたい方
- 音声認識を使ったサービスを作りたい方・認識率に不安がある方
「口の近くで使うマイク」は音声認識しやすい
下に4つイラストでマイクの使用例を載せています。音声認識のしやすさという観点で◎、〇、△の評価をしていますが、これはあくまで私の主観なので参考として見てください。

左の二つ、ヘッドセットとハンドマイクは二つともかなり口の近くで使うことになるので音声認識にはとてもオススメです。特にヘッドセットは装着すると常に口の近くにマイクがあり、ちょっと動いたりしても位置が変わらず安定して使えるところがポイントです。ハンドマイクもオススメですが、喋っているうちにだんだんマイクが口元から離れていって音が入りにくくなることもある(注意する必要がある)ため、1つ評価を下げて〇にしています。
右の二つは、音声認識としてはちょっと難易度が上がる例です。右から2番目の場合、卓上のデバイスまでこのイラストだと30cmから50cmぐらい離れていると思いますが、この状態だと周りのノイズもかなり拾いやすくなってしまいます。一番右の講演の場合は、さらに話者が離れるので、話者の声自体がもっと減衰して弱くなりますし、また、会場でスピーカーを使っていれば音は大きくなるものの、実際の話者の声とスピーカーからの音とそれの反射の音などが混ざり聞きにくくなることもあります。このように音源とマイクが離れている場合には音声認識の難易度が上がりやすくなります。
ポイント
- 音声認識したい音だけがマイクに入るのが理想
- 口の近くにマイクがあると「耳の近くで喋る」と同じ効果がある
- 口からマイクが離れるほど、周辺の雑音が入りやすくなる
- 雑音が少ない環境ならマイクまでの距離はあまり気にしなくてもいい
【実験】マイクと口の距離が変わるとどのくらい音の大きさが変わるのか?
マイクと口の距離の違いでどう音の大きさが変わるのかを実験してみました。ヘッドセットを使い、5cmの距離と30cmの距離で、それぞれスマホから同じ音を流して録音してみました。イメージとしては下記のイラストのような感じです。

結果は、下記のように波形の大きさ(音圧)の平均が4.8倍ぐらい違っていました。

この実験では静かな環境で人の声しか録音していないので、距離30cm程度ならそれほど影響なく音声認識ができると思います。しかし、周囲にノイズがある場合、距離30cmのように波形が比較的小さくなるとノイズの音に埋もれやすくなり音声認識精度が落ちやすくなります。そのため、特にノイズがある環境ではマイクに口を近づけることが重要になります。
ポイント
- マイクに口を近づけるほど音が大きく録音でき、相対的に周囲の雑音を減らす効果が大きくなる
※室内で朗読音声をiPhoneで再生し、マイクで録音しました
※マイクは単一指向性のヘッドセットを使用し、音源はマイク指向性方向の正面に設置しました
※上記のイラストのような人物は不在で、音源(iPhone)とマイク(ヘッドセット)のみで実験しました
※比較のための波形の大きさの値はRMS(二乗平均平方根)で算出しました
※諸条件で結果は大きく変わると思います。あくまで参考に
「指向性があるマイク」は音声認識しやすい
マイクには向きがあり指向性(しこうせい)と呼びます。基本的にはマイクの正面から入った音を一番強く拾って、横や後ろから入った音は弱く拾います。この指向性を適切に使うと口方向の音は強く拾いそれ以外の方向を弱くすることができますので、前述の耳の近くでしゃべるのと同じような効果を得ることができます。

(参考)指向性の種類

指向性にはいくつか種類があって主なものを3つ挙げています。見方ですが、図の円の上方向が真正面、右方向が90度右からきた音で、下方向が真後ろから来た音ということになります。例えば真ん中の単一指向性では、真正面(図の上方向)からの音を一番強く拾い、真後ろ(図の下方向)からの音は最も弱くなることが分かります。マイクのカタログやスペックシートに指向性の記述があるので、少し意識して見ていただけるといいかなと思います。
ポイント
- マイクには指向性(向き)がある場合がある
- 指向性があるマイクを適切に選ぶと周囲の雑音を拾いにくくする効果がある
- 雑音が少ない環境なら指向性はあまり気にしなくても問題ない
【実験】マイクと口の角度が変わるとどのくらいの音の大きさが変わるのか?
マイクに指向性があるときに、マイクと口の角度の違いでどう音の大きさが変わるのかを実験してみました。先ほどの実験と同じ環境で、今度はマイクとスマホ(音源)までの距離を5cmで固定し、角度を 0°(正面)・90°(真横)・180°(真後ろ) と変えてみました。結果は、波形の大きさ(音圧)の平均は0°と90°で約1.4倍 になり、0°と180°で 約3.2倍になりました。

この実験のようにわざわざ指向性の向きを間違えて使うことはあまり無いと思いますが、指向性を活かすことで周囲のノイズの影響を受けにくくでき、音声認識精度を低下させないようにすることができます。
ポイント
- 指向性を適切に使うと、相対的に周囲の雑音を減らせる
※室内で朗読音声をiPhoneで再生し、マイクで録音しました
※マイクは単一指向性のヘッドセットを使用しました
※上記のイラストのような人物は不在で、音源(iPhone)とマイク(ヘッドセット)のみで実験しました
※比較のための波形の大きさの値はRMS(二乗平均平方根)で算出しました
※諸条件で結果は大きく変わると思います。あくまで参考まで
その他マイク選びのポイント
上記以外の「選び方のポイント」を以下に4つ挙げます。
特殊な動作原理や、何かしら強力な信号処理が入るようなマイクは避けた方がいいこともある
- 広く普及しているマイクで録音した音は学習データ内にも多く音声認識されやすい可能性が高い
- 例えば、骨伝導型のマイクなどはノイズに強いが音声認識精度は下がってしまう可能性がある
- 他にも、”強い”信号処理が入るマイク(ノイズ除去や指向性)は、人間にとっては聞きやすくても、音声認識精度が落ちるケースがあり注意が必要
何十万円もする高級品でなくてよい
- ものすごい高級品のマイクやオーディオデバイスは音声認識のためにはオーバースペック
- 高級品よりも普及帯のものを使った方が学習モデルに近い音になり、音声認識されやすくなる可能性もある
- 「”録音品質が重要でない製品”の付属マイク」や「中古・ジャンク品」などには注意が必要
ノートPCの付属マイクは、必ずしも悪いわけではないが、問題があることがある
- 「口からの距離が遠い」「ファンなど駆動音が入りやすい」など音声認識精度を下げる可能性がある
PC本体のサウンドカードは品質にバラツキがあることがある(経験上)
- マイクから3.5mmステレオミニプラグでPCに接続するタイプはPCのサウンドカード側の品質にバラツキがあることがあり、ノイズが入ったり、音量が適切に調整できない等の問題が生じる場合がある
- その場合、USB接続のマイクデバイスを使うと品質が安定することが多い

結論:個人的なオススメ音声認識マイクは「USB接続のヘッドセット」です
これまで書いてきたことをまとめると、ちゃんと口元に装着でき、指向性があって口の方を向いているマイクがおすすめということになります。また、USB接続だとPCのサウンドカードの品質バラツキの影響を受けにくいことから、私としては、「USB接続のヘッドセット」がおすすめです。
しかし、これはあくまで「音声認識精度を高くする」という観点の話なので、用途によってはヘッドセット以外のマイクが適していることもあります。多種多様なマイクからなるべく音声認識精度が高くなるよう、用途に適したものを選ぶことが大切です。
次回は、マイクの使い方編をお届けします。
この記事を書いた人