「話し方」で音声認識精度(音声認識率)が上がる。喋り方のコツとは?
安藤章悟
みなさま、こんにちは。
これさえ食べればダイエットできる!というものがないように、これさえやっておけば音声認識精度が高くなるというものは残念ながらありません。ただ、いくつかのポイントに気を付けることで少しずつ音声認識精度をアップさせていくことは可能です。
この記事では、私が講師を務めた技術ウェビナーの資料・内容を踏まえて、音声認識精度を上げる5つのコツを連載で解説していきたいと思います。
こんな方におすすめ
- 音声認識の認識率をもっと良くしたい方
- 音声認識を使ったサービスを作りたい方・認識率に不安がある方
どんな時に音声認識精度が高い?低い?
音声認識精度を高くするコツの前に、どんな時に音声認識精度が高くなりやすいのか低くなりやすいのかについてお話したいと思います。突然ですが、以下の画像、どのビデオ通話相手の声が聞きやすそうだと感じますか?
左の女性は聞きやすそう、右側は聞きにくそうという印象はないでしょうか?
これはあくまでビデオ通話の話ですが、実は音声認識でも同じことが言えます。人間にとって聞きやすい音というのは、音声認識しやすい音でもあります。
では上記の画像から「聞きやすそ~」「聞きにくそ~」と感じるポイントはどこかを考えてみましょう。以下の5つがあげられそうです。
音声認識精度の高さに影響するポイントは5つ
1. 適切な喋り方をする
2. 適切なマイクデバイスを選択する
3. そのマイクデバイスを適切に使う
4. 雑音が少ない環境で使う
5. 適切な通信環境で使う
この5つが完璧なら音声認識精度はかなり高くなります。ですが、どうしても雑音環境で使うケースなどあるでしょうし、全てを満たすことは難しいかもしれません。ただ、そんな時でも他の各要素に気をつけることである程度弱点をカバーしつつ高い音声認識精度を維持することができたりもします。
番外編. 音声認識エンジンが対応している内容を喋る
もう1つ番外編として重要なポイントがあります。人間同士のコミュニケーションでは通常同じ話題で会話を進めるため相互理解が比較的容易ですが、音声認識の場合はエンジンがどの程度その話題に精通しているかが重要です。たとえ発声や音質が完璧であっても、その音声認識エンジンが特定の話題や専門用語に対応していなければ、認識精度は大きく低下してしまうのです。その点についてもいずれ(次回以降)お話しようと思います。
今回は「1. 適切な喋り方をする」についてお話します。
コツ1)適切な喋り方をする
音声認識精度を上げるには、まず「人間にとって聞きやすいように喋る」ということを意識することが大事です。それを踏まえた上で、具体的にどのようなポイントに注意するべきかを整理していきましょう。
明瞭に喋る
なるべく滑舌良くはっきりと喋ると良いです。
ボソボソ喋ると人間に伝わりにくいのと同じで、音声認識も誤認識を起こしやすいです。なるべく1音1音をはっきりと、大きく口を動かすイメージで喋ると良いでしょう。
また、音が飛ばないように注意することも大事です。例えば「承ります」を「けたまります」のように発音してしまうことはよくあると思います。多少音が飛んでも問題なく音声認識できることも多いですが、少しずつ音声認識精度を落とす要因になってくるので注意すると良いです。
普通に喋る(不自然な喋り方はしない)
人に話しかけるように自然に喋ると良いです。
音声認識を使う時に、大昔のロボットが喋るように「コ ン ニ チ ワ」と1文字ずつ区切って喋る人や、「こーんーにーちーわー」のように1文字ずつを極端に強調して喋る人を見かけることがあります。そう話しかけた方が音声認識されやすいイメージがあるかもしれませんが、近年の音声認識ではそういう必要は無いどころか、逆効果です。人に話しかけるように普通に喋るのが一番です。
少し詳しい話をすると、人間は “あ”、”い”、”う” などの音をひらがな1文字ずつ発声しているわけではなくて「 “あ” から “い” に移る途中の音」なども発声しています。音声認識ではそういった中間の音を含めて認識するようになっているので、そういった音も含めて喋った方がいいです。つまり、普通に喋った方がいいのです。
適切な音量で喋る・なるべく一定の音量で喋る
極端な大声や小声は人間にとっても聞き取りにくいと思います。ここでは下記2点に注意すると良いでしょう。
- 声が小さすぎないこと(人間が十分に聞き取れる音量で録音されていること)
- 声が大きすぎないこと(音割れしていないこと)
ただし、この点は、人が喋る声の大きさだけではなく「どんなマイクを使うか」「マイクと口の距離はどのくらいか」「マイクの感度はどのくらいか」などの要素にも依存します。使うマイクや設定に合わせて、適切な声の大きさで喋ることが大切です。マイクについてはまた別の回で説明します。
- なるべく一定の音量で喋ること
もう1点、なるべく一定の音量で喋るのも大切です。発話の先頭や末尾の声は音量が小さくなりがちで、そうなった時に音声認識エンジンに検知されなかったり、正しく音声認識されないケースはよく見ます。こういった場合はマイク感度を少し強めにしたりマイクに近づくことで防止することもできますが、先頭や末尾でも一定の音量で喋るよう意識することでも改善できます。
他の人の喋りにかぶらせない
複数の人が同時に喋ると音声認識の難易度は一気に上がります。喋る時はなるべく1人が喋るようにすると良いです。
音声認識システムによっては複数チャネルの音声入力が可能なものもあるかと思います。そういったシステムで、話者ごとにマイクが個別に割り当てられていれば同時に喋っても問題ないでしょう。マイクが1つしかない時にそのマイクに向かって複数の話者が話しかけると音声認識精度はどうしても下がってしまいます。
(AmiVoiceの場合)イントネーション・アクセントは気にしなくても問題ない
イントネーションやアクセントには地域差や個人差、あるいは「疑問文で語尾が上がる」のような変化があると思います。AmiVoiceではこのようなイントネーションやアクセントの違いがあっても、音声認識精度への影響はありません。
ちなみに、AmiVoice以外のエンジンにもイントネーション・アクセントに強いものはあると思います。AmiVoice以外のエンジンではあまり詳細な検証は出来ていないのでここでは「AmiVoiceの場合」と表現しました。
まとめ
今回は適切な喋り方をするというポイントについてお伝えしました。音声認識エンジンは人の普通の話し方を学習しているので、人が聞きやすい話し方で話すことが大きなポイントといえるかと思います。また、一定の音量で話すこと、他社の発話にかぶせないことにも注意することでさらに音声認識精度を上げることができるでしょう。次回は、「デバイス(マイク)選びで変わる音声認識率~マイクの選び方~」をお伝えします。
この記事を書いた人