機械の耳と人間の耳
高精度の音声認識技術確立を
めざして

#メディア処理
#機械読解
#人間情報研究所

人間情報研究所

齊藤翔一郎、福冨隆朗

音声言語メディアプロジェクト

NTTでは古くから音声認識技術の研究に力を入れてきた。今日でも「音声言語メディアプロジェクト」と題するプロジェクトを有し、多様なアプローチからより精度の高い音声認識技術の確立に向けて努力が積み重ねられている。
機械の耳を人間の耳に近づけるというのは一体どういうことなのだろうか。

▼ INDEX

01. 人間の耳は果たしてどのように聞いているのか
02. より人間らしい音声認識の実現へ
03. ニーズが急速に高まる音声認識

01.人間の耳は果たしてどのように聞いているのか

人間が音を聞く際には、雑多な音の中から求める対象の音をクリアに認識したり、あるいは音の大きさや抑揚などさまざまな情報から話者の感情などを読み解く努力をしている。「音声言語メディアプロジェクト」で音声処理、音声認識に関する研究を行っている入社10年目の齊藤翔一郎と9年目の福冨隆朗。二人はそれぞれ音をクリアにする研究、多様な情報からリッチな音声認識を導き出す研究に従事している。
齊藤が研究しているのは、「機械の耳を人間の耳に近づける」研究だ。
「ノイズを取り除いたり、右と左で聞き分けたりと人間の耳が無意識にやっていることを機械でも再現できるような研究をしています」
例えばマイクが口元にあれば音声はクリアに認識することができる。しかし、少し距離が離れて雑音や周囲の声が入るような環境になると音声の認識は難しくなってしまう。人間の耳は無意識のうちに、余分な音と求める声を分離して、特定の声だけを認識しようという力が備わっている。齊藤がめざしているのは、そのように、特定の人の声や音を分離して聞くことができるマイクロホンの開発だ。
「人間の耳はどうやって音を聞いているのかということを研究していますが、これは耳だけではなく認識する脳の問題でもあるので、奥が深いですね」

02.より人間らしい音声認識の実現へ

齊藤がクリーンで聞きやすい音をつくり出す研究をしているのに対し、入社9年目の福冨隆朗は音声以外のさまざまな情報も正しく認識する音声認識技術の研究を行っている。
「人間が言葉を認識する際には、発話者の位置や属性など、さまざまな情報も利用しています。私は、そういった音以外の情報も活用して従来よりも高精度の音声認識を実現したいと考えています」
これまでの音声認識を人間の聞き方に例えると、まるで目をつぶって片耳だけで聞いているような状態だった。しかし真に言葉を認識するには、「どこで」「誰が」「どんな文脈で」話しているかということが非常に重要な情報となる。そこで音だけではなく、人間が音声を認識する際に何を重要視して、どのように活用しているのか、そういった情報まで機械学習によりモデル化し、より人間らしい音声認識に近づけることに挑戦している。
齊藤の研究と福冨の研究は、どちらも人間の音声理解の仕組みを捉えるためのアプローチだ。齊藤はその違いについてこう語る。
「私の研究はどういうところを人間は聞きやすいと思っているのかを調べるもので、福冨さんの研究は精度の高い音声認識には何が必要なのかを判断するための研究です。これらはどちらが正解とか主流だということではなく、音声言語メディア技術の精度を高めていくためには両方必要なアプローチなのです」

03.ニーズが急速に高まる音声認識

現代社会では、会議の議事録を文字化したり、コンピュータやロボットと音声で会話したいという音声認識技術のニーズが急速に高まっている。福冨は、聞く耳を持ったロボットが人間のパートナーになる日も遠くないのではないかと考えている。
「現在でも音声認識機能を持ったロボットは存在していますが、今後、さらに認識能力が向上し、単語ではなく文章の文脈まで認識できるようになったり、音声に含まれる感情やニュアンスを感じ取れるようになれば、ロボットが本格的に仕事や生活のパートナーになる日が来るかもしれません」
現在の音声認識では機械側はひとかたまりの単語や文を認識して返答するという仕組みが取られている。ロボットが不要だと判断した区間に含まれない音や言葉に必要な情報が含まれていることもあり、的を射ない会話になってしまうことも多い。より人間らしい対話をロボットが実現するためには、聞く力（認識する力）を伸ばしてやる必要がある。
「そのためには音声全般に対する技術力が何より大事だ」と齊藤は話す。
「ロボットとの対話に代表されるような音声認識技術にブレイクスルーをもたらすためには、人間の耳で聞いている仕組みをより精緻にモデル化する必要があります。しかし現状は人間の音声認識・理解のメカニズムがまだまだ未知な部分も多く、音声認識システムも発展途上だと言えるでしょう。人間が聞いている状況にどうやって限りなく近づけるかということをこれからさらに検討していかないといけません」
機械が人間の耳を持ち、円滑にコミュニケーションを取れる未来に向けて。二人には今後、さらなる高精度な音声認識技術をめざしつつ、社会的ニーズに応えるため堅実な研究成果を積み上げていくことが期待される。

PROFILE

齊藤翔一郎: 2007年入社。仕事において大切にしているのは「頼まれたことは最後までやる」という責任感の持ち主だ。

福冨隆朗: 2008年入社。実験結果は数値を見るだけではなく、自分の目で見て、耳で聞く、実フィールドでの性能評価を大切にしている。

※記事本文中の研究所名や社員の所属組織などは取材時のものであり、
旧研究所名の場合がございます。

2026年3月までに卒業（修了）見込みもしくは卒業（修了）済みの方はこちら

2026年4月以降に卒業（修了）見込みの方はこちら

機械の耳と人間の耳
高精度の音声認識技術確立を
めざして

人間情報研究所

音声言語メディアプロジェクト

01.人間の耳は果たしてどのように聞いているのか

02.より人間らしい音声認識の実現へ

03.ニーズが急速に高まる音声認識

PROFILE

2026年3月までに卒業（修了）見込みもしくは卒業（修了）済みの方はこちら

2026年4月以降に卒業（修了）見込みの方はこちら

機械の耳と人間の耳高精度の音声認識技術確立をめざして

人間情報研究所

音声言語メディアプロジェクト

01.人間の耳は果たしてどのように聞いているのか

02.より人間らしい音声認識の実現へ

03.ニーズが急速に高まる音声認識

PROFILE

機械の耳と人間の耳
高精度の音声認識技術確立を
めざして