昨日の情熱大陸、やはり冒頭に羽生先生が出た。

羽生先生のインタビューを聞いていると、いつも思うんである。

きっと音声認識の最後の壁は羽生善治だ、と。

☆☆☆

羽生善治は言葉を選んで喋る。

そして、言葉を途中で区切りつつ喋る。

典型例が、「思います」である。

「偉業だと思います」ではなく、「いぎょうだ、と、おも、い、ま、す」といった具合に区切る。

区切るというのは、音と音とのあいだに無音の信号を挿入するということである。それは機械にとっては、「何もない音」ではなくて、紛れもなく「音声の一部」である。もっと音声認識の作り手の気持ちを込めていえば、「単語に『無音という雑音』が入っている」ということになる。

羽生善治は、機械にとってとても想定しづらい「雑音」を単語に仕込むのである。

日本語に長けた人は「おも、い、ま、す」をいとも簡単に聞き取るが、それは人間だからではない。日本語に慣れているからである。

以前読んだハワイ語の入門書によれば、ハワイ語では母音の前に空白を入れるか入れないかで意味が変わる単語があるそうである。つまり、ハワイ語に長けた人は、発音の上では「おも、います」と「おもいます」を区別する(ハワイ語は子音の種類が少ないので「サ行」にあたる子音があったかどうかが思い出せないのだが、「マ行」はあったはずだ)。

というわけで、人間を模して作った音声認識であっても「おも、い、ま、す」はつらい。

☆☆☆

羽生先生の「無音挿入」が、コンピュータ(音声認識)に立ちはだかる。

(「おもーいーまーす」ならあまりつらくないので、めちゃめちゃ微妙な話なんだけど。)