大阪大学

単語の発音構成パターンを利用し発話中の知らない単語を特定できる機構

画像1
武田 助教

 大阪大学産業科学研究所知識科学研究分野の武田龍助教らの研究グループは、音声対話システムに必要な「会話に含まれる未知語の特定」技術において、知っている単語の発音構成パターンに基づく「音表現の単位」を用いる機構を導入した。自然言語処理技術における文字列の文のみから単語への分割を行う「教師なし単語分割」手法に着目し、未知語検出に有効な音表現の単位を検証。発話中の未知語の特定に応用した。武田助教は「今回の知らない単語を特定する機構は、人と話すに従って自ら学び、次第に賢くなる。音声対話システムの実現に必要な技術だ」と話している。

 音声応答を行うロボットやアプリで導入されている単語認識機構は、基本的に事前登録された単語のみを認識する仕組みになっている。そのため、事前登録されていない単語(未知語)が発話に含まれると、知っている単語群で置き換えられ、単語として正しく認識できなかった。

 武田助教らの研究グループは「単語らしさ」を用いて計算された「発音とその構成パターンに基づく単位」を音表現の単位として用いた。音声信号を音素(発音記号)として認識し、発音の認識部分を文を生成しやすいような単語に分割する。

 その際、未知語の特定を行うため、自然言語処理における教師なし単語分割手法を適用し、文字列の文から単語への分割を行う。単語分割済みの文、出現頻度・パターンを加えることで、より正確な単語分割が可能となった。また、単語を生成しやすいようなサブワードへ分割。単語の候補に対してどの程度、単語らしいか、生成しやすいかを評価した。

 未知語特定に有効な音表現の単位が自明でないため、音素や音節、既知の単語リストから計算される、発音とその構成パターンに基づく単位に関して未知語特定性能の比較を行った。この構成パターンを、複数の単語に現れる共通の発音と出現位置から計算することで、知っている単語と近い発音構成の未知語をより特定しやすくなることを突き止めた。

 音素の認識が正しくできたという仮定の下、日本語と英語の会話で未知語の特定率を各単位で検証。単語分割と未知語の検出精度を評価した。

 その結果、音素、音節、サブワードの性能上限評価では英語の場合、単語分割に関するF値(×100)は音素99.75、音節99.81と、ほとんど同じで、サブワードも99.86だった。未知語のF値(×100)も音素71.62、音節71.40とほぼ同等。サブワードは80.72と良かった。

 日本語の場合、単語分割に関するF値は音素99.55、音節99.54、サブワード99.77とほぼ同じだったが、未知語では音素42.88に対し音節40.96と悪かった。サブワードは65.27だった。

 また、音素、サブワード、音素+サブワードの結果を統合したFusionの動的推定の性能評価も、英語の場合、単語分割のF値は音素、サブワード、Fusionいずれも99.75と同じ。未知語は音素71.62に対し、サブワード72.37、Fusion73.15だった。日本語は単語分割が音素99.55、サブワード99.56、Fusion99.56とほぼ同じ。未知語では音素42.88がサブワード46.16、Fusion43.95と改善量は少なかった。

【 対話戦略の確立へ 】

 武田助教は「今後、音響信号情報の利用による認識誤りへの対応や、学習するための対話戦略の確立に向けた研究を進める」と述べた。