language
注意事項
当サイトの中国語、韓国語ページは、機械的な自動翻訳サービスを使用しています。
翻訳結果は自動翻訳を行う翻訳システムに依存します。場合によっては、不正確または意図しない翻訳となる可能性があります。
翻訳サービスを利用した結果について、一切を保証することはできません。
翻訳サービスを利用される場合は、自動翻訳が100%正確ではないことを理解の上で利用してください。

対話のリズムが生み出す人間らしさと楽しさ
人間と機械の自然なコミュニケーションを目指して

写真:博士(工学) 伊藤 敏彦

情報科学研究院
メディアネットワーク部門  情報メディア学分野
言語メディア学研究室・准教授

博士(工学)伊藤 敏彦

プロフィール

1999年4月1日 静岡大学情報学部情報科学科 助手
2002年3月1日 静岡大学情報学部情報科学科 任期付き助手
2004年3月1日 北海道大学大学院工学研究科 助教授
2004年4月1日 北海道大学大学院情報科学研究科 助教授
2007年4月1日 北海道大学大学院情報科学研究科 准教授

人間-機械間のコミュニケーションに立ちはだかる壁

言語メディア学研究室ではどのような研究をしているのですか。

伊藤 言葉を覚えて成長するコンピュータを目指した自然言語処理の研究・開発を行っています。コンピュータが理解できる言葉を人工言語というのに対し、人間が通常使う日本語や英語などの言語を自然言語と呼びます。自然言語処理とは、人間が言語を使うのと同じように、自然言語を処理し、高度に利用できるようにすることです。

そのなかでも、私は音声言語の研究を続けています。近年は、音声認識技術や人工知能(AI)の進化により機械と人間が言葉を交わす場面が多くなりました。スマホのアプリやスマートスピーカーなど、音声で操作するシステムも普及しています。音声認識技術はここ数年飛躍的に進化しており、認識率は100%に近く、AIを活用することで文脈を理解する音声アシスト技術も目覚ましい発展を続けています。

私が学生の頃は、近い将来音声認識技術が高度に発達すれば、映画やアニメに登場するロボットのように、人間とコンピュータが自然に会話し、時にはジョークや皮肉を言い合ったりするのが当たり前になるだろうと思っていました。しかし、現実はそのレベルに達していません。スマホのアプリもスマートスピーカーも、情報検索や家電の操作に使うことはあっても、コンピュータを相手に世間話をしたり、悩みを相談したりすることはほとんどないのが現状です。

本研究室の研究においても、同様の結果が出ていました。学生や一般の人に参加してもらってコンピュータと対話する実験を行なったところ、会話を続けることに苦痛を感じる人が多いことが分かってきました。人間の話す言葉を正しく認識し、それに応じた返答をしているにもかかわらず、「何を話しかければいいのか分からない」「つまらない」と言った感想が必ず出てくるのです。「機械を相手にしている」という先入観も要因のひとつと考えられますが、それ以上に会話を続けるために必要な何かが欠けていると感じました。

音声認識技術がどれほど高度化しても、人間と機械が楽しく会話を続けることはできない。その原因は何なのか。人間同士のコミュニケーションと人間-機械間のコミュニケーションとでは何が違うのか、何が「使いづらい」と感じさせているのか。その原因を探るため、人間と機械の音声を詳しく分析する研究を行いました(解説1)。

さまざまな実験の結果、大きな要因のひとつとして見えてきたのが「リズム」でした。音声認識や文脈の理解が完璧に近くても、言葉のやりとりの中にリズムが形成されないと、人は機械を「自分と対等なレベルで話ができる相手ではない」と認知し、自然な会話ができなくなるのです。人間同士でも、反応が鈍い、返事が遅いなど対話のリズムが悪いとストレスがたまります。機械相手ならなおさらでしょう。対話のリズムは、円滑なコミュニケーションを実現するための重要な要素であることが分かってきました。

応答までの時間や間投詞の有無が対話のリズムに影響を及ぼす

対話のリズムが重要だというのは具体的にどういうことなのでしょうか。

博士(工学)伊藤 敏彦

伊藤 例えば、相手に質問をしたとき、返事が返ってくるまでの時間というのは意外と気になるものです。返事が遅ければ「答えにくいのかな」と思ったり、質問された方は返答に時間がかかりすぎるととっさに「えーと」「あー」そのー」といった間投詞を織り交ぜて間をつなぐ。普段ほとんど意識することはありませんが、人間同士の会話には言葉と言葉の間の時間が非常に重要で、それが会話のリズムやテンポを生み出し、人間らしさを感じる要因にもなっています。

これは、日本語だけでなく、英語などの外国語でも同様です。会話を心地よいと感じるタイミングなどには多少の違いがありますが、リズムが悪いと「話しづらい」「楽しくない」と感じるのはどの言語でも共通だと考えられています。

そこで、私たちは音声対話における発話のタイミングに関する研究(解説2)や、有声休止(言いよどみや母音の引き伸ばしなど)に関する研究(解説3)を行いました。

これらの研究結果をコンピュータに学習させれば、相手が機械だと気づかずに、あるいは機械だと分かっていても人間と同じように心地よく会話を続けられるシステムに近づくことができるのではないかと考えています。

ユーザの好みや用途に合わせた多様な機能と形態

人間と機械とのコミュニケーションは今後どのような形になると考えていますか。

博士(工学) 伊藤 敏彦

伊藤 以前はアニメや映画に出てくるようなロボットを想像していましたが、研究を続けていくうちに、最終的な形態には多様な可能性があると考えるようになりました。

人間同士のコミュニケーションにおいても、内容の好ましさや心地よいと感じるリズムなどは人によってさまざまです。同様に、機械の反応や応答内容もユーザによって求められるものが違ってくるでしょう。理想的なコミュニケーションの形はひとつではありません。ヒト型ロボットの姿をしていても、電子レンジのような家電でも、パソコンの中のアバターでも、使う人の好みや目的で選べばいいのではないでしょうか。そのためにも、さまざまな場面で多様な用途に適応できるよう工学的なアプローチから機能や形態の選択肢を広げていくことは、今後の重要な研究テーマになっていくと思います。

私としては、どのような形態であれ人間と機械のコミュニケーションを自然で楽しくすることを目指したいですね。感情のない冷たい存在ではなく、泣いたり笑ったり、ジョークを言ったり、常識を持って行動したりするフレンドリーなコンピュータを実現したいと考えています。

解説

解説1:音声認識率や状況の違いによる音声対話の言語的・音響的特徴の比較

さまざまな状況での対話音声を収録し、言語的・特徴的な統計量の差を検定。対話相手のパターンの違い(オペレーターとの対話、音声対話システムとの対話、オペレーターが合成音声で応答する擬似システム)による被験者への影響を比較した。

図

解説2:機械学習を用いたリアルタイム発話継続、発話終了予測システム

音声波形や音声の特徴量から発話ユニットを検出。その発話ユニットの終端の検出を行い、さらに「発話継続」なのか「発話交替」なのかを判定。発話継続/交替に関係があると過去の文献で示されている代表的な素性を学習データとして評価・判別実験を行なった。

図

解説3:機械学習を用いたリアルタイム有声休止判定システム

人間同士の対話に見られる言い淀み現象のひとつである有声休止をリアルタイムに検出する手法を提案。18人(男性13人、女性5人)が文章を読む音声データから特徴量をフレーム単位(10ms)で計算、学習データを作成し、評価実験を行なった。

図
図