HOME > 研究活動・産学官連携 > ネットジャーナル > ネットジャーナル16

ネットジャーナル16

同姓同名を見分けるオブジェクトレベル検索

――具体的な成果はありますか。

小山 現在進めているのは、情報検索やデータマイニングに関する研究です。インターネットを利用する人のほとんどがYahoo!やGoogleなどの検索エンジンを使っていると思いますが、これらのWeb検索は、キーワードを入れるとそれにヒットするページが一覧で表示されます。例えば、私(小山聡)の名前を入れると、もちろん私のページも出てきますが、同姓同名の人のページも出てくる。また、私に関する情報も北海道大学のサイトや研究室のページ、SNSなど複数のページに分かれていて、本当に必要な情報にたどり着くのは結構大変です。

こうした課題に応えるのがオブジェクトレベルの検索です。私というオブジェクト(実体)に関する情報を自動的に抽出し、まとめて表示する方法です。重要なのは、小山聡に関する情報が載っているページがいくつかあるとき、それが同じ人物について書かれているかどうかを判定する必要があるということ。私たちの研究では、オブジェクトを特定し、他のオブジェクトと区別する機能の実現に機械学習を取り入れています。

通常の機械学習では、例えばある画像に対し、それが花の画像なのかそうではないのかを分類します。しかし、私たちが取り組んでいるのは、2つのデータの関係を予測するというものです。ひとつのページについて「これは小山聡に関するものか、そうではないか」を判定するのではなく、「このページの小山聡と、別のページの小山聡は同一か」を判定するのです。一つひとつのデータを分類するより複雑で難しい問題になるので、精度良く予測できるようなアルゴリズムを開発しています。(解説1

さらに、オブジェクトの時間変化を識別する手法にも取り組んでいます。例えば、私が10年前に書いた論文と現在書いている論文の内容は違いますが、双方の関係性や変化の傾向を予測して、同じ人物が書いたものかどうかを判定するのです。

写真:博士(情報学)小山 聡 准教授

ページの先頭へ