HOME > 研究活動・産学官連携 > ネットジャーナル > ネットジャーナル38

ネットジャーナル38

類似性と差異を検出するためのプログラムの開発

――具体的にはどのような研究が行われているのですか。

博士(理学) 原口 誠 教授

原口 前述のようにコンテクストには無限のバリエーションがあり、それらの多様性をすべてカバーしたルールセットを獲得することは困難です。しかし、コンテクストが違えばそこに何らかの現象が現れるのではないかと考えられます。そこで、コンテクストが違っても変わらないもの(類似性)と変わるもの(差異)に着目し、それらを検出するためのプログラムの研究開発に取り組んでいます。

類似性の検出では「物語データベース」と呼んでいるプログラムを開発しました。オンライン文書を話の筋や展開構造からデータベース化するもので、異なる二つの物語を比較し、構造的な類似性を検出することに挑みました。
計算時間や深い意味レベルでの検出の観点からはまだまだ課題を残していますが、物語り要約の技法も取り込んだ形で今後も継続していきます(解説1)。

差異の検出には2つの手法を考えています。まず1つは「グラフの差異の検出(解説2)」です。例えば、新聞記事に登場するある言葉と、それに関連づけられるいくつかの言葉をクラスタリングする場合、評価値の高いクラスタのみを抽出するためのアルゴリズムを開発しています。一般的なやり方では、抽出されるクラスタが膨大な数になってしまう、あるいは、少数だが大きすぎるクラスタしか抽出できないので、いかにして高速に検出対象となる比較的小規模のクラスタを抽出する点が最大の特徴です。

もう一つは「相関マイニング」というもので、文書内の言葉の相関量の変化を見つけて差異を検出するプログラムです。アメリカのデータベースを使って言葉(カテゴリー属性名)の相関を調べたところ、ある年代では「若い農夫」と「家のローンを組む」という言葉の相関は非常に薄かった。それが、年代が進むと相関関係が微増してくる。その原因は何かを調べてみたら、微増した年代の少し前にサブプライムローン政策が打ち出されていたことが分かりました。

また、日本の新聞記事のデータベース使った実験では、大きな災害があった直後に「外国人医師」と「国際空港」の相関の量の増加が検出され、海外からの医師が支援のために来日していたことがわかりました(解説3)。このように、相関量の変化から思いがけない言葉の組合せが検出されれば、新しい知識の発見につながるのではないかと予想しています。しかし、言葉の組合せの可能性は膨大であり、コンテクストをどう扱うかは根本的な問題として残されており、まだまだ発展途上の研究です。

ページの先頭へ