HOME > 研究活動・産学官連携 > ネットジャーナル > ネットジャーナル38

ネットジャーナル38

類似性と差異を高速かつピンポイントに検出
「気づきにくいが重要」な情報を発見するマイニング手法の開発

写真:博士(理学) 原口 誠 教授

情報科学研究科 情報理工学専攻 
知識ソフトウェア科学講座 知識ベース研究室・教授
博士(理学) 原口 誠

プロフィール

1979年鹿児島大学理学部数学教室助手。1981年九州大学理学部付属基礎情報学研究施設助手。1987年東京工業大学大学院総合理工学研究科助教授。1995年北海道大学大学工学部教授。2004年北海道大学大学院情報科学研究科教授。
主な研究テーマは高次推論、知識表現、データマイニング

 

データ・情報・知識の背景にある文脈を通じて新たな知識を取り出す

――知識ベース研究室の研究テーマはどのようなものですか。

原口 まず、知識ベースという言葉の意味からご説明します。コンピュータの世界で扱われる情報や知識には大きく3つあります。①データベースなどに蓄積されているローレベル(観測データ等の加工されていない生の状態)の「データ」、②Web上に存在するテキストや画像などの主観的で意味を持った「情報」、③ある現象から次の現象を予測・類推したり、物や状況の構造・属性などを表す「知識」の3つです。従来のデータマイニングは、これらのデータ・情報・知識から重要な情報を得ることを目的とし、主として頻度情報にもとづく統計処理と組合せ論的アルゴリズムの手法を用いて研究が行われてきました。

私たちの研究室が扱う知識ベースは、もう少し広い意味で捉えています。なぜなら情報や知識というものには、地域、文化、コミュニティ、個人の感情といった背景に無限のバリエーションがあり、使う人や使う目的によって意味や価値が異なってくるからです。例えば、「りんご」という言葉一つ取っても、赤いりんごをイメージする人と青いりんごをイメージする人では言葉のとらえ方が違ってきます。このように言葉や文章の背景にあるもの(コンテクスト:文脈)までも正しく捉えなければ、より有益なデータマイニングにはつながらないと考えているのです。

私たちの研究では、こうしたテキストベースのデータ・情報・知識をもとに、時間や地域性、文化などのコンテクストを通して知識を取り出すプログラムの開発を主なテーマとしています。

ページの先頭へ