language
注意事項
当サイトの中国語、韓国語ページは、機械的な自動翻訳サービスを使用しています。
翻訳結果は自動翻訳を行う翻訳システムに依存します。場合によっては、不正確または意図しない翻訳となる可能性があります。
翻訳サービスを利用した結果について、一切を保証することはできません。
翻訳サービスを利用される場合は、自動翻訳が100%正確ではないことを理解の上で利用してください。

「つながる」から「見つける」へ
次世代へつなぐ知識創出学の創成

写真:博士(理学) 有村 博紀

情報科学研究科 コンピュータサイエンス専攻・教授

博士(理学)有村 博紀

プロフィール

1988年九州大学理学部卒業。90年から九州工業大学情報工学部で助手・講師・助教授を務める。96年、九州大学大学院システム情報科学研究院助教授に就任。2004年から北海道大学大学院情報科学研究科教授に就任。研究分野は計算学習理論、データマイニング、アルゴリズム、帰納論理プログラミングなど。人工知能学会・情報処理学会・ACMなどの学会に所属し、多数の受賞経験を持つ。

情報の海から「知」を導き出すグローバルCOEプログラムの採択

07年6月に「知の創出を支える次世代IT基盤拠点」がグローバルCOEプログラムに採択されました。有村先生は拠点リーダーを務められていますが、どのような経緯で申請・採択されたのですか。

有村 グローバルCOEは平成14年度に本研究科でスタートした「21世紀COEプログラム」(解説1)の発展型ともいえる事業です。21世紀COEでは、インターネット上にあるデータやシステムを自在に連携する情報処理・通信技術の研究開発に取り組み、大きな成果を挙げています。今回のグローバルCOEは、すべてが連携された状態の中から新しい知識を創出する理論と技術の確立を目指したものです。「つながる」から「見つける」への新たなステップなのです。

「情報、電気、電子」の分野は採択拠点数が少ない難関だったと聞いていますが、どのような点が評価につながったのでしょうか。

有村 第一に、知識を発見・連携する「知識創出学」という新たな学問を前面に打ち出したことが挙げられると思います。現代の私たちは、インターネットの普及により膨大な情報を簡単に入手することができます。観測・計測技術も飛躍的に進歩し、これまで知ることのできなかったさまざまな事象・現象に関するデータも手にすることができるようになりました。私たちは、かつてない巨大な情報の海を目の前にしているのです。しかし、情報の量が増えただけでは新しい知識の創出にはなりません。混沌とした大量のデータから特異な、あるいは顕著なパターンを発見し、そこに隠された意味を読み取ることは、私たちの手に負えないほど複雑で膨大な作業になるからです。情報の海に埋もれている「価値ある何か」を見つけ出すためには、新しい情報技術・学問基盤・人材育成が必要なのです。それを大学の教育研究プログラムとして掲げ、具体的にプランニングしたというのは全国的に見ても画期的なことではないかと思います。

また、本研究科の若い世代の研究者が中心となってプログラムの骨子を練り上げたという点も高く評価されました。私を含め、メンバーの多くが30~40代の研究者です。そうした人たちが分野を越えて、これからの大学教育に必要なものは何か、自分たちのやるべきことは何かを徹底的に考え抜きました。研究科長をはじめトップ教授陣の強力なバックアップが得られたことも大きな力になりました。

情報世界と実世界のクロスオーバー
深い専門性と広い視野を持った人材の育成

グローバルCOEの具体的な内容はどのようなものですか。

写真:博士(理学) 有村 博紀

有村 特長の一つは、情報・バイオ・ナノの3分野による共同研究プロジェクトです。拠点リーダーである私は情報検索やデータマイニングが専門です。サブリーダーの宮永喜一教授はメディア・ネットワーク、渡邊日出海教授は遺伝子解析を中心とする生命科学、末岡和久教授はナノエレクトロニクスが専門で、情報系のハード・ソフト及び生命科学、ナノテクノロジーの異分野混成チームによる新たな研究領域の開拓を目指しています。情報世界の知識・技術は実世界で役立ってこそ意義があります。一方、バイオやナノなど実世界の分野では情報技術を活用することで理論的・技術的な発展を見せています。今まで別々の世界だと思われていた分野ですが、実際は密接な関わりを持っている。ならば、それぞれの研究者がお互いをもっとよく知り、深いレベルで意見交換することができれば、よりスピーディで高度な知識創出が実現するのではないか。そんな可能性を強く感じています。

もう一つは「双峰型人材育成」です。北大は創立以来の伝統で「実学」を重んじています。大学院でも、修士課程では副専修と呼ばれる専門以外の科目を4単位、博士課程後期では第二副専修を8単位以上取得することを義務づけています。国内の国立大学の中でも非常に特徴的なカリキュラムで、専門分野を深く学びつつ専門以外の分野の素養と経験を身に付けることができます。これは、実社会で役立つ技術の研究開発に不可欠な資質であり、北大出身の研究者・技術者は企業や研究機関から常に高い評価を受けています。こうした伝統を現在大学院で学んでいる若い人たちへ確実に伝え、新たな学問の担い手として育成する。大学院での教育に重きを置いているのも今回のCOEの大きな特長です。

じつは、本研究科は04年の設立当初から電気・電子・情報の3分野が一体となった研究体制を築き、ハード・ソフトの研究者が互いの専門分野を越えて連携しています。つまり、知識創出のための土壌がすでに培われているということです。さらに、今回の申請に際し、主要なメンバーがじっくり話し合う機会も持てました。申請のためだけでなく、本研究科の特色と今後の方向性を明確化し、自分たちの使命を再確認するうえでも非常に重要なプロセスだったと思います。

知識断片の関連性を見つけ出す半構造マイニングの研究

知識創出学の確立の中で、有村先生が取り組んでいらっしゃる半構造マイニングの研究は重要な役割を担っていますね。

写真:博士(理学) 有村 博紀

有村 インターネットをはじめとするWeb上にはエクサバイト規模(10の18乗)の情報が存在するといわれていますが、そのほとんどは個々の知識断片の膨大な集積に過ぎません。一人の研究者が混在する知識のすべてを理解し、多様な分野を関連づけ、横断的に研究することは非常に困難です。そこで、大量のデータから有用なパターンや規則を半自動的に抽出し、知識獲得の手助けをする。それが私の研究テーマです。平成13~17年度特定領域研究「情報学」に採択された研究や、平成17~19年度の特別推進研究に採択された「知識基盤形成のための大規模半構造データからの超高速パターン発見」という研究を通じて、WebページやXMLデータなどに代表される半構造データ(解説2)から、特定のルールやパターンを見つけ出す技術の研究開発を進めています。これらの研究によって、ツリー構造の中から特徴的な部分構造を小さなツリーのパターンとして発見するツリーマイニングのアルゴリズム「FREQT」が開発されました。(解説3/図1

半構造マイニングは、バイオやナノテクノロジーの研究に役立つと考えられています。例えばゲノム解析では、個々のゲノムの機能や発現パターンを抽出・分類・解析するのに、一つひとつの組み合わせを検証していかなくてはなりませんでした。半構造マイニングを使えば、すべてのゲノムを同時に比較し、共通するルールやパターンを抽出することができるようになります。「FREQT」は実データ上での検証でも安定した動作が確認され、バイオ・ナノテクノロジーなどの研究分野だけでなく、ビジネスベースでの利用も十分可能であると期待されています。これらのマイニングエンジンはネット等を通じてオープン化し、知識の発見・連携に役立てていきたいと考えています。

解説

解説1:「21世紀COEプログラム」

「大学の構造改革の方針」に基づき、平成14年度から文部科学省の事業(研究拠点形成費等補助金)として措置されたもの。わが国の大学に世界最高水準の研究教育拠点を形成し、研究水準の向上と世界をリードする創造的な人材育成を図り、国際競争力のある大学づくりを推進することを目的としている。平成14年度に工学研究科で「知識メディアを基盤とする次世代ITの研究」というテーマが採択され、田中譲教授を拠点リーダーに、知識メディア・量子ナノ・知的通信の技術を融合し、新アーキテクチャ量子集積回路とそれを用いた通信機能付きIQチップ技術、それらを利用した知識メディア技術の研究開発を行ってきた。

解説2:「半構造データ」

ツリー構造を持つXMLデータなどのように、構造自体は持っているが、あらかじめ定められた形式を持たないデータのこと。ツリーマイニングの場合は、ツリー構造内に存在する半構造データの中から特徴的な部分構造を小さな木のパターンとして発見する。

解説3「性能保証を持つ高速発見アルゴリズム“FREQT”」

FREQTは「最右拡張法(Rightmost expansion)」という世界初の多項式時間アルゴリズムを用いている。ツリーの要素を追加する際、右側だけに新しい頂点(赤い部分)を追加するように設定すると、すべてのパターンのツリー構造が自動的に生成できるというものである(図2)。ツリーデータ以外にも、さまざまな組み合わせ構造を効率よく列挙できる。日本語文書から自然言語処理技法でツリー構造を構築し、それにFREQTを適用することでテキストマイニングを行った事例もあり、高速・堅牢で汎用性に優れたアルゴリズムとして多様な分野への適用が期待されている。

ツリーマイニングの例
(図1)「ツリーマイニングの例」
Web上のオンラインデータベースのツリー構造から、くり返し出現するテンプレート構造を抽出している。
最右拡張法の例
(図2)「最右拡張法の例」