language
注意事項
当サイトの中国語、韓国語ページは、機械的な自動翻訳サービスを使用しています。
翻訳結果は自動翻訳を行う翻訳システムに依存します。場合によっては、不正確または意図しない翻訳となる可能性があります。
翻訳サービスを利用した結果について、一切を保証することはできません。
翻訳サービスを利用される場合は、自動翻訳が100%正確ではないことを理解の上で利用してください。

研究者にとって必要な情報を的確かつ十分に抽出・整理
新しい知識の発見につなげる探索技術の研究開発

写真:博士(工学) 吉岡 真治

情報科学研究科 情報理工学専攻
知識ソフトウェア講座  知識ベース研究室・教授

博士(工学)吉岡 真治

プロフィール

1991年、東京大学工学部精密機械工学科卒業。1996年、同大学院精密機械工学専攻博士課程修了、博士(工学)。1997年、学術情報センター(助手)。2000年、国立情報学研究所 情報学資源研究センター(助手)。2001年6月、北海道大学・大学院・工学研究科(助教授)。2004年4月、北海道大学 情報科学研究科・大学院(助教授)、2008年4月、北海道大学 情報科学研究科(准教授)を経て、2018年1月より現職。専門は情報アクセス技術を用いた知識の発見・組織化・再利用。ACM (Association for Computing Machinery)、言語処理学会、情報処理学会、人工知能学会、情報処理学会、日本機械学会、精密工学会等に所属。

膨大なデータから知識を発見・組織化・再利用する手法の研究

知識ベース研究室ではどのような研究をしているのですか。

吉岡 現在の私たちは、多種多様かつ膨大なデータに容易にアクセスできる環境にあります。しかしその膨大さゆえに、コンピュータの助けなしでこれらのデータを有効活用することは不可能であり、YahooやGoogleといったブラウザの検索機能などを使って必要な情報を探し出すことが当たり前になっています。近年はAIを活用したデータマイニングが急速に発展し、ビッグデータなどから情報を自動的に取り出す技術が注目されています。

本研究室では、膨大なデータの空間から有用な知識や情報を発見・抽出するだけでなく、さらに既存の知識とともにそれらを組織化・体系化し、再利用を容易にするための技術や仕組みの開発を目指しています。『知識の発見・組織化・再利用』をキーコンセプトとして、文書群の組織化と物語データベース、データマイニング、 モーション生成・合成、プログラム・マネジメント支援等について、理論的および実験的側面から研究を行っています。

その一例が、世界各国でのニュース記事の比較の研究(解説1)です。複数の国の新聞記事を比較し、記事の中に含まれるキーワードの種類や頻出度を分析することで、各国の新聞読者の興味や重要視しているテーマの違いを見つけることができます。

情報や知識の持つ「意味」や「価値」は一様ではありません。インターネット上には似たような文章が無数にありますが、同じ文章でも、読み手がどのような情報をそこから取り出したいかに応じて、その価値が変わってきます。私たちは、文書中から読み手が取り出したいと考えるような情報の断片をあらかじめ抽出・分類し、「メタデータ」(データに対するデータ)として与えることで、様々な観点からの類似性の議論や、データの集約を支援することで、大局的な分析を可能にする枠組などの研究を行なっています。

ナノ結晶デバイスの実験記録から研究者が必要とする情報を抽出

現在行っている研究はどのようなものですか。

博士(工学) 吉岡 真治

吉岡 北海道大学量子集積エレクトロニクス研究センターの量子結晶フォトニクス研究室と共同で、ナノ結晶デバイスの開発プロセスに利用できる知識マネジメントの研究を行っています。

コンピュータをはじめさまざまな電子機器に使われている電子バイスは、近年ますます省電力化・高効率化・小型化が求められており、新たな機能を実現するナノ結晶デバイスの開発が進められています。開発現場では、目的の結晶を生成するため、製造プロセスに関するさまざまな実験条件を変更しながら試行錯誤を繰り返します。実験条件の決定のしかたは研究者の熟練度によって大きく異なり、数々の経験を積むことで無駄な試行錯誤を減らし、効率の良い開発を目指しています。しかし現状では、熟練者の知識の大部分は明示化されていない「匠の技」とでも言うべき状態であり、体系化された知識として若手研究者へ継承することが困難です。

私たちは、ネット上に公開されているナノ結晶デバイスに関する実験記録や学会で発表された論文などから、研究テーマに関連すると思われる実験データや実験結果を検索・抽出・整理することで、研究者にとって有用な情報を効率よく探し出す技術の開発に取り組んでいます(解説2)。

本研究の特徴は、研究者が他者の実験記録や論文を読む際に注目する要素(材料・器具・パラメータなど)を「メタデータ」として捉え、PDF解析ツールを用いて似たような実験記録や論文、グラフなどを効率よく探し出してくることです。

ナノ結晶デバイスの開発では、実験関連情報や実験パラメータを記載した「実験記録シート」(写真1)を作成することが多く、紙ベースによる記録の蓄積と共有が行われてきました。私たちは、第一段階として量子結晶フォトニクス研究室で使われている実験記録シートの電子化を行い、同時に記載されている用語やパラメータをタグ付けする作業を行いました。

さらに、ナノ結晶デバイス開発論文を対象として、文書中に登場する情報に自動的にタグ付けを行う技術を開発。論文中の図表のキャプションやフィギュアウインドウの情報から類似する図やグラフを検索するシステムの開発にも取り組んでいます。

異分野共同プロジェクトから見えてくるもの

これまでの研究成果と今後の予定について教えてください。

博士(工学) 吉岡 真治

吉岡 これまでにいくつかのプロトタイプシステムを構築し、プロジェクトメンバーに実際に使用してもらいました。今まで読んだことはなかったが自分の研究に関係する論文がいくつか見つかったという報告もあり、ある程度の評価を得ています。ユーザーインタフェースや操作性、追加してほしい機能などについても意見を聞いているところです。今後は、プロタイプをさらにブラッシュアップし、研究室単位で使えるようなシステムに仕上げていく計画です。

本研究では、コンピュータサイエンスとナノ結晶デバイス開発の異分野共同プロジェクトであることに大きな意義があると思っています。研究がスタートした頃はお互いのことをよく知らず、量子結晶フォトニクス研究室のメンバーと何度もディスカッションを重ねました。私たち情報分野の研究者は、情報というツールから「類似性」や「関係性」を捉えます。扱う分野が何であれ、個々の要素の関係性をどのように捉えるかが情報系の得意とするところで、そういう感覚がナノテクノロジーの専門家から見るととても新鮮だったようです。現在は、お互いの専門領域についての理解度も深まっているので、より深いディスカッションができるようになりました。

こうした経験は、技術者・研究者として成長する上で非常に重要だと考えています。北大の双峰型教育システムで、専門領域の講義科目を「主専修」「副専修」として2つの違った専門科目を選択させているのも、異分野に触れることで幅広い視野を身につけることを目的としているからです。目の前にある課題に対して多様な角度から切り口を見つけ、自分の知っている分野と結びつけて考えることができる。そういうアプローチを繰り返すことで新たな知識を発見し、画期的な技術の開発につなげていきたいと思います。

解説

解説1:複数国のニュース記事の比較

例えば、サミット(先進国首脳会議)が行われた際の新聞記事の比較では、経済や安全保障といった主要な話題はどの国も重要な話題と認識されて報道されるが、人権や地球温暖化といったサブ的な話題では、それぞれの国の興味に応じた報道の違いが見られる。このような特徴を見出す手法として、コントラスト・セット・マイニングの手法を提案している。

図

解説2:ナノ知識プロジェクト:実験記録からの知識発見

ナノ結晶デバイス開発論文からの有用なメタデータの抽出を行うためのコーパスの作成と、そのコーパスを用いたメタデータの自動抽出システムNaDevを開発。8つのメタデータ(材料、物質の特性、実験パラメータ、実験パラメータの値、評価パラメータ、評価パラメータの値、デバイスの作成手法、最終製品)ついてタグ付けを行い、ナノ結晶デバイス開発論文についてのタグ付けされた文書から学習したモデルを用いて情報に対応する項目の抽出を行った。

さらに、グラフイメージ検索システムも開発し、プロトタイプシステムを構築。ナノ結晶デバイス研究者による評価を行った。

図

写真1:実験記録シート

図