特許情報を用いた用語辞典の自動構築と検索インタフェースの開発【産技助成Vol.71】
[08/11/20]
提供元:PRTIMES
提供元:PRTIMES
独立行政法人新エネルギー・産業技術総合開発機構
筑波大学大学院図書館情報メディア研究科
特許情報から用語辞典的なコンテンツを自動抽出し、専門用語辞典を自動作成。
最新の技術情報を元にした発想支援や先行技術調査に利用できる有力ツールを開発。
ウィキペディアやグーグルで見つからない高度な専門用語にも対応可能。
【新規発表事項】
独立行政法人新エネルギー・産業技術総合開発機構(NEDO技術開発機構)の産業技術研究助成事業(予算規模:約50億円)の一環として、筑波大学大学院図書館情報メディア研究科の准教授、藤井敦氏は、特許情報を用いた用語辞典の自動構築と検索インタフェースの開発をしました。
現在、特許権は高度な発明の保護を目的としていますが、日本では年間約40 万件の特許が出願され、多様な専門分野に関する発明が蓄積されており、特許に含まれている英知を体系化して活用できれば、学術でも産業でも高い利用価値が期待できます。
本研究では、特許情報に発明に関する新語や専門用語が多く含まれていることに着目して、特許情報から用語辞典的なコンテンツを自動構築する技術を開発しました。190万語の見出し語について、説明、分野、英訳、関連語を記載し、関連語どうしをシソーラス(類語辞典)のような階層構造で表現しました。規模と即時性で既存の辞典を凌駕するコンテンツの構築を目指し、構築した辞典コンテンツとシソーラスを特許検索に応用できるようにしました。
特許情報の発明に関する新語や新しい専門用語の抽出結果を基に、ホットになりつつある技術分野が分かり、先端技術調査に役立てられるものと期待されています。
構築した辞典は現在公開中(http://cyclone.slis.tsukuba.ac.jp/)です。
1.研究成果概要
本研究で重要な技術は、特許情報から専門用語の説明を自動的に抽出する点です。ここでは様々な問題が生じます。まず、ある言葉について説明するときに使われる表現や説明の上手下手は、書き手によって異なります。また、同じ表記で複数の意味をもつ同音意義語があります。例えば、「ハブ」には、ネットワークの集線装置、ヘビ、中心など複数の意味があります。そのため、自分が意図した意味の説明が見つかりにくくなります。
これらの問題を解消するために、本研究は、言葉の説明に使われやすい表現のパターンや統計情報を用いて、説明の候補に点数を付けます。そして、点数が高い説明から順番にユーザに提示します。また、ある言葉の説明によく使われる別の言葉を関連語としてリストアップすることで、情報の絞り込みを容易にします。さらに、言葉の関係をグラフで可視化することによって、ある言葉と関連が強い別の言葉を目で見ながら探すことができます。その結果、ユーザは、自分が意図した意味の説明や関連語を効率的に調べやすくなります。
本研究の用語辞典コンテンツとそれを応用した特許検索インタフェースの実用性を評価するために、特許検索にかかわっているサーチャー、研究者、エンジニア、理工系の大学生・大学院生を中心に合計1000名の被験者を募集し、大規模なアンケート調査を実施しました。被験者の約半数が業務で特許調査を行うことがあると回答を得た方たちであり、被験者に本研究で開発したシステムの一定期間試用を依頼し、複数の設問に回答、評価を提出してもらいました。設問は、普段使用しているツールと比較して本システムで用語の説明が分かりやすかったかどうか、システムの各機能に関する使用感、業務に役立つか等です。その結果、本システムが業務に役立つかという設問に対しては、「非常に役立つ」または「役立つ」と回答した被験者の割合は63%でした。
なお、本システムが主な対象とするサーチャー、研究者、エンジニアほど、本システムが業務に役立つと回答する割合が高くなる、という結果が得られました。
2.競合技術への強み
ある技術分野を理解するためには、その分野に属する関連語の集合を知ることが効果的です。本システムを使って、関連語の説明を次々に調べていけば、それらの言葉が発明のポイントであるような特許に自然と到達する確率が高くなります。
3.今後の展望
情報検索、機械翻訳、音声認識のように人間の日常言語を計算機が処理する研究分野では、辞書などの言語資源が欠かせません。本研究で構築した用語辞典コンテンツをこれらの研究に応用できる水準まで高度化することを目指していきます。
特許情報を用いたCycloneは知財関係者への利用が広まってきているので、利用者からのフィードバックを受けながら、さらなる実用性の向上を目指していきます。
今回行った研究では、複数の特許情報から抽出した説明を組織化し用語辞典コンテンツ化することによって、個別の特許情報からは得ることができない新たな価値を創造することを試みました。これからも世の中の知的活動に役立つコンテンツの構築を目指していきます。
4.参考
成果プレスダイジェスト:筑波大学准教授 藤井 敦氏
筑波大学大学院図書館情報メディア研究科
特許情報から用語辞典的なコンテンツを自動抽出し、専門用語辞典を自動作成。
最新の技術情報を元にした発想支援や先行技術調査に利用できる有力ツールを開発。
ウィキペディアやグーグルで見つからない高度な専門用語にも対応可能。
【新規発表事項】
独立行政法人新エネルギー・産業技術総合開発機構(NEDO技術開発機構)の産業技術研究助成事業(予算規模:約50億円)の一環として、筑波大学大学院図書館情報メディア研究科の准教授、藤井敦氏は、特許情報を用いた用語辞典の自動構築と検索インタフェースの開発をしました。
現在、特許権は高度な発明の保護を目的としていますが、日本では年間約40 万件の特許が出願され、多様な専門分野に関する発明が蓄積されており、特許に含まれている英知を体系化して活用できれば、学術でも産業でも高い利用価値が期待できます。
本研究では、特許情報に発明に関する新語や専門用語が多く含まれていることに着目して、特許情報から用語辞典的なコンテンツを自動構築する技術を開発しました。190万語の見出し語について、説明、分野、英訳、関連語を記載し、関連語どうしをシソーラス(類語辞典)のような階層構造で表現しました。規模と即時性で既存の辞典を凌駕するコンテンツの構築を目指し、構築した辞典コンテンツとシソーラスを特許検索に応用できるようにしました。
特許情報の発明に関する新語や新しい専門用語の抽出結果を基に、ホットになりつつある技術分野が分かり、先端技術調査に役立てられるものと期待されています。
構築した辞典は現在公開中(http://cyclone.slis.tsukuba.ac.jp/)です。
1.研究成果概要
本研究で重要な技術は、特許情報から専門用語の説明を自動的に抽出する点です。ここでは様々な問題が生じます。まず、ある言葉について説明するときに使われる表現や説明の上手下手は、書き手によって異なります。また、同じ表記で複数の意味をもつ同音意義語があります。例えば、「ハブ」には、ネットワークの集線装置、ヘビ、中心など複数の意味があります。そのため、自分が意図した意味の説明が見つかりにくくなります。
これらの問題を解消するために、本研究は、言葉の説明に使われやすい表現のパターンや統計情報を用いて、説明の候補に点数を付けます。そして、点数が高い説明から順番にユーザに提示します。また、ある言葉の説明によく使われる別の言葉を関連語としてリストアップすることで、情報の絞り込みを容易にします。さらに、言葉の関係をグラフで可視化することによって、ある言葉と関連が強い別の言葉を目で見ながら探すことができます。その結果、ユーザは、自分が意図した意味の説明や関連語を効率的に調べやすくなります。
本研究の用語辞典コンテンツとそれを応用した特許検索インタフェースの実用性を評価するために、特許検索にかかわっているサーチャー、研究者、エンジニア、理工系の大学生・大学院生を中心に合計1000名の被験者を募集し、大規模なアンケート調査を実施しました。被験者の約半数が業務で特許調査を行うことがあると回答を得た方たちであり、被験者に本研究で開発したシステムの一定期間試用を依頼し、複数の設問に回答、評価を提出してもらいました。設問は、普段使用しているツールと比較して本システムで用語の説明が分かりやすかったかどうか、システムの各機能に関する使用感、業務に役立つか等です。その結果、本システムが業務に役立つかという設問に対しては、「非常に役立つ」または「役立つ」と回答した被験者の割合は63%でした。
なお、本システムが主な対象とするサーチャー、研究者、エンジニアほど、本システムが業務に役立つと回答する割合が高くなる、という結果が得られました。
2.競合技術への強み
ある技術分野を理解するためには、その分野に属する関連語の集合を知ることが効果的です。本システムを使って、関連語の説明を次々に調べていけば、それらの言葉が発明のポイントであるような特許に自然と到達する確率が高くなります。
3.今後の展望
情報検索、機械翻訳、音声認識のように人間の日常言語を計算機が処理する研究分野では、辞書などの言語資源が欠かせません。本研究で構築した用語辞典コンテンツをこれらの研究に応用できる水準まで高度化することを目指していきます。
特許情報を用いたCycloneは知財関係者への利用が広まってきているので、利用者からのフィードバックを受けながら、さらなる実用性の向上を目指していきます。
今回行った研究では、複数の特許情報から抽出した説明を組織化し用語辞典コンテンツ化することによって、個別の特許情報からは得ることができない新たな価値を創造することを試みました。これからも世の中の知的活動に役立つコンテンツの構築を目指していきます。
4.参考
成果プレスダイジェスト:筑波大学准教授 藤井 敦氏