Studio Ousia、人工知能を用いた言語処理エンジンで、国際コンペティションにて大差で優勝
[15/05/26]
提供元:PRTIMES
提供元:PRTIMES
大量のテキストデータを高速かつ高精度に解析する新しい言語処理エンジン「Semantic Kernel」を開発
2015年5月18日〜22日にイタリアのフィレンチェで開催された世界最大のウェブ研究に関する学術的な国際会議WWW2015(International World Wide Web Conference)内で行われた「エンティティ・リンキング」に関するコンペティションNamed Entity rEcognition and Linking (NEEL) Challengeで、Studio Ousiaの提案したシステムが二位以降に大差をつけて優勝しました。
「エンティティ・リンキング(Entity linking)」とは、テキスト中のキーワード(固有表現)をWikipediaなどのナレッジベースに結びつけて処理するための自然言語処理の技術です。これによって、ナレッジベース上の高品質な情報を直接用いてテキストを解析することができます。例えば、「ジョン・F・ケネディ」という言葉を抽出し、それが大統領なのか空港なのかまでを識別することができます。また、言葉同士の近さを計算し、関連の強さを数値化することで、例えば、映画の作品名から直接出演者や監督を紐付けることなどが可能になり、より直感的にキーワード同士の近さを用いた言語処理を行うことができるようになります。
従来の言語処理の処理方法に比べて、言葉の曖昧性の問題を解消し、よりノイズの少ない高品質な言語処理が可能になるため、文書分類やタグ付け、感情分析、意味解析など様々な言語処理を高い精度で実現することができます。
また、米国立標準技術研究所(NIST)や米Microsoft Researchがエンティティ・リンキングに関するワークショップを開催するなど、近年世界的に高い注目を集めています。
今回のコンペティションは、エンティティ・リンキングにおいて世界的に著名な研究者が2013年より毎年開催しているもので、2014年度は米Microsoft Researchが優勝、今年度は企業や大学を含む21チームが世界中から参加しました。結果、弊社の提案したシステムは、80.67の解析精度のスコアを獲得し、二位のスコア(47.57)に対し、33.1の大差をつけました。スコアは、文章中からエンティティを検出する性能を数値にしたものです。
[画像: http://prtimes.jp/i/11638/2/resize/d11638-2-217275-0.jpg ]
また、弊社では、当技術を商用製品として、提供するべく開発を行っております。今後、このエンジンをSemantic Kernelという製品として、2015年夏にリリースを行う予定です。
WWW2015: http://www.www2015.it/
NEEL: http://www.scc.lancs.ac.uk/microposts2015/challenge/index.html
■ 株式会社Studio Ousia会社概要
Studio Ousiaは、「モノ」と「情報」を適切に結びつけるプラットフォームを作る研究開発を通して、適切な情報を提供する基盤を作ることを目指す会社です。
社名 : 株式会社Studio Ousia
所在地 : 神奈川県藤沢市遠藤4489番105 慶應藤沢イノベーションビレッジ221号室
代表 : 代表取締役 渡邉安弘 山田育矢
設立 : 2007年2月5日
資本金 : 2億1,404万円(資本準備金含む)
URL : http://www.ousia.jp
2015年5月18日〜22日にイタリアのフィレンチェで開催された世界最大のウェブ研究に関する学術的な国際会議WWW2015(International World Wide Web Conference)内で行われた「エンティティ・リンキング」に関するコンペティションNamed Entity rEcognition and Linking (NEEL) Challengeで、Studio Ousiaの提案したシステムが二位以降に大差をつけて優勝しました。
「エンティティ・リンキング(Entity linking)」とは、テキスト中のキーワード(固有表現)をWikipediaなどのナレッジベースに結びつけて処理するための自然言語処理の技術です。これによって、ナレッジベース上の高品質な情報を直接用いてテキストを解析することができます。例えば、「ジョン・F・ケネディ」という言葉を抽出し、それが大統領なのか空港なのかまでを識別することができます。また、言葉同士の近さを計算し、関連の強さを数値化することで、例えば、映画の作品名から直接出演者や監督を紐付けることなどが可能になり、より直感的にキーワード同士の近さを用いた言語処理を行うことができるようになります。
従来の言語処理の処理方法に比べて、言葉の曖昧性の問題を解消し、よりノイズの少ない高品質な言語処理が可能になるため、文書分類やタグ付け、感情分析、意味解析など様々な言語処理を高い精度で実現することができます。
また、米国立標準技術研究所(NIST)や米Microsoft Researchがエンティティ・リンキングに関するワークショップを開催するなど、近年世界的に高い注目を集めています。
今回のコンペティションは、エンティティ・リンキングにおいて世界的に著名な研究者が2013年より毎年開催しているもので、2014年度は米Microsoft Researchが優勝、今年度は企業や大学を含む21チームが世界中から参加しました。結果、弊社の提案したシステムは、80.67の解析精度のスコアを獲得し、二位のスコア(47.57)に対し、33.1の大差をつけました。スコアは、文章中からエンティティを検出する性能を数値にしたものです。
[画像: http://prtimes.jp/i/11638/2/resize/d11638-2-217275-0.jpg ]
また、弊社では、当技術を商用製品として、提供するべく開発を行っております。今後、このエンジンをSemantic Kernelという製品として、2015年夏にリリースを行う予定です。
WWW2015: http://www.www2015.it/
NEEL: http://www.scc.lancs.ac.uk/microposts2015/challenge/index.html
■ 株式会社Studio Ousia会社概要
Studio Ousiaは、「モノ」と「情報」を適切に結びつけるプラットフォームを作る研究開発を通して、適切な情報を提供する基盤を作ることを目指す会社です。
社名 : 株式会社Studio Ousia
所在地 : 神奈川県藤沢市遠藤4489番105 慶應藤沢イノベーションビレッジ221号室
代表 : 代表取締役 渡邉安弘 山田育矢
設立 : 2007年2月5日
資本金 : 2億1,404万円(資本準備金含む)
URL : http://www.ousia.jp