神戸デジタル・ラボ、大規模かつ高品質な言語資源を利用し自社サービス強化へ
[13/06/06]
提供元:DreamNews
提供元:DreamNews
株式会社神戸デジタル・ラボ(本社:兵庫県神戸市中央区、代表取締役:永吉一郎、以下KDL)は、独立行政法人情報通信研究機構(本部:東京都小金井市、理事長:坂内正夫、以下NICT)ユニバーサルコミュニケーション研究所 情報分析研究室が、高度言語情報融合フォーラム(会長:中村哲、以下ALAGIN)で公開している大規模かつ高品質な言語資源を自社サービスで利用することで、NICTの持つ言語資源の実用化を推進します。また、自社サービスでの言語処理機能の強化を図ることで、ユーザの皆様のさらなる利便性向上、運営改善を目指します。
■自社サービス転用の背景と効果
KDLはALAGIN設立初年度よりフォーラムへ参加。様々な言語処理を必要とする自社サービスを強化するにあたり、自然言語処理に対応できるデータを必要としていました。しかし、企業単体では質・量ともに優良なデータ取得は限界があり、かねてから言語資源の利用を検討していました。今回の導入によって、自然言語処理に対応できるワードが大幅に拡大されるほか、ユーザによる辞書登録の手間を大幅に削減することが可能になります。
今後KDLでは、言語資源のサービス事例としての実用化を推進すべく、高度かつ膨大な自然言語処理を自社サービスの機能向上に繋げ、ユーザの皆様へ還元してまいります。
■言語資源の導入計画
KDLではALAGIN会員向けに公開されている以下3種の言語資源を自社サービスへ導入し、2013年7月の公開を目標に開発を進めてまいります。
【導入対象の言語資源】
1. 文脈類似語データベース (名詞100万語が対象)
100万語の名詞に対して、約1億ページのWeb文書上での文脈が類似している名詞を類似度とともに順に最大500個列挙したデータベースです。
例.チャイコフスキー → ブラームス、シューマン…等
2. 日本語パターン言い換えデータベース (約170万パターン)
「AがBの原因となる」というような、文内で任意の名詞AとBを結ぶ表現パターンの言い換えデータベースです。
例.AはBを防ぐ →AがBを防ぐ, AでBを防ぐ, Bを防ぐA, AはBを防止…等
3. 日本語異表記対データベース (約5万ペアを収録)
日本語の語句のレベルでの編集距離の近い異表記対を集めたデータベースです。
例.ゴミ置き場 -ゴミ置場, ギタープレー -ギタープレイ, お替わり -おかわり…等
■NICT ユニバーサルコミュニケーション研究所 情報分析研究室 とは
情報分析研究室(室長:鳥澤 健太郎)は、Web等に存在する大量のテキストや画像等を深く意味的に分析し、情報の価値ある組み合わせや、価値ある仮説を柔軟な入力を元に提示できる技術を開発しています。ますます複雑化していく現代社会において、一見かけ離れた情報間の予想もしなかった繋がりが非常に重大な帰結をもたらす事例がますます頻繁におきています。目指す技術はそうした情報間の組み合わせをユーザに分かりやすい形で入手可能にするものです。こうした技術の開発には先進的な言語処理技術、画像処理技術、膨大な言語資源や画像資源が必要となりますが、これまでに開発してきた最先端技術や、関連分野を研究する公的機関としては日本最大級の計算リソースを用いてこれらの研究開発に挑んでいます。
ホームページ:http://www.nict.go.jp/univ-com/info_analysis/index.html
■ALAGINとは
ALAGINは、人間同士あるいは人間と機械の「言葉の壁」、Web情報に内在する「量や質の壁」を克服する「スーパー・コミュニケーション技術」の研究開発とその利用を促進するため、2011年に設立した産学官連携の組織です。テキスト翻訳、音声翻訳、音声対話、適切に情報を検索する技術や信憑性判定を含めた情報分析の技術及びこれらの技術の前提となる今までにない規模の言語資源(辞書、コーパスなど)を研究開発し、その成果たるツールや言語資源を広く会員に提供しています。
ホームページ:http://www.alagin.jp/index.html
【会社概要】
社名 : 株式会社神戸デジタル・ラボ
代表者 : 代表取締役 永吉 一郎
所在地 : (神戸本社) 〒650-0033 兵庫県神戸市中央区江戸町93番 栄光ビル2F・5F
(東京支社) 〒150-0022 東京都渋谷区恵比寿南1-5-5 JR恵比寿ビル11F
設立 : 1995年10月
資本金 : 2億995万円
従業員数 : 139名(2013年6月現在)
ホームページ: http://www.kdl.co.jp/
【リリースに関するお問い合わせ先】
株式会社神戸デジタル・ラボ先端技術開発事業部 担当:佐々木・河村
TEL :078-327-2280
FAX :078-327-2278
Mail :info@kdl.co.jp
■自社サービス転用の背景と効果
KDLはALAGIN設立初年度よりフォーラムへ参加。様々な言語処理を必要とする自社サービスを強化するにあたり、自然言語処理に対応できるデータを必要としていました。しかし、企業単体では質・量ともに優良なデータ取得は限界があり、かねてから言語資源の利用を検討していました。今回の導入によって、自然言語処理に対応できるワードが大幅に拡大されるほか、ユーザによる辞書登録の手間を大幅に削減することが可能になります。
今後KDLでは、言語資源のサービス事例としての実用化を推進すべく、高度かつ膨大な自然言語処理を自社サービスの機能向上に繋げ、ユーザの皆様へ還元してまいります。
■言語資源の導入計画
KDLではALAGIN会員向けに公開されている以下3種の言語資源を自社サービスへ導入し、2013年7月の公開を目標に開発を進めてまいります。
【導入対象の言語資源】
1. 文脈類似語データベース (名詞100万語が対象)
100万語の名詞に対して、約1億ページのWeb文書上での文脈が類似している名詞を類似度とともに順に最大500個列挙したデータベースです。
例.チャイコフスキー → ブラームス、シューマン…等
2. 日本語パターン言い換えデータベース (約170万パターン)
「AがBの原因となる」というような、文内で任意の名詞AとBを結ぶ表現パターンの言い換えデータベースです。
例.AはBを防ぐ →AがBを防ぐ, AでBを防ぐ, Bを防ぐA, AはBを防止…等
3. 日本語異表記対データベース (約5万ペアを収録)
日本語の語句のレベルでの編集距離の近い異表記対を集めたデータベースです。
例.ゴミ置き場 -ゴミ置場, ギタープレー -ギタープレイ, お替わり -おかわり…等
■NICT ユニバーサルコミュニケーション研究所 情報分析研究室 とは
情報分析研究室(室長:鳥澤 健太郎)は、Web等に存在する大量のテキストや画像等を深く意味的に分析し、情報の価値ある組み合わせや、価値ある仮説を柔軟な入力を元に提示できる技術を開発しています。ますます複雑化していく現代社会において、一見かけ離れた情報間の予想もしなかった繋がりが非常に重大な帰結をもたらす事例がますます頻繁におきています。目指す技術はそうした情報間の組み合わせをユーザに分かりやすい形で入手可能にするものです。こうした技術の開発には先進的な言語処理技術、画像処理技術、膨大な言語資源や画像資源が必要となりますが、これまでに開発してきた最先端技術や、関連分野を研究する公的機関としては日本最大級の計算リソースを用いてこれらの研究開発に挑んでいます。
ホームページ:http://www.nict.go.jp/univ-com/info_analysis/index.html
■ALAGINとは
ALAGINは、人間同士あるいは人間と機械の「言葉の壁」、Web情報に内在する「量や質の壁」を克服する「スーパー・コミュニケーション技術」の研究開発とその利用を促進するため、2011年に設立した産学官連携の組織です。テキスト翻訳、音声翻訳、音声対話、適切に情報を検索する技術や信憑性判定を含めた情報分析の技術及びこれらの技術の前提となる今までにない規模の言語資源(辞書、コーパスなど)を研究開発し、その成果たるツールや言語資源を広く会員に提供しています。
ホームページ:http://www.alagin.jp/index.html
【会社概要】
社名 : 株式会社神戸デジタル・ラボ
代表者 : 代表取締役 永吉 一郎
所在地 : (神戸本社) 〒650-0033 兵庫県神戸市中央区江戸町93番 栄光ビル2F・5F
(東京支社) 〒150-0022 東京都渋谷区恵比寿南1-5-5 JR恵比寿ビル11F
設立 : 1995年10月
資本金 : 2億995万円
従業員数 : 139名(2013年6月現在)
ホームページ: http://www.kdl.co.jp/
【リリースに関するお問い合わせ先】
株式会社神戸デジタル・ラボ先端技術開発事業部 担当:佐々木・河村
TEL :078-327-2280
FAX :078-327-2278
Mail :info@kdl.co.jp