TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開
[20/04/20]
提供元:PRTIMES
提供元:PRTIMES
企業名のカバレッジ範囲が高い辞書で、自然言語処理など多様なシーンでの活用を目指す
TISインテックグループのTIS株式会社(本社:東京都新宿区、代表取締役会長兼社長:桑野 徹、以下:TIS)は、自然言語処理で企業名認識を行うための辞書「JCLdic」(日本会社名辞書)を無償公開し、辞書を生成するコードをオープンソースソフトウェア(OSS)として公開することを発表します。
・「JCLdic」公開ページ:https://github.com/chakki-works/Japanese-Company-Lexicon
(利用は上記のページからダウンロード)
「JCLdic」は800万以上の企業名を収録している企業名辞書です。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTISが作成しました。同一企業に対する複数名称を含むため、自然言語処理を行う際に「TIS」「ティアイエス」「テイアイエス」など同じ企業を指す企業名の表記揺れを吸収して、商号を認識することなどを可能にします。
TISでは、企業に関するナレッジグラフ※1を構築するため、テキストからの情報抽出に取り組み、これまでの辞書では企業名のカバレッジが低く、表記揺れで認識にくいという問題を解決するため、「JCLdic」を作成しました。今回、同様の研究を行う研究者にも活用をしてもらい、その知見を交換することを目的に「JCLdic」を無償公開します。
<「JCLdic」を利用した会社名認識のイメージ>
[画像: https://prtimes.jp/i/11650/780/resize/d11650-780-469100-0.png ]
※1ナレッジグラフ:ナレッジグラフとは、人物や作品、場所などあらゆる物事について、それぞれの情報の関係性や属性を認識把握したうえで、ユーザーが有益な情報を簡単に探し出せる仕組み。例えばGoogleで「TIS株式会社」を検索すると、TISに関する情報をまとめたナレッジパネルが出てきます。その後はナレッジグラフの技術を使っています。
TISは、「コア技術戦略」に基づき、自然言語処理を用いたナレッジグラフの構築と活用について研究・開発を行っています。ナレッジグラフは情報の関係性や属性を表現することができるため、自然言語処理を活用した情報検索や質問応答、推論といったシステムを開発する際にも活用できると考えています。
■「JCLdic」の活用例
1)会社名認識
「JCLdic」は、有価証券報告書、ニュース、ロコミなどのテキストから、会社名を認識することができるため、これらの無数のテキストから会社情報が含まれたテキストを特定することができます。これらのテキストをソースにした機械学習モデルを使って、細かい会社情報のマイニングも可能です。
2)データ作成
「JCLdic」では、テキストデータに自動的にタグを付けることが可能です。収録した膨大な会社名を活用し、ラベルがないテキストに自動で会社名をタグ付けできるため、固有表現認識、関係抽出などの自然言語処理タスクの機械学習のモデルに活用できます。
■「JCLdic」のビジネス活用
TISでは、財務情報を主軸に扱うサービスとして以下を展開しています。
・与信管理ソリューション「SCORE LINK」:https://www.tis.jp/service_solution/yoshin/
・企業分析サービス「Finplus」:https://www.tis.jp/service_solution/finplus/
今後は、これらのサービスに「JCLdic」を活用した企業ナレッジグラフを加えることで、企業の与信・融資業務支援の充実や、投資・融資を受ける企業側の数値面だけでない評価などの機能やメニューの拡張を目指します。
■「JCLdic」について
「JCLdic」は、企業名の表記揺れを正確に認識するために、様々な表記を網羅した日本企業名辞書です。例えば「TIS株式会社」の表記は「TIS株式会社」(全角)、「TIS」(アルファベット)、「ティアイエス」(カタカナ)などとなりますが、「JCLdic」を活用することで同じ企業を指す商号として認識することが可能になります。
作成においては、国税庁の公開データから480万以上の法人データを収集し、重名の会社名を除いて、一意の210万の会社名をベースに、別名生成手法によって、800万以上の会社別名を生成しました。日本の会社名は漢字、アルファベット、ふりがな、カタカナ4つの記号を混合して使用されていますが、高い質の別名を生成するため、ルールで異なった記号を考慮しました。例えば一意の正式商号「TIS株式会社」があるときに、書式の削除、ふりがなの追加、正規化などのプロセスによって、「TIS」、「ティアイエス」、「テイアイエス」などの別名が生成されます。
■TISの「コア技術戦略」
TISでは、戦略的にバランスがとれたR&Dポートフォリオを事業部とR&D組織のマネージメントが共同でつくりあげる形で「コア技術戦略」を策定しています。企業戦略、事業戦略、R&D戦略を統合することで、限られたR&D資源を必要なところに配分することを目指しています。
TIS株式会社について(https://www.tis.co.jp/)
TISインテックグループのTISは、SI・受託開発に加え、データセンターやクラウドなどサービス型のITソリューションを多数用意しています。同時に、中国・ASEAN地域を中心としたグローバルサポート体制も整え、金融、製造、流通/サービス、公共、通信などさまざまな業界で3000社以上のビジネスパートナーとして、お客様の事業の成長に貢献しています。
TISインテックグループについて
TISインテックグループはグループ社員約2万人が一体となって、強みを活かし、国内および海外の金融・製造・サービス・公共など多くのお客様のビジネスを支えるITサービスを提供しています。デジタル技術を駆使したムーバーとして、未来の景色に鮮やかな彩りをつけていきます。
※ 記載されている会社名、製品名は、各社の登録商標または商標です。
※ 記載されている情報は、発表日現在のものです。最新の情報とは異なる場合がありますのでご了承ください。
◆本件に関するお問い合わせ先
TIS株式会社 テクノロジー&イノベーション本部
戦略技術センター
TEL:03-5909-4501 E-mail: info-stc@ml.tis.co.jp
TISインテックグループのTIS株式会社(本社:東京都新宿区、代表取締役会長兼社長:桑野 徹、以下:TIS)は、自然言語処理で企業名認識を行うための辞書「JCLdic」(日本会社名辞書)を無償公開し、辞書を生成するコードをオープンソースソフトウェア(OSS)として公開することを発表します。
・「JCLdic」公開ページ:https://github.com/chakki-works/Japanese-Company-Lexicon
(利用は上記のページからダウンロード)
「JCLdic」は800万以上の企業名を収録している企業名辞書です。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTISが作成しました。同一企業に対する複数名称を含むため、自然言語処理を行う際に「TIS」「ティアイエス」「テイアイエス」など同じ企業を指す企業名の表記揺れを吸収して、商号を認識することなどを可能にします。
TISでは、企業に関するナレッジグラフ※1を構築するため、テキストからの情報抽出に取り組み、これまでの辞書では企業名のカバレッジが低く、表記揺れで認識にくいという問題を解決するため、「JCLdic」を作成しました。今回、同様の研究を行う研究者にも活用をしてもらい、その知見を交換することを目的に「JCLdic」を無償公開します。
<「JCLdic」を利用した会社名認識のイメージ>
[画像: https://prtimes.jp/i/11650/780/resize/d11650-780-469100-0.png ]
※1ナレッジグラフ:ナレッジグラフとは、人物や作品、場所などあらゆる物事について、それぞれの情報の関係性や属性を認識把握したうえで、ユーザーが有益な情報を簡単に探し出せる仕組み。例えばGoogleで「TIS株式会社」を検索すると、TISに関する情報をまとめたナレッジパネルが出てきます。その後はナレッジグラフの技術を使っています。
TISは、「コア技術戦略」に基づき、自然言語処理を用いたナレッジグラフの構築と活用について研究・開発を行っています。ナレッジグラフは情報の関係性や属性を表現することができるため、自然言語処理を活用した情報検索や質問応答、推論といったシステムを開発する際にも活用できると考えています。
■「JCLdic」の活用例
1)会社名認識
「JCLdic」は、有価証券報告書、ニュース、ロコミなどのテキストから、会社名を認識することができるため、これらの無数のテキストから会社情報が含まれたテキストを特定することができます。これらのテキストをソースにした機械学習モデルを使って、細かい会社情報のマイニングも可能です。
2)データ作成
「JCLdic」では、テキストデータに自動的にタグを付けることが可能です。収録した膨大な会社名を活用し、ラベルがないテキストに自動で会社名をタグ付けできるため、固有表現認識、関係抽出などの自然言語処理タスクの機械学習のモデルに活用できます。
■「JCLdic」のビジネス活用
TISでは、財務情報を主軸に扱うサービスとして以下を展開しています。
・与信管理ソリューション「SCORE LINK」:https://www.tis.jp/service_solution/yoshin/
・企業分析サービス「Finplus」:https://www.tis.jp/service_solution/finplus/
今後は、これらのサービスに「JCLdic」を活用した企業ナレッジグラフを加えることで、企業の与信・融資業務支援の充実や、投資・融資を受ける企業側の数値面だけでない評価などの機能やメニューの拡張を目指します。
■「JCLdic」について
「JCLdic」は、企業名の表記揺れを正確に認識するために、様々な表記を網羅した日本企業名辞書です。例えば「TIS株式会社」の表記は「TIS株式会社」(全角)、「TIS」(アルファベット)、「ティアイエス」(カタカナ)などとなりますが、「JCLdic」を活用することで同じ企業を指す商号として認識することが可能になります。
作成においては、国税庁の公開データから480万以上の法人データを収集し、重名の会社名を除いて、一意の210万の会社名をベースに、別名生成手法によって、800万以上の会社別名を生成しました。日本の会社名は漢字、アルファベット、ふりがな、カタカナ4つの記号を混合して使用されていますが、高い質の別名を生成するため、ルールで異なった記号を考慮しました。例えば一意の正式商号「TIS株式会社」があるときに、書式の削除、ふりがなの追加、正規化などのプロセスによって、「TIS」、「ティアイエス」、「テイアイエス」などの別名が生成されます。
■TISの「コア技術戦略」
TISでは、戦略的にバランスがとれたR&Dポートフォリオを事業部とR&D組織のマネージメントが共同でつくりあげる形で「コア技術戦略」を策定しています。企業戦略、事業戦略、R&D戦略を統合することで、限られたR&D資源を必要なところに配分することを目指しています。
TIS株式会社について(https://www.tis.co.jp/)
TISインテックグループのTISは、SI・受託開発に加え、データセンターやクラウドなどサービス型のITソリューションを多数用意しています。同時に、中国・ASEAN地域を中心としたグローバルサポート体制も整え、金融、製造、流通/サービス、公共、通信などさまざまな業界で3000社以上のビジネスパートナーとして、お客様の事業の成長に貢献しています。
TISインテックグループについて
TISインテックグループはグループ社員約2万人が一体となって、強みを活かし、国内および海外の金融・製造・サービス・公共など多くのお客様のビジネスを支えるITサービスを提供しています。デジタル技術を駆使したムーバーとして、未来の景色に鮮やかな彩りをつけていきます。
※ 記載されている会社名、製品名は、各社の登録商標または商標です。
※ 記載されている情報は、発表日現在のものです。最新の情報とは異なる場合がありますのでご了承ください。
◆本件に関するお問い合わせ先
TIS株式会社 テクノロジー&イノベーション本部
戦略技術センター
TEL:03-5909-4501 E-mail: info-stc@ml.tis.co.jp