レッジ、ウェブライダー、SPJの共同研究結果第一弾「ディープラーニングを用いた誤字脱字検出機能」が『文賢』に搭載
[18/04/25]
提供元:PRTIMES
提供元:PRTIMES
[画像1: https://prtimes.jp/i/30320/6/resize/d30320-6-291217-2.jpg ]
株式会社レッジは、株式会社ウェブライダー、株式会社SPJ と共同で、2017年12月より「機械学習を用いた文章校正の共同研究」を行ってまいりました。このたび、研究結果の第一弾として、ウェブライダーの提供する文章校正ツール「文賢(ブンケン)」に、「ディープラーニングを用いた誤字脱字検出機能」が搭載されたので、お知らせいたします。
■ 推敲・校閲支援ツール「文賢」とは
「文賢」は、株式会社ウェブライダーが提供する、ブラウザ上で文章をチェックするクラウド型の推敲・校閲支援ツール。「誤った敬語」や「ら抜き言葉」などのチェックをはじめ、読みやすく分かりやすい文章をつくるための推敲支援・アドバイス機能も搭載している。3/12には類語表現を大幅に拡充した「文章表現機能」を大幅アップデートしており、ライティングやメール作成業務などを総合的にサポートする。
文賢の詳細:https://rider-store.jp/bun-ken/
■誤字脱字検出モデルの概要
今回、さまざまな試行錯誤を経て、以下のようなアプローチを採用しました。ディープラーニングならびに、自然言語処理の技術を誤字脱字検出に活用し、実際の『文賢』ツールに組み込んだ形となっています。
[画像2: https://prtimes.jp/i/30320/6/resize/d30320-6-967584-1.jpg ]
・大量のコーパスからRNN言語モデルを作成。誤字検出に最適な複数のハイパーパラメータを探索
・作成された学習済み言語モデルによる単語の予測と、入力文章との比較
・誤字として検出された単語をもとに、レーベンシュタイン距離による正解らしい単語のサジェストを実行
[画像3: https://prtimes.jp/i/30320/6/resize/d30320-6-170705-0.jpg ]
現時点では、全ての誤字・脱字を完璧に検出するというわけではありませんが、これまでの共同研究成果から見えてきた更なる改善点に向き合い、今後も更にその精度を進化させていく予定です。
■誤字・脱字検出モデルが利用するデータについて
今回リリースされた文賢「誤字脱字チェック機能」では、株式会社ウェブライダー・株式会社レッジの著作データ、ならびに下記データの一部が学習時の教師データとして利用されています。
・livedoor ニュースコーパス (準拠ライセンス:CC BYND2.1)
・内閣府ホームページコンテンツ(準拠ライセンス:CC BY 4.0)
・文部科学省ホームページコンテンツ(準拠ライセンス:CC BY 4.0)
・ウェブライダー提供コンテンツコーパス
・その他提携メディアコンテンツコーパス
■AI学習のご協力について
当プロジェクトのAI学習に際し、株式会社ネットワールドより、同社 AIセンター内 NVIDIA Tesla P100 GPU+IBM POWERプロセッサー搭載ディープラーニング向けサーバー『S822LC for HPC (Minsky)クラウド検証環境』にて、学習の高速化にご協力いただきました。
【株式会社レッジ概要】
株式会社レッジは、AI導入の現場の「発想と実装の間をつなぐ」ことを目的とし、AIプロジェクトのコンサルティングや、AI特化型Webメディア「Ledge.ai(https://ledge.ai/)」の運営を行なっています。日々発表されるAI関連技術を、実際にビジネスの現場でどの程度、どのくらいの工数で、どのくらいの費用で活用できるのかという視点での情報発信、及びその知見を生かしたAIプロジェクトのコンサルティングによって、世の企業のスムーズなAI導入を助けます。
・会社名 :株式会社レッジ
・URL :https://ledge.co.jp/
・代表者 :橋本和樹
・所在地 :東京都品川区西五反田2-30-4 BR五反田7F
・事業内容:AIに特化したメディア運営、AIプロジェクトのコンサルティング