東京式アクセントを自動推定する自然言語処理ソフトウェア「tdmelodic」をオープンソースとして公開
[20/09/18]
提供元:PRTIMES
提供元:PRTIMES
株式会社PKSHA Technology(本社:東京都文京区、代表取締役:上野山 勝也、以下「PKSHA Technology」)は、このたび、自然言語処理ソフトウェア「tdmelodic」(Tokyo Dialect MELOdic accent DICtionary generator:東京方言高低アクセント辞書ジェネレーター)をオープンソースとして公開いたしました。tdmelodicを使用すると、様々な単語の東京式アクセントを推定することができ、それにより大語彙アクセント辞書を自動生成することができます。この辞書は、より自然に感じられる日本語音声合成などの用途に利用できます。
[画像: https://prtimes.jp/i/22705/17/resize/d22705-17-434888-0.png ]
【背景】
近年、深層学習を活用した音声合成技術の登場により、合成音声の音質は飛躍的に向上しました。店舗接客ロボットやスマートスピーカーなどを始めとしたさまざまなシステムにおいて音声合成システムが活用され始めており、私たちの身の回りにも広く普及しつつあります。しかし、日本語の音声合成においては、いわゆる「イントネーションに若干の違和感がある」ような合成音声になってしまいがちな傾向にあり、依然として技術的課題となっています。この問題は、音声合成システムの前処理において、各単語にアクセント情報を付与する際に、必ずしも正しい情報を付与できていないことが、原因の一つと考えられます。
日本語の多くの方言の話し言葉において、単語のアクセント情報は重要な役割を担っています。その一つが同音異義語の識別のための役割(弁別機能)です。例えば東京方言では、「富士」は頭高型と呼ばれるアクセント型であり、「ふ\じ」と下降気味に発音する一方、「藤」は平板型と呼ばれるアクセント型であり、平らに「ふじ」、あるいは上昇気味に「ふ/じ」のように発音します。このように、平仮名で書けば同じフリガナになる単語でも、アクセントが異なることによって識別できるケースが多数あります。
もう一つの重要な役割が、文章中のフレーズの意味的まとまりや、文章の構造を理解しやすくするための役割(統語機能)です。例えば東京方言では、複数の単語が連結して複合語になった際に、複合語のアクセントと、個々の単語を単純に連結したアクセントとが、全く異なったものになることがあります。一例として「機械学習」は、「機械」(き\かい)「学習」(が/くしゅう)を単純に連結した「き\かいが/くしゅう」ではなく、「き/かいが\くしゅう」と発音します。このように発音することで、「機械学習」が意味的に一つの塊であって、単に「機械」と「学習」を並べた以上の特別な意味を持つ複合語であるということが分かりやすくなります。
日本語音声合成においてより自然な結果を得るためには、以上のようなアクセント情報を、読み上げ文章中の全単語に適切に付与する必要があります。そのために現在では、アクセント辞書(単語のアクセント情報を列挙した電子的な目録)を活用することが一般的です。しかし、新語や流行語、商標名のように、標準的な辞書には掲載されない単語や、複雑な複合語などについては、実用上の重要性の高さにもかかわらず、既存の標準的なアクセント辞書では必ずしも十分に対応しきれていませんでした。
【tdmelodicの概要】
このような背景のもと、PKSHA Technologyは、日本語音声合成技術の社会実装の加速を目的として、日本語音声合成で実用上必要となるような幅広い語彙を網羅した大規模アクセント辞書を自動生成するためのモジュールとして、単語の東京式アクセントを自動推定するソフトウェア「tdmelodic」(Tokyo Dialect MELOdic accent DICtionary generator)を開発し、公開いたしました。本ソフトウェアは、単語の表層形(漢字など、単語が文章中で現れる形)と読み(フリガナ)から、その単語のアクセントを、深層学習に基づく技術により推定するというものです。
本ソフトウェアを、既存のオープンソースの大規模日本語辞書のひとつである「NEologd」などに適用すると、語彙サイズ数百万単語規模の大規模なMeCab用アクセント辞書を一括で自動生成することができます。tdmelodicの活用法の一例として、音声合成システム開発者はまずtdmelodicとNEologdによる自動生成辞書をベースラインとして開発を始め、必要に応じて辞書中の誤りを適宜修正しながら文章読み上げの性能を向上させていく、といった開発プロセスへの活用などが考えられます。
tdmelodicは以下のような機能を提供します。
・日本語の単語の表層形と読みを入力とし、その単語の東京式アクセントを出力する機能
・既存の日本語形態素解析用辞書であるUniDicとNEologdをベースとして、MeCab用の大語彙アクセント辞書を自動生成する機能
Githubリポジトリはこちらをご参照ください。
https://github.com/PKSHATechnology-Research/tdmelodic
【用語集】
・MeCab: 日本語の文章を分析する機能を提供するソフトウェア
・UniDic: 国立国語研究所により提供されている、オープンソースの日本語辞書
・NEologd: インターネット上の情報などを活用して構築された、オープンソースの大語彙日本語辞書
【備考】
・この成果の一部は、国立研究開発法人 新エネルギー・産業技術総合開発機構(NEDO)の助成事業の結果得られたものです
・本技術は、深層学習による統計的推定に基づく技術である性質上、常に正しいアクセント情報が得られることを保証するものではありません。また、本ソフトウェアによって推定された東京方言アクセントは株式会社PKSHA Technologyの見解を示すものではありません
・2020年(令和2年)5月、米国電気電子学会(IEEE)の音声・信号処理等に関する国際会議 ICASSP (IEEE International Conference on Acoustics, Speech and Signal Processing 2020) にて、本技術に関する発表(論文発表およびオンライン動画発表)を行いました
・本技術は特許出願中です
・本ソフトウェアは修正BSDライセンス(三条項BSDライセンス )です
【お問い合わせ】
本ソフトウェアの商用利用の際には、下記URLのお問い合わせアドレスまでご連絡ください。
https://pkshatech.com/ja/contact/
以 上
[画像: https://prtimes.jp/i/22705/17/resize/d22705-17-434888-0.png ]
【背景】
近年、深層学習を活用した音声合成技術の登場により、合成音声の音質は飛躍的に向上しました。店舗接客ロボットやスマートスピーカーなどを始めとしたさまざまなシステムにおいて音声合成システムが活用され始めており、私たちの身の回りにも広く普及しつつあります。しかし、日本語の音声合成においては、いわゆる「イントネーションに若干の違和感がある」ような合成音声になってしまいがちな傾向にあり、依然として技術的課題となっています。この問題は、音声合成システムの前処理において、各単語にアクセント情報を付与する際に、必ずしも正しい情報を付与できていないことが、原因の一つと考えられます。
日本語の多くの方言の話し言葉において、単語のアクセント情報は重要な役割を担っています。その一つが同音異義語の識別のための役割(弁別機能)です。例えば東京方言では、「富士」は頭高型と呼ばれるアクセント型であり、「ふ\じ」と下降気味に発音する一方、「藤」は平板型と呼ばれるアクセント型であり、平らに「ふじ」、あるいは上昇気味に「ふ/じ」のように発音します。このように、平仮名で書けば同じフリガナになる単語でも、アクセントが異なることによって識別できるケースが多数あります。
もう一つの重要な役割が、文章中のフレーズの意味的まとまりや、文章の構造を理解しやすくするための役割(統語機能)です。例えば東京方言では、複数の単語が連結して複合語になった際に、複合語のアクセントと、個々の単語を単純に連結したアクセントとが、全く異なったものになることがあります。一例として「機械学習」は、「機械」(き\かい)「学習」(が/くしゅう)を単純に連結した「き\かいが/くしゅう」ではなく、「き/かいが\くしゅう」と発音します。このように発音することで、「機械学習」が意味的に一つの塊であって、単に「機械」と「学習」を並べた以上の特別な意味を持つ複合語であるということが分かりやすくなります。
日本語音声合成においてより自然な結果を得るためには、以上のようなアクセント情報を、読み上げ文章中の全単語に適切に付与する必要があります。そのために現在では、アクセント辞書(単語のアクセント情報を列挙した電子的な目録)を活用することが一般的です。しかし、新語や流行語、商標名のように、標準的な辞書には掲載されない単語や、複雑な複合語などについては、実用上の重要性の高さにもかかわらず、既存の標準的なアクセント辞書では必ずしも十分に対応しきれていませんでした。
【tdmelodicの概要】
このような背景のもと、PKSHA Technologyは、日本語音声合成技術の社会実装の加速を目的として、日本語音声合成で実用上必要となるような幅広い語彙を網羅した大規模アクセント辞書を自動生成するためのモジュールとして、単語の東京式アクセントを自動推定するソフトウェア「tdmelodic」(Tokyo Dialect MELOdic accent DICtionary generator)を開発し、公開いたしました。本ソフトウェアは、単語の表層形(漢字など、単語が文章中で現れる形)と読み(フリガナ)から、その単語のアクセントを、深層学習に基づく技術により推定するというものです。
本ソフトウェアを、既存のオープンソースの大規模日本語辞書のひとつである「NEologd」などに適用すると、語彙サイズ数百万単語規模の大規模なMeCab用アクセント辞書を一括で自動生成することができます。tdmelodicの活用法の一例として、音声合成システム開発者はまずtdmelodicとNEologdによる自動生成辞書をベースラインとして開発を始め、必要に応じて辞書中の誤りを適宜修正しながら文章読み上げの性能を向上させていく、といった開発プロセスへの活用などが考えられます。
tdmelodicは以下のような機能を提供します。
・日本語の単語の表層形と読みを入力とし、その単語の東京式アクセントを出力する機能
・既存の日本語形態素解析用辞書であるUniDicとNEologdをベースとして、MeCab用の大語彙アクセント辞書を自動生成する機能
Githubリポジトリはこちらをご参照ください。
https://github.com/PKSHATechnology-Research/tdmelodic
【用語集】
・MeCab: 日本語の文章を分析する機能を提供するソフトウェア
・UniDic: 国立国語研究所により提供されている、オープンソースの日本語辞書
・NEologd: インターネット上の情報などを活用して構築された、オープンソースの大語彙日本語辞書
【備考】
・この成果の一部は、国立研究開発法人 新エネルギー・産業技術総合開発機構(NEDO)の助成事業の結果得られたものです
・本技術は、深層学習による統計的推定に基づく技術である性質上、常に正しいアクセント情報が得られることを保証するものではありません。また、本ソフトウェアによって推定された東京方言アクセントは株式会社PKSHA Technologyの見解を示すものではありません
・2020年(令和2年)5月、米国電気電子学会(IEEE)の音声・信号処理等に関する国際会議 ICASSP (IEEE International Conference on Acoustics, Speech and Signal Processing 2020) にて、本技術に関する発表(論文発表およびオンライン動画発表)を行いました
・本技術は特許出願中です
・本ソフトウェアは修正BSDライセンス(三条項BSDライセンス )です
【お問い合わせ】
本ソフトウェアの商用利用の際には、下記URLのお問い合わせアドレスまでご連絡ください。
https://pkshatech.com/ja/contact/
以 上