8言語をリアルタイムに識別、言語設定が不要 〜何語を話しているか分からなくても即座に識別・認識・翻訳〜
[18/10/18]
提供元:共同通信PRワイヤー
提供元:共同通信PRワイヤー
2018年10月18日
国立研究開発法人情報通信研究機構(NICT)
8言語をリアルタイムに識別でき、言語設定が不要
〜何語を話しているか分からない相手の言葉も即座に識別・認識・翻訳〜
【ポイント】
■ 8言語の短い音声をリアルタイムで識別し、翻訳の言語設定が不要のシステムを開発
■ 発話時間1.5秒の音声を識別率9割以上、識別時間0.15秒以内のリアルタイム識別を実現
■ 何語を話しているか分からない外国人の言葉も即座に識別し、音声認識や自動翻訳が可能に
国立研究開発法人情報通信研究機構(NICT、理事長: 徳田 英幸)は、人の発話が何語であるのかを入力音声のみから識別する8言語(日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシア)の言語識別技術を開発しました。従来の一般的な方式では、10秒程度の長い発話でないと識別が困難であるため、実際の音声アプリケーションではあまり使われていませんでした。これに対して、言語識別に必要な発話の特徴を精度よく抽出し、かつ、高速演算できるニューラルネットワークを提案し、1.5秒程度の短い発話でも0.15秒以内に即座に識別できる技術を開発しました。これにより、何語を話しているか分からない外国人の言葉も即座に識別し、言語設定の必要もなく音声認識や自動翻訳ができるようになります。
この成果について、10月25日(木)〜27日(土)のけいはんな情報通信フェアにてデモ展示します。
【背景】
NICTでは、多言語音声認識、機械翻訳、音声合成の研究開発に取り組んでおり、スマートフォン用アプリケーション「VoiceTra」を実証実験のために無料公開しています。音声アプリケーションの大半は、入力される言語が何語であるかをあらかじめ指定する必要があるため、ユーザにとって不便でした。さらに、相手が話している言語が分からない場合には、何語かを指定すること自体が困難でした。
これを解決する方法として、入力発話が何語なのかを識別する言語識別技術があります。従来の一般的な方式では、10秒程度の長い発話でないと識別が困難であるため、実際の音声アプリケーションでは使いにくいという課題があります。
【画像: https://kyodonewsprwire.jp/img/201810169218-O1-8aSb343D 】
【今回の成果】
今回NICTは、この課題を解決するために、知識蒸留を用いて、言語識別に必要な発話の特徴を精度よく抽出できる長い発話用のニューラルネットワークを変換して、短い発話でも識別精度が高く、かつ、リアルタイムで識別可能な小規模ニューラルネットを構築する方式を提案しました。
この方式により、1.5秒程度の短い発話でも即座(0.15秒)に識別できる技術を開発し、8言語(日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシア)で90%以上の識別率を実現しました。この技術により、これまで必要であった入力言語の事前指定が不要となるため、何語を話しているか分からない外国人の言葉も即座に識別し、音声認識、機械翻訳ができるようになります。
【今後の展望】
今後は、識別言語数の拡張、識別精度向上と共に、この機能をVoiceTra等の音声翻訳アプリケーションに実装するとともに、民間企業にライセンスする予定です。
この成果について、10月25日(木)〜27日(土)のけいはんな情報通信フェアにてデモを展示します。
国立研究開発法人情報通信研究機構(NICT)
8言語をリアルタイムに識別でき、言語設定が不要
〜何語を話しているか分からない相手の言葉も即座に識別・認識・翻訳〜
【ポイント】
■ 8言語の短い音声をリアルタイムで識別し、翻訳の言語設定が不要のシステムを開発
■ 発話時間1.5秒の音声を識別率9割以上、識別時間0.15秒以内のリアルタイム識別を実現
■ 何語を話しているか分からない外国人の言葉も即座に識別し、音声認識や自動翻訳が可能に
国立研究開発法人情報通信研究機構(NICT、理事長: 徳田 英幸)は、人の発話が何語であるのかを入力音声のみから識別する8言語(日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシア)の言語識別技術を開発しました。従来の一般的な方式では、10秒程度の長い発話でないと識別が困難であるため、実際の音声アプリケーションではあまり使われていませんでした。これに対して、言語識別に必要な発話の特徴を精度よく抽出し、かつ、高速演算できるニューラルネットワークを提案し、1.5秒程度の短い発話でも0.15秒以内に即座に識別できる技術を開発しました。これにより、何語を話しているか分からない外国人の言葉も即座に識別し、言語設定の必要もなく音声認識や自動翻訳ができるようになります。
この成果について、10月25日(木)〜27日(土)のけいはんな情報通信フェアにてデモ展示します。
【背景】
NICTでは、多言語音声認識、機械翻訳、音声合成の研究開発に取り組んでおり、スマートフォン用アプリケーション「VoiceTra」を実証実験のために無料公開しています。音声アプリケーションの大半は、入力される言語が何語であるかをあらかじめ指定する必要があるため、ユーザにとって不便でした。さらに、相手が話している言語が分からない場合には、何語かを指定すること自体が困難でした。
これを解決する方法として、入力発話が何語なのかを識別する言語識別技術があります。従来の一般的な方式では、10秒程度の長い発話でないと識別が困難であるため、実際の音声アプリケーションでは使いにくいという課題があります。
【画像: https://kyodonewsprwire.jp/img/201810169218-O1-8aSb343D 】
【今回の成果】
今回NICTは、この課題を解決するために、知識蒸留を用いて、言語識別に必要な発話の特徴を精度よく抽出できる長い発話用のニューラルネットワークを変換して、短い発話でも識別精度が高く、かつ、リアルタイムで識別可能な小規模ニューラルネットを構築する方式を提案しました。
この方式により、1.5秒程度の短い発話でも即座(0.15秒)に識別できる技術を開発し、8言語(日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシア)で90%以上の識別率を実現しました。この技術により、これまで必要であった入力言語の事前指定が不要となるため、何語を話しているか分からない外国人の言葉も即座に識別し、音声認識、機械翻訳ができるようになります。
【今後の展望】
今後は、識別言語数の拡張、識別精度向上と共に、この機能をVoiceTra等の音声翻訳アプリケーションに実装するとともに、民間企業にライセンスする予定です。
この成果について、10月25日(木)〜27日(土)のけいはんな情報通信フェアにてデモを展示します。