コールセンターAIプロダクト「ForeSight Voice Mining」次世代メディア処理AIとの連携により、音声認識精度のさらなる向上を実現
[24/08/31]
提供元:PRTIMES
提供元:PRTIMES
NTTテクノクロス株式会社(本社:東京都港区、代表取締役社長:岡敦子、以下「NTTテクノクロス」)は、コールセンターAIプロダクト「ForeSight Voice Mining(フォーサイト・ボイス・マイニング、以下「FSVM」)」に人間に近い情報処理機構を実現した次世代メディア処理AI(*1)を連携し、さらなる高精度な音声認識を可能とした新バージョンを2024年8月30日から提供します。
背景
電話応対業務の品質向上に向けコールセンターなどでは、音響モデル・認識辞書・言語モデルを活用し、音声の自動認識や通話のモニタリング機能、生成AIを活用した要約生成などの音声認識サービスが活用されています。音声認識には安定した通話環境や明瞭な発話が不可欠ですが、コールセンターへ問い合わせされるお客様の通話は周囲の雑音など品質にばらつきがある上、話し言葉やくだけた表現が使われるため、お客様音声の認識精度の向上が難しいとされていました。
今回、FSVMにNTTの研究所が開発した次世代メディア処理AIを連携することで、従来よりも少ないデータ量で精度向上が可能となることに加えて、音声データ入力からテキスト出力までをオールインワンで実現するEnd-to-End音声認識技術(*2)により、高精度な音声認識を実現しました。これにより、お客様側の発話の音声認識率が大幅に向上しました。
[画像: https://prtimes.jp/i/123990/39/resize/d123990-39-f1b2c7b5888bd1f181b8-0.png ]
特長
・お客様(問い合わせ者)側の音声認識精度がさらに向上
次世代メディア処理AIとの連携により、お客様側の発話内容の音声認識率が最大9%(*3)向上するなど、話し言葉やくだけた表現などもさらに認識することができ、高精度な音声認識を実現しました。これにより、問い合わせ業務の生産性の向上が図れます。
今後の展開
NTTテクノクロスでは、認識テキストと次世代メディア処理AI から得られる感情情報を組み合わせた通話情報の見える化や、認識テキストと生成AIを組み合わせたより高度な機能の提供により、コールセンターの業務の効率化やCX(顧客体験)向上に貢献します。
価格
実際の利用環境などにより構成や価格が変わるため、詳細はお問い合わせください。
ForeSight Voice Miningとは
FSVMは、音声認識技術や感情分析技術、言語解析技術を活用したコールセンターAIプロダクトです。音声認識はNTTの研究所の技術を元に、通話内容のテキスト化や要約を行っています。また、通話内容に応じたマニュアルの自動表示、通話のモニタリング機能などにより、コールセンターや自治体などにおける電話応対業務の応対力向上を支援し、CX(顧客体験)向上を実現します。※導入実績:5万6千席(2024年7月末時点)
用語解説・注釈
*1:次世代メディア処理AIは、NTTコンピュータ&データサイエンス研究所が開発した、音声音響・画像映像・自然言語といったマルチメディアを統合的にオールインワンで扱うことで、人間の脳に近い情報処理機構を実現したAI技術です。
*2:End-to-End音声認識技術とは、音声データを直接テキストにする手法です。音声からテキストへの変換をディープニューラルネットワークにより一括で行えます。シンプルな構成かつ音響モデル・認識辞書・言語モデルを組み合わせた方式よりも上回る精度を実現します。
*3:認識精度の検証はコールセンターの実通話データを用いて実施しています。
*「ForeSight Voice Mining」はNTTテクノクロス株式会社の登録商標です。
* 記載されている商品名・会社名などの固有名詞は一般に該当する会社もしくは組織の商標または登録商標です。
背景
電話応対業務の品質向上に向けコールセンターなどでは、音響モデル・認識辞書・言語モデルを活用し、音声の自動認識や通話のモニタリング機能、生成AIを活用した要約生成などの音声認識サービスが活用されています。音声認識には安定した通話環境や明瞭な発話が不可欠ですが、コールセンターへ問い合わせされるお客様の通話は周囲の雑音など品質にばらつきがある上、話し言葉やくだけた表現が使われるため、お客様音声の認識精度の向上が難しいとされていました。
今回、FSVMにNTTの研究所が開発した次世代メディア処理AIを連携することで、従来よりも少ないデータ量で精度向上が可能となることに加えて、音声データ入力からテキスト出力までをオールインワンで実現するEnd-to-End音声認識技術(*2)により、高精度な音声認識を実現しました。これにより、お客様側の発話の音声認識率が大幅に向上しました。
[画像: https://prtimes.jp/i/123990/39/resize/d123990-39-f1b2c7b5888bd1f181b8-0.png ]
特長
・お客様(問い合わせ者)側の音声認識精度がさらに向上
次世代メディア処理AIとの連携により、お客様側の発話内容の音声認識率が最大9%(*3)向上するなど、話し言葉やくだけた表現などもさらに認識することができ、高精度な音声認識を実現しました。これにより、問い合わせ業務の生産性の向上が図れます。
今後の展開
NTTテクノクロスでは、認識テキストと次世代メディア処理AI から得られる感情情報を組み合わせた通話情報の見える化や、認識テキストと生成AIを組み合わせたより高度な機能の提供により、コールセンターの業務の効率化やCX(顧客体験)向上に貢献します。
価格
実際の利用環境などにより構成や価格が変わるため、詳細はお問い合わせください。
ForeSight Voice Miningとは
FSVMは、音声認識技術や感情分析技術、言語解析技術を活用したコールセンターAIプロダクトです。音声認識はNTTの研究所の技術を元に、通話内容のテキスト化や要約を行っています。また、通話内容に応じたマニュアルの自動表示、通話のモニタリング機能などにより、コールセンターや自治体などにおける電話応対業務の応対力向上を支援し、CX(顧客体験)向上を実現します。※導入実績:5万6千席(2024年7月末時点)
用語解説・注釈
*1:次世代メディア処理AIは、NTTコンピュータ&データサイエンス研究所が開発した、音声音響・画像映像・自然言語といったマルチメディアを統合的にオールインワンで扱うことで、人間の脳に近い情報処理機構を実現したAI技術です。
*2:End-to-End音声認識技術とは、音声データを直接テキストにする手法です。音声からテキストへの変換をディープニューラルネットワークにより一括で行えます。シンプルな構成かつ音響モデル・認識辞書・言語モデルを組み合わせた方式よりも上回る精度を実現します。
*3:認識精度の検証はコールセンターの実通話データを用いて実施しています。
*「ForeSight Voice Mining」はNTTテクノクロス株式会社の登録商標です。
* 記載されている商品名・会社名などの固有名詞は一般に該当する会社もしくは組織の商標または登録商標です。