「入力音声に適した顔画像生成AI技術」の論文が、音声処理系トップカンファレンス INTERSPEECH 2023に採択
[23/08/18]
提供元:共同通信PRワイヤー
提供元:共同通信PRワイヤー
電話において通話相手の顔が分からない時に、音声からアバターを生成して画面に表示するといった応用に期待
株式会社RevComm(レブコム、本社:東京都渋谷区、代表取締役:會田武史)の研究開発組織、RevComm Research(レブコム・リサーチ、RCR)による「入力音声に適した顔画像の生成(音声−顔変換)」に関する論文が、音声処理系トップカンファレンス「INTERSPEECH 2023」に採択されました。
【画像:https://kyodonewsprwire.jp/img/202308188186-O1-Zl2bmC5o】
INTERSPEECHとは
INTERSPEECHは、International Speech Communication Association (ISCA) が主催する音声言語処理分野で最も大規模かつ重要な国際会議です。この会議には、自然科学・人文科学の別け隔てなく、世界各国の音声言語処理の研究者が参加し、人間及び機械における音声言語の処理に関する基礎から応用まで包括する学際的な研究発表と討議が行われます。そして、この会議で発表された最新の研究成果を通じて、広く社会の発展や向上に寄与することを目的としています。採択された論文は8月20〜24日にアイルランドのダブリンで開催される「INTERSPEECH 2023」にて発表を行います。
論文内容
RCRの研究の成果として、シニアリサーチエンジニアの加藤集平、リサーチディレクターの橋本泰一が、入力音声に適した顔画像の生成(音声−顔変換)に関する論文「Speech-to-Face Conversion Using Denoising Diffusion Probabilistic Models」を「INTERSPEECH2023」に投稿し、採択されました。レブコムは、筑波大学や京都大学との共同研究の成果として、INTERSPEECHに論文を採択されたことがありますが、レブコム単著としては今回が初の採択となります。
本研究は、画像生成AI技術を音声に応用したもので、音声データを入力すると、その声で喋りそうな顔をAIが生成します。従来よりも高品質な顔画像を生成できる技術を開発しました。
顔画像を生成するモデルについて、従来の手法ではなく、テキストから画像を生成するタスクにおいて最高性能を達成している、拡散モデルを新たに導入し、音声−顔変換のタスクにおいても高品質の画像を生成できることを示しました。
また、動画から抽出した音声−顔画像のペアデータのみを用いたモデル訓練の構造を見直すことで、写真由来の高解像度の顔画像単独のデータを訓練データとして使用できるようにしました。これにより、顔画像出力の解像度を大幅に向上させることに成功しました。
本研究の成果は、電話において通話相手の顔が分からない時に、音声からアバターを生成して画面に表示することで、コミュニケーション促進につながるという将来的な応用が期待されます。
このたび採択された論文
Speech-to-Face Conversion Using Denoising Diffusion Probabilistic Models
Shuhei Kato, Taiichi Hashimoto (RevComm, Inc., Japan)
論文の詳細はこちら
https://www.isca-speech.org/archive/interspeech_2023/kato23_interspeech.html
RCRはAI技術領域にイノベーションをもたらし、コミュニケーションをより豊かにしていくことを目指しています。そのために、今後も音声・言語・画像の領域に関わる研究開発を推進し、国内外への学術的貢献や製品・サービスのAI技術の深化を積極的に行います。
「RevComm Research(レブコム・リサーチ、 RCR)」とは
「RCR」は、人びとがお互いをよくわかりあえる社会を目指し、コミュニケーションの新しい形について研究開発する組織です。人は他者とのコミュニケーションの中でしばしば摩擦や不平等な事態が起き、お互いに理解できない、信頼できない場面が引き起こされます。そのような摩擦をなくすための技術を開発し、より柔軟で誤解のない適切なコミュニケーションができる環境作りを進めます。 また、「RCR」には、「Research for Communication Revolution」の意味も含まれています。「コミュニケーションを再発明し、人が人を想う社会を創る。」という企業理念のもと、音声技術とAIの研究開発により、コミュニケーション課題の解決に取り組みます。
RCRサイト:https://www.revcomm.co.jp/rcr/
これまでの活動実績:https://www.revcomm.co.jp/rcr/information/
【画像:https://kyodonewsprwire.jp/img/202308188186-O2-T8g7wTT0】
株式会社RevComm 会社概要
「コミュニケーションを再発明し、人が人を想う社会を創る。」という理念のもと、音声技術とAIにより、コミュニケーション課題を解決する企業です。
音声解析AI電話「MiiTel」は、インサイドセールス市場を中心に、営業やコールセンター業務におけるトークの可視化とセルフコーチング、テレワーク体制構築にご活用いただいています。また、AI搭載オンライン会議解析ツール「MiiTel Meetings」は、複数人でのオンライン会議の解析や振り返りが可能となり、営業の成約率を飛躍させます。オフライン(対面)の商談を可視化する「MiiTel RecPod(α版)」の提供も開始し、コミュニケーションが発生するすべての場所における会話のビッグデータ化を実現します。
Forbes JAPAN「日本の起業家ランキング TOP20」、週刊東洋経済「すごいベンチャー100」に選出されたほか、2023年4月にはアジア企業で唯一、米国「Forbes AI 50 2023」に選出、2023年5月にはデロイト トーマツ グループ「Technology Fast 50 2022 Japan」で1位を受賞しました。
・企業名 : 株式会社RevComm
・所在地 : 150-0002東京都渋谷区渋谷1-3-9 ヒューリック渋谷一丁目ビル7階
・代表者 : 會田 武史
・事業内容 : AI × 音声のソフトウェア・データベースの開発
・企業サイト: https://www.revcomm.co.jp/
※記載されている会社名および商品・製品・サービス名(ロゴマーク等を含む)は、各社の商標または各権利者の登録商標です
株式会社RevComm(レブコム、本社:東京都渋谷区、代表取締役:會田武史)の研究開発組織、RevComm Research(レブコム・リサーチ、RCR)による「入力音声に適した顔画像の生成(音声−顔変換)」に関する論文が、音声処理系トップカンファレンス「INTERSPEECH 2023」に採択されました。
【画像:https://kyodonewsprwire.jp/img/202308188186-O1-Zl2bmC5o】
INTERSPEECHとは
INTERSPEECHは、International Speech Communication Association (ISCA) が主催する音声言語処理分野で最も大規模かつ重要な国際会議です。この会議には、自然科学・人文科学の別け隔てなく、世界各国の音声言語処理の研究者が参加し、人間及び機械における音声言語の処理に関する基礎から応用まで包括する学際的な研究発表と討議が行われます。そして、この会議で発表された最新の研究成果を通じて、広く社会の発展や向上に寄与することを目的としています。採択された論文は8月20〜24日にアイルランドのダブリンで開催される「INTERSPEECH 2023」にて発表を行います。
論文内容
RCRの研究の成果として、シニアリサーチエンジニアの加藤集平、リサーチディレクターの橋本泰一が、入力音声に適した顔画像の生成(音声−顔変換)に関する論文「Speech-to-Face Conversion Using Denoising Diffusion Probabilistic Models」を「INTERSPEECH2023」に投稿し、採択されました。レブコムは、筑波大学や京都大学との共同研究の成果として、INTERSPEECHに論文を採択されたことがありますが、レブコム単著としては今回が初の採択となります。
本研究は、画像生成AI技術を音声に応用したもので、音声データを入力すると、その声で喋りそうな顔をAIが生成します。従来よりも高品質な顔画像を生成できる技術を開発しました。
顔画像を生成するモデルについて、従来の手法ではなく、テキストから画像を生成するタスクにおいて最高性能を達成している、拡散モデルを新たに導入し、音声−顔変換のタスクにおいても高品質の画像を生成できることを示しました。
また、動画から抽出した音声−顔画像のペアデータのみを用いたモデル訓練の構造を見直すことで、写真由来の高解像度の顔画像単独のデータを訓練データとして使用できるようにしました。これにより、顔画像出力の解像度を大幅に向上させることに成功しました。
本研究の成果は、電話において通話相手の顔が分からない時に、音声からアバターを生成して画面に表示することで、コミュニケーション促進につながるという将来的な応用が期待されます。
このたび採択された論文
Speech-to-Face Conversion Using Denoising Diffusion Probabilistic Models
Shuhei Kato, Taiichi Hashimoto (RevComm, Inc., Japan)
論文の詳細はこちら
https://www.isca-speech.org/archive/interspeech_2023/kato23_interspeech.html
RCRはAI技術領域にイノベーションをもたらし、コミュニケーションをより豊かにしていくことを目指しています。そのために、今後も音声・言語・画像の領域に関わる研究開発を推進し、国内外への学術的貢献や製品・サービスのAI技術の深化を積極的に行います。
「RevComm Research(レブコム・リサーチ、 RCR)」とは
「RCR」は、人びとがお互いをよくわかりあえる社会を目指し、コミュニケーションの新しい形について研究開発する組織です。人は他者とのコミュニケーションの中でしばしば摩擦や不平等な事態が起き、お互いに理解できない、信頼できない場面が引き起こされます。そのような摩擦をなくすための技術を開発し、より柔軟で誤解のない適切なコミュニケーションができる環境作りを進めます。 また、「RCR」には、「Research for Communication Revolution」の意味も含まれています。「コミュニケーションを再発明し、人が人を想う社会を創る。」という企業理念のもと、音声技術とAIの研究開発により、コミュニケーション課題の解決に取り組みます。
RCRサイト:https://www.revcomm.co.jp/rcr/
これまでの活動実績:https://www.revcomm.co.jp/rcr/information/
【画像:https://kyodonewsprwire.jp/img/202308188186-O2-T8g7wTT0】
株式会社RevComm 会社概要
「コミュニケーションを再発明し、人が人を想う社会を創る。」という理念のもと、音声技術とAIにより、コミュニケーション課題を解決する企業です。
音声解析AI電話「MiiTel」は、インサイドセールス市場を中心に、営業やコールセンター業務におけるトークの可視化とセルフコーチング、テレワーク体制構築にご活用いただいています。また、AI搭載オンライン会議解析ツール「MiiTel Meetings」は、複数人でのオンライン会議の解析や振り返りが可能となり、営業の成約率を飛躍させます。オフライン(対面)の商談を可視化する「MiiTel RecPod(α版)」の提供も開始し、コミュニケーションが発生するすべての場所における会話のビッグデータ化を実現します。
Forbes JAPAN「日本の起業家ランキング TOP20」、週刊東洋経済「すごいベンチャー100」に選出されたほか、2023年4月にはアジア企業で唯一、米国「Forbes AI 50 2023」に選出、2023年5月にはデロイト トーマツ グループ「Technology Fast 50 2022 Japan」で1位を受賞しました。
・企業名 : 株式会社RevComm
・所在地 : 150-0002東京都渋谷区渋谷1-3-9 ヒューリック渋谷一丁目ビル7階
・代表者 : 會田 武史
・事業内容 : AI × 音声のソフトウェア・データベースの開発
・企業サイト: https://www.revcomm.co.jp/
※記載されている会社名および商品・製品・サービス名(ロゴマーク等を含む)は、各社の商標または各権利者の登録商標です