データ量を約3倍に増量しアップデート 日本語音声コーパス「LaboroTVSpeech2」を提供開始
[24/04/30]
提供元:PRTIMES
提供元:PRTIMES
オーダーメイドのAI・人工知能ソリューション開発およびAI導入コンサルティング『カスタムAI』を展開する株式会社Laboro.AI(ラボロエーアイ、東京都中央区、代表取締役CEO椎橋徹夫・代表取締役COO兼CTO藤原弘将。以下、当社)は、2020年にTV録画から長時間音声と字幕テキストを抽出して音声コーパスを自動構築する独自システムを用いた音声データから構築した日本語音声コーパス「LaboroTVSpeech(ラボロティービースピーチ)」を開発し、学術研究用に無償公開しておりましたが、この度、データ量を約3倍に増量し、より高品質な音声データとしてアップデートした「LaboroTVSpeech2」を開発し、提供を開始いたしました。
[画像1: https://prtimes.jp/i/27192/40/resize/d27192-40-f3cb7b7d771aa7c41f66-0.jpg ]
LaboroTVSpeech2開発背景
昨今、AIと機械学習の分野では、大規模なデータセットの存在が重要になってきています。例えば、生成AIで注目を集める言語モデルGPTでは、GPT-1からGPT-4への進化においてトレーニングデータサイズの劇的な増加が行われており、現代に求められるAIモデルを開発するためには、大量かつ高品質なデータがAIの精度に大きなプラス効果をもたらすことを示しました。
当社でも、2020年に提供を開始した旧版LaboroTVSpeechについて、より高品質な音声データを提供したいという思いから、リリース後もテレビ番組データの収集を継続し、今般の開発にいたりました。
LaboroTVSpeech2について
LaboroTVSpeech2は、旧版LaboroTVSpeechと同様にB-CASカードによるアクセス制限がないワンセグ放送を利用し、2022年12月〜2023年11月放送、12ジャンルの39,248のTV番組、計6,620時間のデータから構成されております。
旧版LaboroTVSpeechが12ジャンルの9,142のTV番組、計2,049時間のデータで構成されていることと比べると、そのデータ量は約3倍と大幅に増加しております。
[画像2: https://prtimes.jp/i/27192/40/resize/d27192-40-f70b56fe09c00346c903-1.png ]
LaboroTVSpeech2を構成する番組ジャンルと音声の長さ
なお、LaboroTVSpeech2は、旧版と同様に当社が独自開発したシステムにより構築しています。具体的には、テレビ番組の長時間の音声データと、その不完全な書き起こしである字幕データの時間的な対応関係を抽出する手法である準教師付きデコーディング(lightly-supervised decoding)と呼ばれる手法をベースとしています。これにより、本来であればテレビ番組のデータから音声と字幕がセットになって抽出されるべきところ、先のような何らかの問題で対応した情報として取得できなかった場合に、準教師付デコーディングによる音声と字幕の対応関係の抽出を繰り返し行うことで、一度対応が取れなかった区間からも可能な限りデータ抽出を行う仕組みを採用しています。
LaboroTVSpeech2比較実験について
LaboroTVSpeech2を用いたモデルの音声認識の性能を確認するため、日本語のTEDxを用いて構築した独自の音声認識システム評価用データセット(※1)を用意した上で、旧版LaboroTVSpeechとの比較実験を行いました。音声認識のツールキットとしてはEnd-to-End方式を採用するESPnetを用いました。
その結果、文字誤認識率(CER)が旧版の13.0%に対して11.4%となり、1.6%の改善が見られたことを確認いたしました(※2)。
(※1)Youtube上のプレイリスト「TEDx talks in Jpanaese」に含まれる動画から音声と字幕データを取得したもの。
(※2)上記の結果は、実環境での音声認識システムの性能とは異なる場合があります。
LaboroTVSpeech2の利用について
LaboroTVSpeech2に含まれる音声及びテキストデータの権利は、元のテレビ放送の著作権者に帰属していますが、著作権法30条の4に基づき、情報解析等の用途のために、大学等の学術研究機関に対して無償で公開いたします。ただし、元のテレビ番組の音声を再構成し鑑賞する事を防ぐために、発話単位でランダムに並び替えられており、かつ番組名や放送局等の付加情報は含まれておりません。
ご利用にあたっては、LaboroTVSpeech2の利用相談の旨を明記の上、当社HP内お問い合わせフォーム(https://laboro.ai/contact/other/)よりお問い合わせください。また、営利企業における研究開発用途や商用目的での利用をご希望の場合も、同じく当社HP内お問い合わせフォームからご相談ください。
なお、お問い合わせをいただいてから配布まで最短3週間前後のお時間を頂戴しておりますことを何卒ご了承ください。
ご参考情報
■株式会社Laboro.AI 会社概要
会 社 名:株式会社Laboro.AI(ラボロ エーアイ)
所 在 地:〒104-0061 東京都中央区銀座八丁目11-1
代 表 者:代表取締役CEO 椎橋徹夫・代表取締役COO兼CTO 藤原弘将
設 立:2016年4月1日
事業内容:機械学習を活用したオーダーメイド型AI『カスタムAI』の開発
カスタムAI導入のためのコンサルティング
U R L : https://laboro.ai/
株式会社Laboro.AIは、オーダーメイドのAIソリューション『カスタムAI』の開発・提供を事業とし、アカデミア(学術分野)で研究される先端のAI・機械学習技術をビジネスへとつなぎ届け、すべての産業の新たな姿をつくることをミッションに掲げています。業界に隔たりなく様々な企業のコアビジネスの改革を支援しており、その専門性から支持を得る国内有数のAIスペシャリスト集団です。
[画像1: https://prtimes.jp/i/27192/40/resize/d27192-40-f3cb7b7d771aa7c41f66-0.jpg ]
LaboroTVSpeech2開発背景
昨今、AIと機械学習の分野では、大規模なデータセットの存在が重要になってきています。例えば、生成AIで注目を集める言語モデルGPTでは、GPT-1からGPT-4への進化においてトレーニングデータサイズの劇的な増加が行われており、現代に求められるAIモデルを開発するためには、大量かつ高品質なデータがAIの精度に大きなプラス効果をもたらすことを示しました。
当社でも、2020年に提供を開始した旧版LaboroTVSpeechについて、より高品質な音声データを提供したいという思いから、リリース後もテレビ番組データの収集を継続し、今般の開発にいたりました。
LaboroTVSpeech2について
LaboroTVSpeech2は、旧版LaboroTVSpeechと同様にB-CASカードによるアクセス制限がないワンセグ放送を利用し、2022年12月〜2023年11月放送、12ジャンルの39,248のTV番組、計6,620時間のデータから構成されております。
旧版LaboroTVSpeechが12ジャンルの9,142のTV番組、計2,049時間のデータで構成されていることと比べると、そのデータ量は約3倍と大幅に増加しております。
[画像2: https://prtimes.jp/i/27192/40/resize/d27192-40-f70b56fe09c00346c903-1.png ]
LaboroTVSpeech2を構成する番組ジャンルと音声の長さ
なお、LaboroTVSpeech2は、旧版と同様に当社が独自開発したシステムにより構築しています。具体的には、テレビ番組の長時間の音声データと、その不完全な書き起こしである字幕データの時間的な対応関係を抽出する手法である準教師付きデコーディング(lightly-supervised decoding)と呼ばれる手法をベースとしています。これにより、本来であればテレビ番組のデータから音声と字幕がセットになって抽出されるべきところ、先のような何らかの問題で対応した情報として取得できなかった場合に、準教師付デコーディングによる音声と字幕の対応関係の抽出を繰り返し行うことで、一度対応が取れなかった区間からも可能な限りデータ抽出を行う仕組みを採用しています。
LaboroTVSpeech2比較実験について
LaboroTVSpeech2を用いたモデルの音声認識の性能を確認するため、日本語のTEDxを用いて構築した独自の音声認識システム評価用データセット(※1)を用意した上で、旧版LaboroTVSpeechとの比較実験を行いました。音声認識のツールキットとしてはEnd-to-End方式を採用するESPnetを用いました。
その結果、文字誤認識率(CER)が旧版の13.0%に対して11.4%となり、1.6%の改善が見られたことを確認いたしました(※2)。
(※1)Youtube上のプレイリスト「TEDx talks in Jpanaese」に含まれる動画から音声と字幕データを取得したもの。
(※2)上記の結果は、実環境での音声認識システムの性能とは異なる場合があります。
LaboroTVSpeech2の利用について
LaboroTVSpeech2に含まれる音声及びテキストデータの権利は、元のテレビ放送の著作権者に帰属していますが、著作権法30条の4に基づき、情報解析等の用途のために、大学等の学術研究機関に対して無償で公開いたします。ただし、元のテレビ番組の音声を再構成し鑑賞する事を防ぐために、発話単位でランダムに並び替えられており、かつ番組名や放送局等の付加情報は含まれておりません。
ご利用にあたっては、LaboroTVSpeech2の利用相談の旨を明記の上、当社HP内お問い合わせフォーム(https://laboro.ai/contact/other/)よりお問い合わせください。また、営利企業における研究開発用途や商用目的での利用をご希望の場合も、同じく当社HP内お問い合わせフォームからご相談ください。
なお、お問い合わせをいただいてから配布まで最短3週間前後のお時間を頂戴しておりますことを何卒ご了承ください。
ご参考情報
■株式会社Laboro.AI 会社概要
会 社 名:株式会社Laboro.AI(ラボロ エーアイ)
所 在 地:〒104-0061 東京都中央区銀座八丁目11-1
代 表 者:代表取締役CEO 椎橋徹夫・代表取締役COO兼CTO 藤原弘将
設 立:2016年4月1日
事業内容:機械学習を活用したオーダーメイド型AI『カスタムAI』の開発
カスタムAI導入のためのコンサルティング
U R L : https://laboro.ai/
株式会社Laboro.AIは、オーダーメイドのAIソリューション『カスタムAI』の開発・提供を事業とし、アカデミア(学術分野)で研究される先端のAI・機械学習技術をビジネスへとつなぎ届け、すべての産業の新たな姿をつくることをミッションに掲げています。業界に隔たりなく様々な企業のコアビジネスの改革を支援しており、その専門性から支持を得る国内有数のAIスペシャリスト集団です。