ソケッツ、2年連続で的中した正解率79%の紅白勝敗予測モデルで、今年も勝敗を予測
[19/01/04]
提供元:PRTIMES
提供元:PRTIMES
株式会社ソケッツ(本社:東京都渋谷区、代表取締役社長:浦部浩司、以下「ソケッツ」)は、昨年、一昨年と連続で的中した紅白歌合戦の勝敗予測において、3年目となる今年も紅白勝敗を予測、そのレポートを公開いたしました。
本予測モデルは、オリジナルの「感性メタ(※)」を教師データとして、2部制がはじまった第40回1989(平成元年)以降から、本年度第69回2018(平成30年)の紅白歌合戦で、紅白それぞれに分かれて披露された楽曲を対象に歌詞データから“感情”を分析、勝敗を予測しています。
(※)感性メタとは、特に日本の繊細な感性表現にこだわり、たとえば音楽の歌詞においては全てを読み、内容の真意を理解してから付与するなど機械には出来ない膨大な作業によって生まれた国内唯一のエンターテイメントメタ(ゲノム)データです。
紅白歌合戦の曲目の歌詞データから感情を分析、勝敗を予測 3年目
一昨年の2016年にはじめたソケッツの紅白勝敗予測ですが、早いもので今年で3年目となりました。
昨年まで2戦全勝という結果を残していますが、果たして3連勝となるでしょうか?!今年も今までの方針を変えずに挑戦します。
――――――――――――――――――――――――――――
本勝敗予測に関するポイントおさらい
――――――――――――――――――――――――――――
それでは、本題の紅白勝敗予測の取り組み概要、予測モデル構築のポイントと結果を簡単に振り返っておきたいと思います。
▼コンセプト
紅白披露楽曲の歌詞データからソケッツ感情分析エンジン(特許出願中)で10種類の感情スコアを算出、それを年代・紅白の組ごとに数値を集計、個々の感情スコア値ごとに正規化。ロジスティック回帰分析(※1)から構築したソケッツ紅白勝敗予測モデルで勝敗を予測
[画像1: https://prtimes.jp/i/23398/23/resize/d23398-23-123346-0.png ]
▼ポリシー
楽曲の歌詞データから算出した感情スコアと過去の勝敗を元に、出演するアーティストやグループの歌や演奏、衣装やパフォーマンスなどの他の相関、因子となりうる変数を入れない非常にシンプルなモデルで、感情スコアの性能と可能性を検証
ソケッツ感情分析エンジン(特許出願中)のみ各種チューニング、バージョンアップを行なったその年の最新モデルで、対象楽曲の感情スコア値を算出、最新のスコアを利用する
▼前提条件
対象期間:第40回1989(平成元年)以降
※紅組・白組の垣根を越えて披露された楽曲は対象外とする
※『紅白エディション』はオリジナル楽曲の歌詞を解析対象とする※メドレーは当日まで曲内容が分からないため対象外とする
※メドレーは当日まで曲内容が分からないため対象外とする
▼今年度(2018年)対象楽曲サマリ
全30回、全披露楽曲1,552曲 うち紅組776曲、白組776曲
メドレーなどの除外を含む全対象楽曲1,431曲 分析対象率92%
内訳:紅組分析対象楽曲729曲 分析対象率94%
白組分析対象楽曲702曲 分析対象率90%
※2018/12/26に白組出場決定が追加で発表された、米津玄師さん「Lemon」も対象に含む
(※1)ロジスティック回帰分析とは、ある現象の発生する確率を、その現象の起因を説明するために観測された変数群によって説明をするための分析手法。今回の目的では、勝ち(1.0)か負け(0.0)かを、その現象の規制を説明するために観測された変数群としてソケッツ独自の感情スコアを利用して予測。このとき 勝ち(1)/負け(0) という値で得られている変数は 1 もしくは 0 という 2値のいずれかで示され、この 1 もしくは 0 という値を、他の説明変数が決定付けている、もしくは影響を与えているとみなして分析を行ない、数式を構築します。
さらに詳しい内容については、過去2年のレポート『紅白歌合戦の曲目の歌詞データから感情を分析、勝敗を予測してみる』をご参照ください。
2016年初回勝敗予測レポート:http://www.sockets.co.jp/kansei/kansei_report01.html
2017年2回目勝敗予測レポート:http://www.sockets.co.jp/kansei/kansei_report07.html
――――――――――――――――――――――――――――
最新の感情分析エンジンで算出した感情スコアを分析、そして予測
――――――――――――――――――――――――――――
上述の通り、昨年同様、過去分の対象楽曲もすべて新たに感情スコアを算出し直し、1から分析、予測していきました。
分析手法は原則、昨年と同様です。ロジスティック回帰分析の結果を元にモデリングしていきます。
2016年度は「哀しみ」の値が高いと勝つ要因である影響度が高いという結果、昨年2017年度は「怒り・苛立ち」、次いで「嫌い・不愉快」「もどかしさ」の値が高いと負ける要因になるという結果、2018年今年は、白組では「哀しみ」「好き・喜び」、紅組では「昂ぶり」が高いと勝つ要因になるという結果でした。そして、モデリング後の評価結果は、AUC(※2)= 0.83で、昨年の0.796 と比べ、精度の向上が確認できました。
[画像2: https://prtimes.jp/i/23398/23/resize/d23398-23-292790-1.png ]
(※2)ROC曲線(検査の性能を2次元のグラフに表したもの)を作成した時に、グラフの曲線より下の部分の面積をAUC(Area Under the Curve)と言います。AUCは0から1までの値をとり、値が1に近いほど判別能が高いことを示します。判別能がランダムであるときには、AUC = 0.5となり、0.5以上であれば、2値の判別において、精度が出ている、ということになります。
では、具体的な今年の予測モデルに当てはめた時の勝敗実績の正解率を見てみましょう。
[画像3: https://prtimes.jp/i/23398/23/resize/d23398-23-592783-2.png ]
対象となる昨年までの過去29回のうち、予測モデルに当てはめたときに、
・紅が勝つ予測:4件
○紅が実際に優勝:4件 ×白が実際に優勝:0件 ⇒正解率100%
・白が勝つ予測:25件
○白が実際に優勝:19件 ×紅が実際に優勝:6件 ⇒正解率76%
全29回分トータルで、正解率79%、昨年のモデル結果と同正解率となりました。
ちなみに、過去の結果は以下になります。
▼一昨年初回 正解率96%
[画像4: https://prtimes.jp/i/23398/23/resize/d23398-23-178805-3.png ]
▼昨年2回 正解率79%
[画像5: https://prtimes.jp/i/23398/23/resize/d23398-23-375119-4.png ]
初年度正解率96%、2年目正解率79%、そして今年、3年目正解率79%のモデルで予測に挑んだ結果は…
[画像6: https://prtimes.jp/i/23398/23/resize/d23398-23-581606-5.png ]
紅組、白組の数値を比較して高い値の方が「勝利する」となるため、今年は“紅組が勝利”という予測になりました!
――――――――――――――――――――――――――――
最後に
――――――――――――――――――――――――――――
ソケッツは、「人の気持ちをつなぐ」という事業目的を掲げ、エンターテイメント分野を中心として、主にデータ提供、専門検索、レコメンド/パーソナライズドサービスを提供しつつ、日本におけるエンターテイメント×テクノロジーのフロントランナーの1社として様々な取り組みを行っています。
そうした実験的取り組みのひとつが本紅白勝敗予測ではありますが、元となっている要素技術やノウハウの実用化、プロダクト化も並行して進んでいます。
かねてより触れさせていただいている音楽とAIテクノロジーの連携に関しても、自分のことを良く理解してくれて、かつマニアックなまでに音楽に詳しい自分だけの“音楽ともだち”をコンセプトに、悩みも孤独も喜びも悲しみや葛藤も希望も受け止めてくれて会話をしながらその人に寄り添った選曲で、くらしの中でもっと音楽と触れる機会が増えること、多様性のある作品の価値が、より生まれ、高まることを目指しています。
また、今回ご紹介させていただいたソケッツオリジナルメタデータを活用したメタ分析を特徴とした分析事業もアーティスト・楽曲分析ソフトウェアとして、音楽専門AIを活用した制作支援やプロモーション支援提供へ次のステージへ向けて推進中です。
エンターテイメント×テクノロジー、夜明け直前の日本を牽引していくべく、さらなるスピードで進化していくソケッツに来年もご期待ください。
「ソケッツレポート」の記事のご利用、また共同研究などに関するご相談はこちらのお問い合わせフォームよりご連絡ください。
http://www.sockets.co.jp/inquiry/contact/policy.html
●公開日
平成30年12月28日(金)
●ソケッツレポート
http://www.sockets.co.jp/kansei/kansei_report08.html
本予測モデルは、オリジナルの「感性メタ(※)」を教師データとして、2部制がはじまった第40回1989(平成元年)以降から、本年度第69回2018(平成30年)の紅白歌合戦で、紅白それぞれに分かれて披露された楽曲を対象に歌詞データから“感情”を分析、勝敗を予測しています。
(※)感性メタとは、特に日本の繊細な感性表現にこだわり、たとえば音楽の歌詞においては全てを読み、内容の真意を理解してから付与するなど機械には出来ない膨大な作業によって生まれた国内唯一のエンターテイメントメタ(ゲノム)データです。
紅白歌合戦の曲目の歌詞データから感情を分析、勝敗を予測 3年目
一昨年の2016年にはじめたソケッツの紅白勝敗予測ですが、早いもので今年で3年目となりました。
昨年まで2戦全勝という結果を残していますが、果たして3連勝となるでしょうか?!今年も今までの方針を変えずに挑戦します。
――――――――――――――――――――――――――――
本勝敗予測に関するポイントおさらい
――――――――――――――――――――――――――――
それでは、本題の紅白勝敗予測の取り組み概要、予測モデル構築のポイントと結果を簡単に振り返っておきたいと思います。
▼コンセプト
紅白披露楽曲の歌詞データからソケッツ感情分析エンジン(特許出願中)で10種類の感情スコアを算出、それを年代・紅白の組ごとに数値を集計、個々の感情スコア値ごとに正規化。ロジスティック回帰分析(※1)から構築したソケッツ紅白勝敗予測モデルで勝敗を予測
[画像1: https://prtimes.jp/i/23398/23/resize/d23398-23-123346-0.png ]
▼ポリシー
楽曲の歌詞データから算出した感情スコアと過去の勝敗を元に、出演するアーティストやグループの歌や演奏、衣装やパフォーマンスなどの他の相関、因子となりうる変数を入れない非常にシンプルなモデルで、感情スコアの性能と可能性を検証
ソケッツ感情分析エンジン(特許出願中)のみ各種チューニング、バージョンアップを行なったその年の最新モデルで、対象楽曲の感情スコア値を算出、最新のスコアを利用する
▼前提条件
対象期間:第40回1989(平成元年)以降
※紅組・白組の垣根を越えて披露された楽曲は対象外とする
※『紅白エディション』はオリジナル楽曲の歌詞を解析対象とする※メドレーは当日まで曲内容が分からないため対象外とする
※メドレーは当日まで曲内容が分からないため対象外とする
▼今年度(2018年)対象楽曲サマリ
全30回、全披露楽曲1,552曲 うち紅組776曲、白組776曲
メドレーなどの除外を含む全対象楽曲1,431曲 分析対象率92%
内訳:紅組分析対象楽曲729曲 分析対象率94%
白組分析対象楽曲702曲 分析対象率90%
※2018/12/26に白組出場決定が追加で発表された、米津玄師さん「Lemon」も対象に含む
(※1)ロジスティック回帰分析とは、ある現象の発生する確率を、その現象の起因を説明するために観測された変数群によって説明をするための分析手法。今回の目的では、勝ち(1.0)か負け(0.0)かを、その現象の規制を説明するために観測された変数群としてソケッツ独自の感情スコアを利用して予測。このとき 勝ち(1)/負け(0) という値で得られている変数は 1 もしくは 0 という 2値のいずれかで示され、この 1 もしくは 0 という値を、他の説明変数が決定付けている、もしくは影響を与えているとみなして分析を行ない、数式を構築します。
さらに詳しい内容については、過去2年のレポート『紅白歌合戦の曲目の歌詞データから感情を分析、勝敗を予測してみる』をご参照ください。
2016年初回勝敗予測レポート:http://www.sockets.co.jp/kansei/kansei_report01.html
2017年2回目勝敗予測レポート:http://www.sockets.co.jp/kansei/kansei_report07.html
――――――――――――――――――――――――――――
最新の感情分析エンジンで算出した感情スコアを分析、そして予測
――――――――――――――――――――――――――――
上述の通り、昨年同様、過去分の対象楽曲もすべて新たに感情スコアを算出し直し、1から分析、予測していきました。
分析手法は原則、昨年と同様です。ロジスティック回帰分析の結果を元にモデリングしていきます。
2016年度は「哀しみ」の値が高いと勝つ要因である影響度が高いという結果、昨年2017年度は「怒り・苛立ち」、次いで「嫌い・不愉快」「もどかしさ」の値が高いと負ける要因になるという結果、2018年今年は、白組では「哀しみ」「好き・喜び」、紅組では「昂ぶり」が高いと勝つ要因になるという結果でした。そして、モデリング後の評価結果は、AUC(※2)= 0.83で、昨年の0.796 と比べ、精度の向上が確認できました。
[画像2: https://prtimes.jp/i/23398/23/resize/d23398-23-292790-1.png ]
(※2)ROC曲線(検査の性能を2次元のグラフに表したもの)を作成した時に、グラフの曲線より下の部分の面積をAUC(Area Under the Curve)と言います。AUCは0から1までの値をとり、値が1に近いほど判別能が高いことを示します。判別能がランダムであるときには、AUC = 0.5となり、0.5以上であれば、2値の判別において、精度が出ている、ということになります。
では、具体的な今年の予測モデルに当てはめた時の勝敗実績の正解率を見てみましょう。
[画像3: https://prtimes.jp/i/23398/23/resize/d23398-23-592783-2.png ]
対象となる昨年までの過去29回のうち、予測モデルに当てはめたときに、
・紅が勝つ予測:4件
○紅が実際に優勝:4件 ×白が実際に優勝:0件 ⇒正解率100%
・白が勝つ予測:25件
○白が実際に優勝:19件 ×紅が実際に優勝:6件 ⇒正解率76%
全29回分トータルで、正解率79%、昨年のモデル結果と同正解率となりました。
ちなみに、過去の結果は以下になります。
▼一昨年初回 正解率96%
[画像4: https://prtimes.jp/i/23398/23/resize/d23398-23-178805-3.png ]
▼昨年2回 正解率79%
[画像5: https://prtimes.jp/i/23398/23/resize/d23398-23-375119-4.png ]
初年度正解率96%、2年目正解率79%、そして今年、3年目正解率79%のモデルで予測に挑んだ結果は…
[画像6: https://prtimes.jp/i/23398/23/resize/d23398-23-581606-5.png ]
紅組、白組の数値を比較して高い値の方が「勝利する」となるため、今年は“紅組が勝利”という予測になりました!
――――――――――――――――――――――――――――
最後に
――――――――――――――――――――――――――――
ソケッツは、「人の気持ちをつなぐ」という事業目的を掲げ、エンターテイメント分野を中心として、主にデータ提供、専門検索、レコメンド/パーソナライズドサービスを提供しつつ、日本におけるエンターテイメント×テクノロジーのフロントランナーの1社として様々な取り組みを行っています。
そうした実験的取り組みのひとつが本紅白勝敗予測ではありますが、元となっている要素技術やノウハウの実用化、プロダクト化も並行して進んでいます。
かねてより触れさせていただいている音楽とAIテクノロジーの連携に関しても、自分のことを良く理解してくれて、かつマニアックなまでに音楽に詳しい自分だけの“音楽ともだち”をコンセプトに、悩みも孤独も喜びも悲しみや葛藤も希望も受け止めてくれて会話をしながらその人に寄り添った選曲で、くらしの中でもっと音楽と触れる機会が増えること、多様性のある作品の価値が、より生まれ、高まることを目指しています。
また、今回ご紹介させていただいたソケッツオリジナルメタデータを活用したメタ分析を特徴とした分析事業もアーティスト・楽曲分析ソフトウェアとして、音楽専門AIを活用した制作支援やプロモーション支援提供へ次のステージへ向けて推進中です。
エンターテイメント×テクノロジー、夜明け直前の日本を牽引していくべく、さらなるスピードで進化していくソケッツに来年もご期待ください。
「ソケッツレポート」の記事のご利用、また共同研究などに関するご相談はこちらのお問い合わせフォームよりご連絡ください。
http://www.sockets.co.jp/inquiry/contact/policy.html
●公開日
平成30年12月28日(金)
●ソケッツレポート
http://www.sockets.co.jp/kansei/kansei_report08.html