COUNT DOWN JAPANにおける、アーティストのタイムテーブルを予測する(前編)
ROCK IN JAPAN/COUNT DOWN JAPANは日本を代表する音楽フェスです。そのため、チケットを取るのも大変です。
ただこれには少し語弊があります。これらのフェスでは、何回かにわけてチケットの抽選が行われます。序盤のチケット抽選の段階では出演アーティストがまだ出そろっていないため、比較的容易にチケットを得ることができます。逆に、出演アーティスト/タイムテーブルが決まってくるほど倍率は高くなってきます。
「序盤の段階で、なんとか目当てのアーティストがいつ登場するかわからないか?」これは音楽ファンが毎年抱える悩みです。そこで、今回はその悩みにデータサイエンスの力で挑戦をしてみようと思います。そんなわけで、本記事はROCK IN JAPAN Advent Calendar 2018 1日目の記事です。
🙏Advent Calendarの締め切りに間に合わせる都合上、記事が前後編に分かれることをご容赦ください 🙏
予測方針
予測の仕方として、過去/直近のフェスのデータから推測を試みます。毎年出演しているアーティストは登場の確率が高いですし、その年台頭したバンドの情報などは直近のフェスに反映されます。
そこで、ROCK IN JAPAN/COUNT DOWN JAPAN双方のデータを作成します。その年のROCK IN JAPANの構成はCOUNT DOWN JAPANの構成にある程度寄与しているように思えるためです。ここで相関が取れれば、春先のフェス(VIVA LA ROCKやJAPAN JAM)から夏フェスの予測を立てることにも道筋がつくかもしれません。
データの準備
ROCK IN JAPAN/COUNT DOWN JAPANのデータセットをKaggleで公開しました。
データ元としては、Wikipediaを使用しています。フェスのサイトは毎年構成が異なるため、ここからとるのは困難なためです。一応COUNT DOWN JAPAN 17/18のサイトからは過去フェスのデータが取れるのですが、Wikipediaの場合アーティストの記事へのリンクなどもあるため、こちらの方がリッチな情報が取れると判断しました。
データの取得に使ったスクリプトはこちらです。
Wikipediaのテーブルからデータを取って、Pandasのデータフレームに落としています。こちらのデータを使って、分析を行っていきたいと思います。