データサイエンスフェスティバル最終発表会への参加

Start todayにより開催されたデータサイエンスフェスティバル（zozotownの閲覧履歴データの解析）の最終発表会に参加してきた。
https://lpc.zozo.jp/recontest/

最終発表会では、上位５チームのプレゼンと最終結果発表が行われた。賞金は１位が１００万円、その他５０位以内（約３００チーム中）が５万円のzozotownの商品券である。私は以下のページに記載の暫定結果では、５０位以内に入っていなかっただが、最終結果では３０位代に入ることができ、商品券を頂きました。。。前澤社長ありがとうございます！
https://lpc.zozo.jp/recontest/ranking/

５件の発表に関しては、全体としてナイーブなアプローチを採用している印象を受けた。ここでいうナイーブなアプローチとは、人間がドメイン知識をフルに使って仮説・検証を繰り返し、予測結果を見ながら、人間が予測モデルを作りこんでいくようなアプローチである。このようなアプローチは、今回のコンテストで上位になることは可能ではあっても、データごとに人間が試行錯誤を繰り返す必要があるため、汎用的とは言えない。例えば、５件とも試行錯誤を繰り返すなかで、予測期間（5月1日～5月7日）の１日前4月30日の閲覧数を使うことが予測結果を向上させることを探り当てたようで、その閲覧数をベースにして予測モデルを作りこんでいる。しかし、予測期間によっては、1日前の閲覧数がそれほど有効ではなく、もしかしたら過去1週間または1か月間の閲覧数を使うことの方が有効かもしれない。その場合は、このアプローチでは、予測期間ごとに人間が試行錯誤して有効な期間を探さなければならないということになる。

以下、5件の中で私が個人的に面白いと思った２件のアプローチを簡単に紹介する。

チーム「からき亭」は、2012年「データ解析コンペティション課題設定で最優秀賞」（課題は、不動産賃貸ポータルサイトのアクセスログを解析し，ユーザに物件をレコメンドする）を取った、関心度と忘却度との２次元確率表を用いた方式を３次元に拡張した方式を用いた。
http://ci.nii.ac.jp/els/110009757929.pdf?id=ART0010247319&type=pdf&lang=jp&host=cinii&order_no=&ppv_type=0&lang_sw=&no=1415433591&cp=

チーム「MathEng」は、商品のレコメンドの指針として次の３つの仮説を立てた。
１）閲覧数が多い商品ほど良い
２）直近に閲覧した商品ほど良い
３）他のグループでも多く閲覧されている商品ほど良い

そして、次の２つのレコメンドモデルを適用した。
１）リターゲティングモデル
直近２週間の商品閲覧数、直近２日間の他のグループの商品閲覧数、カラー種類数及びグループ規模などを特徴量としたロジスティック回帰モデル

商品人気度は予測期間の直近１日の商品閲覧数

２）人気商品モデル

全顧客グループのログから商品人気度を算出
商品人気度は予測期間の直近１日の商品閲覧数

そして、これらのモデルを１つ目のロジスティック回帰モデルの出力（事後確率）に基づいて選択している。

今回私は、個人的に時系列予測の勉強を目的に参加したこともあって、ドメイン知識や仮説・検証のプロセスはあえて取らず、一般的な時系列予測をそのまま採用した。具体的には、商品ごとに、1週間ごとの閲覧数（予測期間の1週間にあわせて）を学習データとする「ARIMA」、「差の平均法」及び「指数平滑法」を用いて予測してみて、最終的に結果がよかった「差の平均」を採用した。もし閲覧数を計算する期間などにおいて、仮説・検証の試行錯誤して、閲覧数の計算する期間を1日単位が良いことを探り当てていれば、結果はもう少しよかったかもしれない。