覚え書きブログ

読者です 読者をやめる 読者になる 読者になる

データサイエンスフェスティバル最終発表会への参加

データ解析

Start todayにより開催されたデータサイエンスフェスティバル(zozotownの閲覧履歴データの解析)の最終発表会に参加してきた。
https://lpc.zozo.jp/recontest/



最終発表会では、上位5チームのプレゼンと最終結果発表が行われた。賞金は1位が100万円、その他50位以内(約300チーム中)が5万円のzozotownの商品券である。私は以下のページに記載の暫定結果では、50位以内に入っていなかっただが、最終結果では30位代に入ることができ、商品券を頂きました。。。
https://lpc.zozo.jp/recontest/ranking/


5件の発表に関しては、全体としてナイーブなアプローチを採用している印象を受けた。ここでいうナイーブなアプローチとは、人間がドメイン知識をフルに使って仮説・検証を繰り返し、予測結果を見ながら、人間が予測モデルを作りこんでいくようなアプローチである。このようなアプローチは、今回のコンテストで上位になることは可能ではあっても、データごとに人間が試行錯誤を繰り返す必要があるため、汎用的とは言えない。例えば、5件とも試行錯誤を繰り返すなかで、予測期間(5月1日~5月7日)の1日前4月30日の閲覧数を使うことが予測結果を向上させることを探り当てたようで、その閲覧数をベースにして予測モデルを作りこんでいる。しかし、予測期間によっては、1日前の閲覧数がそれほど有効ではなく、もしかしたら過去1週間または1か月間の閲覧数を使うことの方が有効かもしれない。その場合は、このアプローチでは、予測期間ごとに人間が試行錯誤して有効な期間を探さなければならないということになる。

以下、5件の中で私が個人的に面白いと思った2件のアプローチを簡単に紹介する。

チーム「からき亭」は、2012年「データ解析コンペティション課題設定で最優秀賞」(課題は、不動産賃貸ポータルサイトアクセスログを解析し,ユーザに物件をレコメンドする)を取った、関心度と忘却度との2次元確率表を用いた方式を3次元に拡張した方式を用いた。
CiNii 論文 -  2-C-12 関心度(Frequency)と忘却度(Recency)に基づくレコメンド手法 : サンプリングでは対応できないビッグデータの活用(特別セッション データ解析コンペティション)

チーム「MathEng」は、商品のレコメンドの指針として次の3つの仮説を立てた。
1)閲覧数が多い商品ほど良い
2)直近に閲覧した商品ほど良い
3)他のグループでも多く閲覧されている商品ほど良い

そして、次の2つのレコメンドモデルを適用した。
1)リターゲティングモデル
直近2週間の商品閲覧数、直近2日間の他のグループの商品閲覧数、カラー種類数及びグループ規模などを特徴量としたロジスティック回帰モデル

  • 商品人気度は予測期間の直近1日の商品閲覧数

2)人気商品モデル

  • 全顧客グループのログから商品人気度を算出
  • 商品人気度は予測期間の直近1日の商品閲覧数

そして、これらのモデルを1つ目のロジスティック回帰モデルの出力(事後確率)に基づいて選択している。

今回私は、個人的に時系列予測の勉強を目的に参加したこともあって、ドメイン知識や仮説・検証のプロセスはあえて取らず、一般的な時系列予測をそのまま採用した。具体的には、商品ごとに、1週間ごとの閲覧数(予測期間の1週間にあわせて)を学習データとする「ARIMA」、「差の平均法」及び「指数平滑法」を用いて予測してみて、最終的に結果がよかった「差の平均」を採用した。もし閲覧数を計算する期間などにおいて、仮説・検証の試行錯誤して、閲覧数の計算する期間を1日単位が良いことを探り当てていれば、結果はもう少しよかったかもしれない。