netflix prize is over, 時間経過による嗜好性の変化
米国のオンラインDVDレンタルサービス「Netflix」が、現在利用しているレコメンデーションシステムの性能をはじめに10%改善したチームに100万ドルの賞金を与えるという触れ込みで始まったnetflix prizeは当初の予想よりも時間がかかったが、つい最近最初からトップを走り続けていたbellkorと、上位陣のコラボレーションのチームが10%の壁を破った(leaderboard)。
彼らの手法は「非常に多くの様々な種類のレコメンデーションシステムの結果を混ぜ合わせる」という愚直だがいかにも精度が出そうだという方法を採用している(、と昨年度の結果からは思われる。近々詳細は出るだろう。)
実際に使ってとどめになったかどうかは分からないが、彼らのチームの主要メンバーがKDDで新しい手法を発表しており、単一の手法による最高精度を達成している。ちなみに今年のKDD(データマイニング系の学会の最高峰の一つ)のBest Research Paperである
Yehuda Koren, "Collaborative Filtering with Temporal Dynamics ", KDD 2009 pdf
これは時間経過による嗜好性の変化をモデルに組み込んだものである。
協調フィルタリングによるレコメンデーションを行おうと思うと時間経過による様々な変化がある。例えば、ある人の嗜好性が連続的に変わる、もしくはある商品に対する評価が連続的に変わるということもあるし、ちょっと面白い例で、一つのアカウントを家族で使う状況だと、ある日はお父さんが使っていて、次の日は娘が使う場合があり、この場合だと、アカウントだけをベースにみていると嗜好の傾向が非連続的に変わることになる。
この嗜好の時間変化についてはずっと昔から多くの人が取り組み、利用してきたがどうもうまくいかなかったものだが(グラフの変化、テンソルでとらえるような研究も多い)、この研究では、まず単純に時間経過情報を入れただけではうまくいかないというところからスタートして、様々な工夫を入れている。最終的に高い精度を達成した手法では、人毎、商品毎のbias項、人と商品の隠れ項の部分に時間変化の影響を入れており、緩やかな場合の変化をスプライン関数で捉え、さらに連続的ではない急激な変化を1日毎のログを別に加えることで捉えている。
この論文で特に面白かったのが6章から始まる結果の分析であり、様々な時間経過による指向性の変化を仮説を立てて調べている。2004年頃に全体のレーティングが非連続的に上がるという現象がみられ、さらに古い映画の評価が新しい映画の評価よりも高くなるという現象がみられている。
分析の手法は実際に論文を読んでもらうとして、結果、分かったのは、2004年頃にnetflix自身が提供しているレコメンデーションシステムのcinematchの精度が向上し、GUIもよくなったおかげでユーザーがより自分の嗜好にあった映画を見られるようになったということである。さらに、新しい映画はなんとなく流行りだから見ている場合が多いのに対し古い映画はレコメンデーションシステムによってお勧めされたものが多いので古い映画の評価が相対的に高いことが起きたらしい。
10%の性能改善という絶妙な目標設定とともに、最終的にnetflix社のcinematchがユーザーの満足度を上げているのに成功したということが証明された形でnetflix prizeが終わりを迎えることで、netflixすごいなとおもいました。


Comments
Мда, посмотри каких только ГСов не придумают. --------------------------------------------- Музыка - [URL=http://www.basshead.ru]cборники музыки[/URL] Все для CMS - [URL=http://www.dle-wp.ru]dle модули[/URL] Развлекательный портал - [URL=http://www.elitewareza.ru]скачать soft[/URL] Игровой портал - [URL=http://www.eye-play.ru]cкачать игры мини[/URL] IT Портал - [URL=http://www.hardicha.ru]все про пк[/URL] Все для мобильного - [URL=htt
Posted by: BiosWoolf | 2009.07.05 at 12:24 AM
今年はKDD2009を見に行ってました.
最高値じゃなくて,エレガントな方法で最高値に近い方法って聴いた気がするけど,間違いかな?
※ 私の英語ヒアリングはTOEIC 180点の死亡レベルなので……
データの本質的ノイズをほぼ達成したといっていました.しかし,Herlocer のTOISの論文とかににもあるように,嗜好データは聞く度に数字が変わって,値の揺らぎはそれ以上で,単純な予測精度の追求はすでに終わっていると,個人的には主ます.
推薦システム関係の他の発表にあった,セレンディピティ,サクラ攻撃,プライバシの方が,もっと重視すべき問題のように思えます.
Posted by: しましま | 2009.07.06 at 11:32 PM
最高値は複数手法のアンサンブルか、あとは心理学の応用とか(詳しい手法は知らないですが)とかの方法が達成しているとは思いますが、機械的な手法で最高精度だとは思いますね。元々時間情報を入れないものでもほぼ最高精度でしたが
>単純な予測精度の追求はすでに終わっていると,個人的には主ます.
んーどうなんでしょうねぇ。今の精度の測り方だとそうかもしれませんが、彼の一つ前の論文で書いてあったように例えば上位10件とかに絞るとまだまだ余地があるみたいです(それが全体の精度だとちょっとしか差がないようにみえちゃうのですが)
>セレンディピティ,サクラ攻撃,プライバシの方が,もっと重視すべき問題のように思えます.
そうですねぇ。ただ他の問題は確かに実用的にも重要だとは思いますが、)解くべき問題をうまく切りだすのが難しいような気がします。複数の山があるって感じで。
自然言語処理も最初のうちは構文解析器や文書分類器な、の精度が毎年向上していく類の研究までは目標が明確で研究もある程度しやすかったのですが、それ以降の要約とか情報抽出とかそういった問題ではうまく評価するのが難しいところに直面しているように思えます。もちろんそういったものをうまく評価しようとする研究もたくさんありますけどね。
Posted by: okanohara | 2009.07.08 at 12:50 AM