2
これはいわゆるアソシエーション分析に関する問題です。
アソシエーション分析は、購買パターンを分析するための分析手法です。消費者の購買パターンを分析して、その関連性を指標として評価します。
関連性を表す指標として、以下の3つがあります。
信頼度(Confidence)
商品AとBがあるとして、商品Aを買った人の中で、商品Bも一緒に買った人の割合になります。例えば、コーヒーを買った人に牛乳も勧めるべきか検討する際は、まずは信頼度を見るべきでしょう。Aを買った人の集合をA、Bを買った人の集合をBとして表すなら、
信頼度 = (A ⋀ B)/ A
になります。
支持度(Support)
支持度とは、顧客全体の中で、AとBを一緒に買った人の割合です。個別に信頼度の指標は使われますが、全体売り上げとして、一緒に買われる割合がどれくらいなのか見る場合は、支持度を使うと良いでしょう。コーヒーを買う人の中に牛乳を買う人が信頼度を見て、結構いるなって分かったは良いけど、その割合が、全体売り上げの1万分の1だったら、リコメンドするコストの方が無駄ですね。
全体顧客の集合をXとするなら、以下のように表すことができます。
支持度=(A ⋀ B)/ X
リフト(Lift)
最後が、リフトです。コーヒーを買う人は牛乳を買うことが信頼度で分かりました。しかし、さらに支持度から全体の顧客のそこそこの割合が、このセットを買っていっていることがわかりました。ではそれで終わりでしょうか?
実は牛乳は、コーヒーを買う人だけじゃなく、パンを買う人から、ほとんど全員が高い確率で買っている可能性があります。結局信頼度だけ見てリコメンドを出そうとしたら、ほとんど全員に出してるじゃんってことになるかもしれません。そういったことを防ぐため、AとBがあったら、対象となるBが全体でどれだけ買っていく人がいるのかと言う割合を考慮します。
リフト値 = 信頼度 / (B / X) = ((A ⋀ B)/ A) / (B / X)
= X (A ⋀ B) / A B
Bが売れる割り合いで、信頼度を割っていますので、Bの全体を占める割合が少なくなればなるほど、信頼度は高くなるという計算になります。
さて、それでは、問題を見ていきましょう。
ある小売店の一定期間における POS システムから得られた 1,000 件のレシートデータを分析する。このとき、商品aと商品bの購買パターンについて、下表のような結果が得られたとする。下記の設問に答えよ。
まず、ここから全体の顧客が1000 だということが分かりました。では表を見てみましょう。
aのみ買った人、bのみ買った人、両方買った人にすでに分かれています。aを買った人は、600件、bを買った人は300件ということですね。では、それぞれの値を求めてみましょう。
a -> b を考えてみます。aを買った集合をA (= 600)、bを買った集合をB (= 300)としましょう。aもBも買った人を A ⋀ B(= 250) で表します。
支持度(共通) = (A ⋀ B)/ X = 250 / 1000 = 0.25
a -> b の信頼度 = (A ⋀ B)/ A = 250 / 600 = 5/12
a -> b のリフト値 = 信頼度 / (B / X) = (5/12) / (300 / 1000) = 25/18
b -> a の信頼度 = (A ⋀ B)/ B = 250 / 300 = 5/6
b -> a のリフト値 = 信頼度 / (A / X) = (5/6) / (600/1000) = 25/18
a->bのリフト値とb->aのリフト値は等しくなっていますね。どちらで計算しても等しくなります。
設問1の問題を見ていきましょう。
1.商品aからみた商品bの信頼度(コンフィデンス)は、 5/9である。
5/12 ですね。誤りです。
2.商品aと商品bを併買したパターンの支持度(サポート)は、0.25 である。
支持度は0.25です。その通りです。
3.商品aを購買したパターンの支持度(サポート)は、0.45 である。
これは、600 / 1000で、0.6になります。誤りですね。
4.商品bからみた商品aの信頼度(コンフィデンス)は、 5/7である。
これは、250/300 = 5/6 になります。誤りです。
5.商品bを購買したパターンの支持度(サポート)は、0.35 である。
これは、300 / 1000で、0.3です。誤りです。
以上より、2が正解です。