Czy standaryzacja w segmentacji RFM ma znaczenie

Zastanawiam się czy potrzebna jest standaryzacja danych, którą wykonuję w 108 linii kodu. 

Kiedy rezygnuję z przeprowadzenia standaryzacji, wartości wcss na wykresie elbow sięgają wartości 8000. Kiedy przeprowadzana jest standaryzacja – 4000. Przebieg linii wykresu natomiast jest identyczny w obu przypadkach. Stąd moje pytanie, ponieważ na określenie optymalnej ilości klastrów standaryzacja w tym przypadku nie wpływa.

Nie jestem pewna na ile grup powinnam podzielić klientów na podstawie wykresu elbow. Im dłużej się nad tym zastanawiam, tym bardziej biorę pod uwagę podział na 4 grupy, ponieważ w tym punkcie występuje zgięcie się wykresu – “punkt łokcia”.

Ostatnią kwestią jest pytanie, czy potrzebuję wykresu punktowego na podstawie modelu TSNE. Szczerze mówiąc nie do końca rozumiem ten model. 

Standaryzacja jest potrzebna do ogólnej poprawności obliczeń, bo inaczej np. będziesz miała money w zakresie 0-1000 a recency w zakresie 0-12, podobnie frequency, wiec trzeba to sięgnąć do tych samych zakresów. Może być tak, że 80% Monej jest w zakresie 0-1000 a tylko te kilka więcej to pokaż ten rozkład i przyjmij 1000 i więcej jako max wartość lub oblicz log(wartość sprzedaży) jako f.

Kalstry 4 lepsze niż 2, bo będzie jakieś większe rozbicie i to jest lepiej

TSNE to jest projekcja wyników wielowymiarowych na przestrzeń dwuwymiarową i zastępowanie kilku wymiarów jakimś wymiarem który je wszystkie reprezentuje łącznie – możesz ją pominąć, bo to już są większe komplikacje

Albo jedno, albo drugie, bo to jest to samo.

Czyli jeśli Ty sprowadzasz wartości R,F,M do przedziału <1-5>, i już w tym jakoś uwzględniasz niesymetrycznośc danych np., 5 zaczyna się od jakiejś wartości i obejmuje górne 20% próbek, qwartyl 4 – to wszystko jest o.k. i twoja analiza zawiera standaryzację

Oczywiście drugie podejście jest sprowadzanie danych do 0-1 algorytmem standard_scaller z sk-learn, ale 1-5 jest o.k., bo to jest analiza biznesowa.

Standaryzacja ma znaczenie, jeśli klastrujesz od razu na podstawie wszystkich wymiarów R, F, M, jak tutaj https://mateuszgrzyb.pl/segmentacja-behawioralna-klientow-rfm/ – czytaj od 7.2

Tutaj masz przykład innego podejścia – czyli policzenia każdej ze zmiennych oddzielnie – czytaj od Step 3/4: Clustering Customers – i to podejście chyba biznesowo jest lepsze, i tutaj nie trzeba standaryzacji po po prostu dzielisz na cztery grupy te wartości – i można to zrobić bez tego algorytmu 😊.

https://medium.com/@luke.smalley_3613/a-beginners-guide-to-performing-rfm-analysis-with-python-37c6ebbc67d7

Ale jak zrobisz tak będzie dobrze.

Tutaj jest trochę więcej opisu i skorzystaj z tych opisów w swojej pracy.

https://medium.com/@melodyyip_/rfm-customer-segmentation-using-python-1a1865c6e7cb

Owocnego klastrowania Mieczysław Pawłowski

Similar Posts