Czy standaryzacja w segmentacji RFM ma znaczenie

Zastanawiam się czy potrzebna jest standaryzacja danych, którą wykonuję w 108 linii kodu. 

Kiedy rezygnuję z przeprowadzenia standaryzacji, wartości wcss na wykresie elbow sięgają wartości 8000. Kiedy przeprowadzana jest standaryzacja – 4000. Przebieg linii wykresu natomiast jest identyczny w obu przypadkach. Stąd moje pytanie, ponieważ na określenie optymalnej ilości klastrów standaryzacja w tym przypadku nie wpływa.

Nie jestem pewna na ile grup powinnam podzielić klientów na podstawie wykresu elbow. Im dłużej się nad tym zastanawiam, tym bardziej biorę pod uwagę podział na 4 grupy, ponieważ w tym punkcie występuje zgięcie się wykresu – “punkt łokcia”.

Ostatnią kwestią jest pytanie, czy potrzebuję wykresu punktowego na podstawie modelu TSNE. Szczerze mówiąc nie do końca rozumiem ten model. 

Standaryzacja jest potrzebna do ogólnej poprawności obliczeń, bo inaczej np. będziesz miała money w zakresie 0-1000 a recency w zakresie 0-12, podobnie frequency, wiec trzeba to sięgnąć do tych samych zakresów. Może być tak, że 80% Monej jest w zakresie 0-1000 a tylko te kilka więcej to pokaż ten rozkład i przyjmij 1000 i więcej jako max wartość lub oblicz log(wartość sprzedaży) jako f.

Kalstry 4 lepsze niż 2, bo będzie jakieś większe rozbicie i to jest lepiej

TSNE to jest projekcja wyników wielowymiarowych na przestrzeń dwuwymiarową i zastępowanie kilku wymiarów jakimś wymiarem który je wszystkie reprezentuje łącznie – możesz ją pominąć, bo to już są większe komplikacje

Albo jedno, albo drugie, bo to jest to samo.

Czyli jeśli Ty sprowadzasz wartości R,F,M do przedziału <1-5>, i już w tym jakoś uwzględniasz niesymetrycznośc danych np., 5 zaczyna się od jakiejś wartości i obejmuje górne 20% próbek, qwartyl 4 – to wszystko jest o.k. i twoja analiza zawiera standaryzację

Oczywiście drugie podejście jest sprowadzanie danych do 0-1 algorytmem standard_scaller z sk-learn, ale 1-5 jest o.k., bo to jest analiza biznesowa.

Standaryzacja ma znaczenie, jeśli klastrujesz od razu na podstawie wszystkich wymiarów R, F, M, jak tutaj https://mateuszgrzyb.pl/segmentacja-behawioralna-klientow-rfm/ – czytaj od 7.2

Tutaj masz przykład innego podejścia – czyli policzenia każdej ze zmiennych oddzielnie – czytaj od Step 3/4: Clustering Customers – i to podejście chyba biznesowo jest lepsze, i tutaj nie trzeba standaryzacji po po prostu dzielisz na cztery grupy te wartości – i można to zrobić bez tego algorytmu 😊.

https://medium.com/@luke.smalley_3613/a-beginners-guide-to-performing-rfm-analysis-with-python-37c6ebbc67d7

Ale jak zrobisz tak będzie dobrze.

Tutaj jest trochę więcej opisu i skorzystaj z tych opisów w swojej pracy.

https://medium.com/@melodyyip_/rfm-customer-segmentation-using-python-1a1865c6e7cb

Owocnego klastrowania Mieczysław Pawłowski

Similar Posts

  • Metody akwizycji i utrzymania klientów w e-commerce

    Metody akwizycji i utrzymania klientów w e-commerce – badania na podstawie wybranych sklepów internetowych. Metody akwizycji i utrzymania klientów w e-commerce.  Literatura Analiza badań na temat pozyskiwania i utrzymywania klientów w E-commerce 2.1. Charakterystyka wybranych sklepów oraz ich strategii mar-ketingowych Amazon, globalny lider e-commerce założony w 1994 roku przez Jeffa Bezosa, stosuje szeroki wachlarz działań…

  • The complete guide to optimizing your social content

    Sed arcu non odio euismod lacinia. Sit amet cursus sit amet dictum sit. Nunc pulvinar sapien et ligula ullamcorper. Pellentesque diam volutpat commodo sed egestas. Tellus elementum sagittis vitae et leo duis ut diam quam. Eleifend donec pretium vulputate sapien nec sagittis aliquam malesuada bibendum. At risus viverra adipiscing at in tellus. Duis at tellus…

  • Discovering the University of Cantabria

    My name is Rubén Gómez Segura, and I study at the University of Cantabria, a public university located in the autonomous community of Cantabria, Spain. It has fifteen centers distributed across three campuses: one in Santander, another in Torrelavega, and a third in Comillas. These centers, includes faculties, schools, and affiliated centers, as follows: Faculties:…

  • Population of Poland

    Poland’s population by age At the beginning of 2025, the median age of Poland’s population was 42.5, with half of Poland’s population above this age, and the other half of the population below it. For added context, here’s how Poland’s total population broke down by age group at the start of the year: Note: percentages may not sum to 100 percent due…

  • Management daily – 10 top tips from famous managers

    Management daily refers to the everyday tasks and responsibilities of managing a business or a team. This can include tasks such as planning and organizing work, setting objectives, coordinating activities, making decisions, and measuring performance. It involves the continuous process of guiding and supervising employees to ensure that they are working effectively and efficiently. In…