Um Kunden gezielter anzusprechen ist es sinnvoll, sie in verschiedene Gruppen einzuteilen. Data mining kann helfen, vorher nicht offensichtliche Kundensegmente zu bilden. Eines der am weitesten verbreiteten machine learning-Algorithmen zur Segmentierung ist k-means clustering. Im folgenden wird eine Kundensegmentierung auf der Grundlage von Verkaufszahlen für verschiedene Produktgruppen vorgenommen und die Gruppen dann mit weiteren Kundencharakteristika (Vertriebskanal, Region) verglichen. Um es übersichtlich zu halten, wurde ein Beispieldatensatz mit einer relativ geringen Anzahl von Variablen gewählt. K-means clustering läßt sich jedoch auch mit wesentlich mehr Variablen (und Beobachtungen) durchführen.
Der Beispieldatensatz erhält Verkaufszahlen für sechs Produktgruppen eines Großhändlers für 440 Kunden. Ausserdem enthält der Datensatz Angaben zum Vertriebskanal (Gastronomie, Einzelhandel) und der Region des Kunden (Lissabon, Oporto, Andere). Die Segmentierung erfolgt auf Grund der Verkaufszahlen. In einem zweiten Schritt wird die Verteilung der gebildeten Gruppen auf die Verkaufsregionen und Vertriebskänale analysiert. Die explorative Datenanalse zeigt, dass viele Kunden (20,2%) ungewöhnlich hohe Verkaufszahlen in mindestens einem Produktsegment aufweisen. Diese Grosskunden werden seperat betracht, die Segmentierung selber erfolgt nur die restlichen Kunden („Kleinkunden“). Für die Kleinkunden wurden drei Gruppen gebildet. Vergleicht man die Verteilung der Gruppen über Regionen und Vertriebskanäle, dann zeigen sich deutliche Unterschiede für die Vertriebskanäle (Gastronomie, Einzelhandel) aber nicht für die Regionen (Lissabon, Oporto, Andere). Grosskunden sind primär im Gastronomie-Gewerbe außerhalb der Großstädte Lissabon und Oporto zu finden.
Der Datensatz erhält Verkaufszahlen (jährliche Ausgaben) für sechs Produktgruppen eines Großhändlers für 440 Kunden. Ausserdem enthält der Datensatz Angaben zum Vertriebskanal (Gastronomie, Einzelhandel) und der Region des Kunden (Lissabon, Oporto, Andere). Grafik 1 zeigt die Verteilung der jährlichen Ausgaben für die verschiedenen Produktgruppen. Die Kategorie Sonstiges umfasst Reinigungsmittel und Papierprodukte. Im Schnitt wird von den Kunden am meisten für Frischprodukte ausgegeben, gefolgt von Obst/Gemüse und Milchprodukten. Die Grafik zeigt, dass die Ausgaben sich pro Kundem stark unterscheiden, inbesondere bei Frischprodukten. Es gibt viele (89) Kunden, die im Vergleich zu den anderen Kunden sehr hohe Werte aufweisen (markiert mit offenen Kreisen).
Viele der Verkaufszahlen sind relativ stark korreliert. Grafik 2 zeigt die bivariaten Beziehungen zwischen den jährlichen Ausgaben. Die Ausgaben für Obst/Gemüse und Sonstiges sind sehr stark miteinander verknüpft. Auch die jährlichen Verkaufszahlen für Milchprodukte sowie Obst/Gemüse und Sonstiges hängen stark miteinander zusammen. Dies wird vermutlich daran liegen, dass sämtliche Verkaufszahlen durch die Größe des Kunden beeinflusst werden. Die Verkaufszahlen für Frischprodukte und Delikatessen hängen jedoch nur moderat mit anderen Verkaufszahlen zusammen.
Die Ergebnisse von K-means clustering können sowohl durch extreme Werte für einige Beobachtungen (outlier) sowie durch stark miteinander korrelierte Variablen beeinflusst werden. Im folgenden werden deshalb mehrere Segmentierungen vorgenommen.
K-means clustering ist abhängig von der Spannbreite der Werte. Wie wir in der explorativen Datenanalyse gesehen haben sind die Verkaufszahlen zwar prinzipiell in der gleichen Größenordnung, unterscheiden sich aber durchaus im Hinblick auf die Verteilung. Deshalb werden alle Werte zunächst standardisiert. Ungewöhnliche hohe Werte für einige Beobachtungen (outlier) sowie stark miteinander korrelierte Variablen können die Effizienz von k-means clustering beeinflussen. Für die Segmentierung werden darum mehrere Datensätze verwendet. In einem ersten Schritt wurden alle Verkaufszahlen verwendet. Die Verkaufszahlen der Kategorie Sonstiges korreliert stark mit den Verkaufszahlen für mehrere der anderen Produktkategorie. In einem zweiten Schritt wurde diese Variable vor der Segmentierung entfernt. Auch die Verkaufszahlen der Kategorie Milchprodukte korreliert mit anderen Verkaufszahlen. Ein reduzierter Datensatz beinhaltet nur noch die Verkaufszahlen für die Produktkategorie ohne Sonstiges und Milchprodukte. Schliesslich wurde eine Segmentierung mit dem reduzierten Datensatz vorgenommen, bei dem auch alle Kunden mit sehr hohen Werten auf einer der sechs ursprünglichen Kategorien herausgenommen wurden. Kunden mit sehr hohen Verkaufszahlen (Großkunden) sollten sowie eine eigenständige Gruppen bilden, für die Segmentierung ist es interessanter Gemeinsamkeiten zwischen den restlichen Kunden zu finden.
Die Gruppenanzahl muss vorab festgelegt werden. Es gibt einen trade-off zwischen Gruppenanzahl und Gruppenhomogenität. Eine kleinere Anzahl an Gruppen ist häufig leichter zu interpretieren, führt aber zu einer geringeren Ähnlichkeit innerhalb der verschiedenen Gruppen.
Grafik 3 zeigt wie sich die Gruppenhomogenität mit der Anzahl der Gruppen für die verschiedenen Datensätze verändert (für den reduzierten Datensatz macht es keinen grossen Unterschied, ob outlier entfernt wurden). Höhere Werte bedeuten eine höhere Heterogenität innerhalb einer Gruppe. Die Gruppenheterogenität sinkt für alle Datensätze stark bis drei Gruppen gebildet werden. Mit mehr als fünf Gruppen ist der Abstieg der Heterogenität mit jeder weiteren Gruppe nicht mehr so deutlich wie am Anfang.
Für fünf Gruppen ist jedoch die Verteilung der Kunden auf die Gruppen sehr uneinheitlich, manche Gruppen bestehen aus nur sehr wenigen Kunden. Deshalb wird im Weiteren mit einer Gruppenanzahl von drei gearbeitet. Da die Gruppenhomogenität durchgängig für den reduzierten Datensatz (blaue Linie) deutlich besser ist als für die anderen Datensätzen, wird die Segmentierung mit dem reduzierten Datensatz ohne extreme Werte (outlier) vorgenommen.
Grafik 4 vergleicht die Verteilung der drei Gruppen über die beiden Vertriebskanäle (Gastronomie, Handel). Es zeigen sich deutliche Unterschiede. Die dritte Gruppen ist am stärksten im Handel vertreten, während die zweite Gruppe vor allem in der Gastronomie vorkommt.
Im Gegensatz dazu zeigen sich keine grossen Unterschiede zwischen den Regionen (Grafik 5). In allen drei Regionen (Lissabon, Oporto, Andere) ist die zweite Gruppe am stärksten vertreten.
Die bislang vorgestellte Kundensegmentierung hatte die Großkunden nicht berücksichtigt. Die explorative Datenanalse hatte gezeigt, dass viele Kunden (20,2%) ungewöhnlich hohe Verkaufszahlen in mindestens einem Produktsegment aufweisen. Diese Grosskunden werden jetzt seperat betracht, da die Segmentierung selber nur die restlichen Kunden („Kleinkunden“) erfolgte.
Grosskunden sind primär im Gastronomie-Gewerbe außerhalb der Großstädte zu finden (Grafik 6 und 7). Mehr als 70 Prozent der Grosskunden sind außerhalb von Lissabon und Oporto angesiedelt. Der Anteil der Gastronomie an den Grosskunden liegt bei über 60 Prozent.