Andreas Warntjen

Logo

Senior Data Scientist

Start
Über mich
Tutorials

Tutorials

Quantitative Datenanalyse, maschinelles Lernen und

Customer Analytics in R, Python und PySpark


R

Explorative Datenanalyse (tidyverse): Einführung

Jede Datenanalyse beginnt mit der Exploration der Daten. Dieses Tutorial gibt eine kurze Einführung in die explorative Datenanalyse (Selektion, Filtern, Aggregierung) mit den Tidyverse-Bibliotheken in R.

Klassifizierung mit mlr3: Einführung

mlr3 ist eine R-Bibliothek für das maschinelle Lernen. Dieses Tutorial gibt eine kurze Einführung in die Benutzung von mlr3 für Klassifizierungsprobleme.


Python

Text Mining: Grundlagen

Anhand eines kurzen Beispiels (Reden amerikanischer Präsidenten) erläutert dieses Tutorial die Grundlagen von Text Mining (Tokenization, Stemming / Lemmatization).

Explorative Datenanalyse: Datenaufbereitung

Dieses Tutorial ist das erste eine Serie zur explorativen Datenanalyse in Python (Pandas). Erläutert werden die mehrere gängige Arbeitsschritte bei der explorativen Datenanalyse: das Filtern von Daten, das Re-Kodieren von Variablen und Diskretisierung kontinuierlicher Variablen (binning).

Explorative Datenanalyse: Visualisierung und Regression

Dieses Tutorial ist der zweite Teil der Serie zur explorativen Datenanalyse in Python (Pandas). An einem Beispiel wird die Berechnung von deskriptiven Statistiken (Gruppierung und Aggregierung) und einfachen Datenvisualisierungen demonstriert. Abschließend wird eine OLS-Regression gerechnet und die Regressionskurve in einem Streudiagramm visualisiert.


PySpark

Datenaufbereitung mit PySpark

Spark ist ein open-source-Framework für verteiltes Rechnen. Man kann Spark unter Anderem über Python oder R aufrufen. In diesem Tutorial werden die wichtigsten Befehle der Datenaufbereitung mit Hilfe von Spark via Python (PySpark) anhand eines Beispieles vorgestellt.

PySpark Cheatsheet

Code-Beispiele mit den wichtigsten Befehlen für explorative Datenanalyse, Datenaufbereitung und Re-Kodierung mit Hilfe der DataFrame-API.


Maschinelles Lernen

Explainable AI mit SHAP: Klassifizierung Am Beispiel einer Klassifizierung mittels XGB werden die wichtigsten Visualisierungsmöglichkeiten der SHAP-Bibliothek vorgeführt.


Customer Analytics

Kündigungsverhalten: Explorative Datenanalyse

Kunden zu halten ist häufig günstiger als neue Kunden zugewinnen. Deshalb ist für viele Firmen die Analysen von Kündigungsverhalten wichtig. In diesem Beispiel aus der Telekommunikationsbranche zeigt eine explorative Datenanalyse bereits deutliche Unterschiede im Kündigungsverhalten zwischen Kunden mit verschiedenen sozio-ökonomischen Status oder unterschiedlichen Vertragsmodalitäten.

Auswertung einer Umfrage zur Kundenzufriedenheit: Faktoranalyse

Kundenzufriedenheit ist ein zentrales Thema für jedes Unternehmen. Häufig werden von Unternehmen Umfragen unter Kunden durchgeführt, um mögliches Verbesserungspotential zu identifizieren. Ein wertvoller erster Schritt kann dabei sein, Muster in der Kundenzufriedenheit zu erkennen. Unterschiedliche Kundengruppen können verschiedene Bereiche ihres Kundenerlebnisses unterschiedlich bewerten. In diesem Beispiel wird eine explorative Faktoranalyse genutzt, um Daten einer Kundenbefragung eines Flughafens auszuwerten. Grundlage ist eine Befragung zu der Zufriedenheit zu einzelnen Punkten, mit Hilfe einer Faktoranalyse werden diese einzelnen Ergebnisse zusammengefasst. Anschließend werden die Ergebnisse für zwei unterschiedlichen Kundengruppen miteinander verglichen.

Kundensegmentierung: RFM

Mit Hilfe von Kundensegmentierungen können unterschiedliche Kundengruppen identifiziert werden. Dies erlaubt es Firmen beispielsweise, Kunden gezielter anzusprechen. Eine weit verbreitete Form der Kundensegmentierung beruht auf dem Kundenverhalten, genauer der letzten Kundeninteraktion (recency), der Anzahl der Kundeninteraktionen (frequency) und dem monetären Wert der bisherigen Kundenbeziehung (monetary value). Die Beispieldaten kommen aus dem Einzelhandel.

Kundensegmentierung: Data Mining

Data mining kann helfen, vorher nicht offensichtliche Kundensegmente zu bilden. Eines der am weitesten verbreiteten machine learning-Algorithmen zur Segmentierung ist k-means clustering. In diesem Beispiel aus dem Grohßhandel wird eine Kundensegmentierung auf der Grundlage von Verkaufszahlen für verschiedene Produktgruppen vorgenommen und die Gruppen dann mit weiteren Kundencharakteristika (Vertriebskanal, Region) verglichen.


Page template forked from evanca