from pyspark.sql import SparkSession

# Starte eine Spark Session
spark = SparkSession.builder.appName("Datenaufbereitung_PySpark").getOrCreate()

# Erstelle die Daten für die Faktentabelle
faktentabelle_data = [
    ["A001", "20240115", "K4716", 120],
    ["A002", "20240116", "K4712", 150],
    ["A003", "20240127", "K4713", 80],
    ["A004", "20240205", "K4714", 65],
    ["A005", "20240212", "K4711", 180],
    ["A006", "20240221", "K4714", 55],
    ["A007", "20240221", "K4715", 75],
    ["A008", "20240317", "K4711", 150],
    ["A009", "20240401", "K4711", 120]
]
faktentabelle_columns = ['auftrag_id', 'zeit_id', 'kunden_id', 'umsatz']
faktentabelle = spark.createDataFrame(faktentabelle_data, faktentabelle_columns)

# Erstelle die Daten für die Kundendimension
kunden_dim_data = [
    ["K4711", "Loyale"],
    ["K4712", "Loyale"],
    ["K4713", "Preisbewusste"],
    ["K4714", "Preisbewusste"],
    ["K4715", "Neukunde"],
    ["K4716", 'Neukunde']

]
kunden_dim_columns = ['kunden_id', 'kundengruppe']
kunden_dim = spark.createDataFrame(kunden_dim_data, kunden_dim_columns)

# Erstelle die Daten für die Zeitdimension
zeit_dim_data = [
    ["20240115", 1],
    ["20240116", 1],
    ["20240127", 1],
    ["20240205", 1],
    ["20240212", 1],
    ["20240221", 1],
    ["20240317", 1],
    ["20240401", 1]

]
zeit_dim_columns = ['zeit_id', 'quartal']
zeit_dim = spark.createDataFrame(zeit_dim_data, zeit_dim_columns)

# Führe die notwendigen Joins durch, um die Informationen zu vereinen
denormalisierte_tabelle = faktentabelle.join(kunden_dim, on="kunden_id").join(zeit_dim, on="zeit_id")
denormalisierte_tabelle.sort("auftrag_id").show()

+--------+---------+----------+------+-------------+-------+
| zeit_id|kunden_id|auftrag_id|umsatz| kundengruppe|quartal|
+--------+---------+----------+------+-------------+-------+
|20240115|    K4716|      A001|   120|     Neukunde|      1|
|20240116|    K4712|      A002|   150|       Loyale|      1|
|20240127|    K4713|      A003|    80|Preisbewusste|      1|
|20240205|    K4714|      A004|    65|Preisbewusste|      1|
|20240212|    K4711|      A005|   180|       Loyale|      1|
|20240221|    K4714|      A006|    55|Preisbewusste|      1|
|20240221|    K4715|      A007|    75|     Neukunde|      1|
|20240317|    K4711|      A008|   150|       Loyale|      1|
|20240401|    K4711|      A009|   120|       Loyale|      1|
+--------+---------+----------+------+-------------+-------+

# Wähle nur die benötigten Spalten aus und filtere nach dem gewünschten Quartal
usecase_tabelle = denormalisierte_tabelle.select("kundengruppe", "umsatz", "quartal").filter("quartal = 1")
usecase_tabelle.sort("kundengruppe").show()

+-------------+------+-------+
| kundengruppe|umsatz|quartal|
+-------------+------+-------+
|       Loyale|   180|      1|
|       Loyale|   120|      1|
|       Loyale|   150|      1|
|       Loyale|   150|      1|
|     Neukunde|   120|      1|
|     Neukunde|    75|      1|
|Preisbewusste|    65|      1|
|Preisbewusste|    80|      1|
|Preisbewusste|    55|      1|
+-------------+------+-------+

# Aggregierung: Berechnung Umsatz pro Kundengruppe
aggregierte_tabelle = usecase_tabelle.groupBy("kundengruppe").sum("umsatz")
aggregierte_tabelle = aggregierte_tabelle.withColumnRenamed('sum(umsatz)', 'gesamtumsatz')
aggregierte_tabelle.show()

+-------------+------------+
| kundengruppe|gesamtumsatz|
+-------------+------------+
|       Loyale|         600|
|Preisbewusste|         200|
|     Neukunde|         195|
+-------------+------------+

# Ergebnis: absteigend sortiert 
# in diesem Beispiel eigentlich nicht mehr nötig
sortierte_tabelle = aggregierte_tabelle.orderBy(aggregierte_tabelle["gesamtumsatz"].desc())
sortierte_tabelle.show()

+-------------+------------+
| kundengruppe|gesamtumsatz|
+-------------+------------+
|       Loyale|         600|
|Preisbewusste|         200|
|     Neukunde|         195|
+-------------+------------+

# Alternative für mehrere Aggregierungen
from pyspark.sql import functions as F
aggregierte_tabelle_2 = usecase_tabelle.groupBy('kundengruppe').agg(F.sum('umsatz').alias('gesamtumsatz'), F.avg('umsatz').alias('durchschnittsumsatz'))
aggregierte_tabelle_2.show()

+-------------+------------+-------------------+
| kundengruppe|gesamtumsatz|durchschnittsumsatz|
+-------------+------------+-------------------+
|       Loyale|         600|              150.0|
|Preisbewusste|         200|  66.66666666666667|
|     Neukunde|         195|               97.5|
+-------------+------------+-------------------+

# Mit Spark SQL
# Erstelle oder registriere die DataFrames als temporäre Tabellen
faktentabelle.createOrReplaceTempView("faktentabelle")
kunden_dim.createOrReplaceTempView("kundengruppen_dim")
zeit_dim.createOrReplaceTempView("zeit_dim")

# Führe die gewünschte Analyse mit Spark SQL durch
ergebnis = spark.sql(
    '''SELECT k.kundengruppe, SUM(f.umsatz) AS gesamtumsatz
       FROM faktentabelle f
       JOIN kundengruppen_dim k ON f.kunden_id = k.kunden_id
       JOIN zeit_dim z ON f.zeit_id = z.zeit_id
       WHERE z.quartal = 1
       GROUP BY k.kundengruppe
       ORDER BY gesamtumsatz DESC'''
)

# Zeige das Ergebnis
ergebnis.show()

+-------------+------------+
| kundengruppe|gesamtumsatz|
+-------------+------------+
|       Loyale|         600|
|Preisbewusste|         200|
|     Neukunde|         195|
+-------------+------------+

Arbeitsschritt	SQL	DataFrame API
Zusammenfügen von mehreren Tabellen	join	join()
Auswahl von Spalten	select	select()
Filtern von Zeilen	where	filter() oder where()
Gruppieren	group by	groupBy()
Summieren	sum()	sum()

Datenaufbereitung mit PySpark¶