Inhaltsverzeichnis
- Abstract
- Überblick
- Lernziele
- Zielgruppe
- Voraussetzungen
- Inhalte
- Praxis-Labs
- Technischer Rahmen
Abstract
Kompakter Einstieg mit ausgewogenem Mix aus Überblick und Praxis. Fokus auf gemeinsame Begriffe, sichere Interop‑Standards und einen lauffähigen Mini‑Prototyp für Pipeline und Service.
Dauer: 3 Tage
Format: Präsenz oder Live-Online
Überblick
Das Kompaktseminar ist für Teams gedacht, die schnell ein gemeinsames Verständnis aufbauen und unmittelbar nutzbare Standards definieren möchten.
Der Umfang von 3 Tagen ermöglicht Hands‑on‑Übungen ohne die Tiefe einer vollständigen Masterclass.
Lernziele
- Arrow Kernkonzepte und Begriffe konsistent nutzen
- PyArrow für typische Pipeline‑Aufgaben anwenden
- Flight/Flight SQL als Service‑Schnittstelle einordnen und prototypisch nutzen
- Interop‑Checklisten und Schema‑Konventionen festlegen
- Erste Performance‑Hebel sicher anwenden
Zielgruppe
- Gemischte Teams mit Bedarf an schneller Orientierung
- Entscheider*innen, Architekturen und Senior Engineers
- Organisationen in der Evaluations‑ oder Standardisierungsphase
Voraussetzungen
- Allgemeines Verständnis von Datenpipelines und DataFrames/SQL
- Grundkenntnisse in Python oder Java
- Keine Arrow‑Vorkenntnisse erforderlich
Inhalte
Tag 1: Arrow Essentials
- Speichermodell, Schemas, RecordBatches
- IPC‑Austausch, typische Kompatibilitätsfallen
- Konventionen für Datenverträge
Tag 2: Python Pipeline mit PyArrow
- Dataset‑API und Parquet‑Write‑Strategien
- Compute‑Kernels für Transformation/Validierung
- Interop mit DataFrames
Tag 3: Services, Performance, Betriebseinordnung
- Flight/Flight SQL Überblick und Mini‑Service
- Performance‑Checkliste (Chunking, IO, Kopien)
- Betriebliche Mindeststandards: Logs, Metriken, Tests
Praxis-Labs
Mini‑Projekt: Standardisierte Datenstrecke
- Referenz‑Schema und Naming‑Konventionen definieren
- PyArrow Pipeline: Scan, Filter, Transformation, Write
- IPC Export/Import zwischen zwei Komponenten testen
- Flight Mini‑Service bereitstellen und Abfrage ausführen
- Performance‑Verbesserung mit wenigen Stellhebeln messen
- Ergebnis als interne Checkliste und Template dokumentieren
Technischer Rahmen
- Python Toolchain, optional Java Client
- Lokale Umgebung oder Container
- Übungsdaten und Templates offline verfügbar
- Keine externen Systeme erforderlich
