DuckDB auf ONTAP | NetApp Blog

Inhalt

Diese Seite teilen

Mike Konkov

2025-10-23

Viele Teams und Unternehmen brauchen schnelle Antworten auf Datenfragen, ohne dafür ein komplettes Data Warehouse hochzuziehen. Genau hier setzt eine leichtgewichtige Architektur an: Ein Kubernetes Cluster hostet die Microservices-Bausteine für analytische Zwecke, NetApp ONTAP liefert die persistente, performante und intelligente Speicherlösung, Trident CSI stellt die Volumes dynamisch bereit, und DuckDB hält die lokal-wichtigen Daten dort, wo ein besonders schneller Zugriff notwendig ist.

Warum DuckDB?

DuckDB ist eine eingebettete OLAP Datenbank und wird direkt in der Anwendung bzw. im Container ausgeführt. Sie kommt ohne separate Dateninfrastruktur aus, verarbeitet analytische SQL-Abfragen hoch performant und eignet sich ideal für Edge-Szenarien, CI/CD-Jobs sowie interaktive Explorationen. Das Ergebnis: geringere Latenzen, reduzierter Betriebsaufwand und niedrigere Gesamtkosten.

Ergänzend zur DuckDB verwenden wir DuckLake, um „Lake-Fähigkeiten“ ohne ein klassisches Lakehouse samt Metastore aufzubauen. DuckLake ist ein integrierter Katalog und nutzt das Parquet Format. Wir setzen es durch Aktivierung der entsprechenden DuckDB-Erweiterung ein.

Rolle von ONTAP und Trident

Persistenz ist auch für Analytische Aufgaben entscheidend. Rohdaten, ML-Modelle, Prognosen und Logs müssen Pod-Neustarts und Deployment-Zyklen überdauern. ONTAP-Speicher stellt dafür skalierbare und performante NFS-Volumes als die Lösung bereit. Trident übernimmt als CSI-Orchestrator deren dynamische Zuweisung im Kubernetes Cluster. So entsteht eine robuste Grundlage, auf der sich Container-Workloads flexibel bewegen, ohne Datenverlust.

Das Zusammenspiel in Kubernetes

Wir organisieren Daten domänenspezifisch gemäß DataMesh Prinzipien: Daten werden pro Domäne verantwortet und verteilt, die Infrastruktur wird als Plattform bereitgestellt. Dieses Modell adressiert die typischen Schwächen zentraler monolithischer Architekturen, etwa in Bezug auf Datenqualität, Datenownership und Plattformskalierung.

In unserer Arbeit haben wir 3 Architekturebenen definiert:

1. Zentrale Ablage/ DataLake

Eine zentrale DuckDB-Instanz mit aktivierter DuckLake-Erweiterung persistiert sämtliche Rohdaten und Eingangsdaten im Parquet-Format. Datendomänen beziehen daraus ihre relevanten Werte.

2. Domänen-Datenbanken

Für jede Datendomäne läuft eine eigene DuckDB-Instanz für einen schnellen Zugriff mit großem Kontingent. Die Separation der Daten bzw. Metriken zwischen den Domänen passt gut zur DataMesh Vision.

3. Persistenter Speicher

Daten werden mithilfe von Trident auf ONTAP NFS Volumes abgelegt. Zwecks unserer Anwendung werden auch trainierte ML-Modelle und resultierende Vorhersagedaten am definierten Volume Mount Point abgespeichert. Das macht reproduzierbare Analysen einfach: Artefakte bleiben erhalten, können geteilt, versioniert und jederzeit wiederverwendet werden.

Diagram showing how NetApp ONTAP, Trident CSI, and Kubernetes connect to run DuckDB and DuckLake services for data storage and analysis. — Ein Architekturdiagramm verdeutlicht die Interaktion der Komponenten und Kommunikationspfade.

Fazit

DuckDB als eingebettete OLAP-Engine und DuckLake ermöglichen SQL-Abfragen direkt dort, wo die Daten liegen. In Kubernetes betrieben und über NetApp ONTAP mit NFS-Volumes via Trident CSI persistent gemacht, entsteht eine leichtgewichtige, performante und kosteneffiziente Analytics-Architektur. Entwickler und Data Scientists profitieren dabei von niedrigeren Latenzen, vereinfachtem Betrieb und reproduzierbarer Analysen – ohne ein separates Data Warehouse aufbauen zu müssen. Für viele Teams ist das der zügigste Weg zu zuverlässigen Einblicken und innovativer AI-Forschung – heute starten, morgen Ergebnisse.

Sollten wir Ihr Interesse an einer Evaluierung oder Umsetzung geweckt haben, wenden Sie sich bitte über Ihren Vertriebsmitarbeiter an das Professional Services Team.

Mike Konkov

Mike Konkov ist seit 2023 im Professional Services Team von NetApp tätig. Sein Fokus liegt auf Storage Infrastruktur, Microservices und Datenarchitekturen - mit besonderem Schwerpunkt auf AI-Workloads. Sein Know-how fließt in konzeptionelle Arbeiten, fortgeschrittene MLOps und DataScience Projekte sowie in operativen Alltag ein.

Alle Beiträge von Mike Konkov anzeigen