hetida designer Release 0.6.3 - Flexibles Adapter System

hetida designer, unser Open Source Analytics Tool, hat mit dem aktuellen Release auf der Open Source Plattform Github einen weiteren wichtigen Meilenstein erreicht. Ein flexibles Adapter System zum Zugriff auf externe Daten wurde in diesem Release freigegeben.

Im Rahmen der unterschiedlichen Projekte in denen wir hetida designer einsetzen, kristallisiert sich nach und nach ein flexibler Standard für die Integration verschiedenster Datenquellen und -Senken heraus. Eingeflossen sind diese Erkenntnisse nun im hetida designer Adapter System welches im Release 0.6.3 im Open Source Projekt angekommen ist. 

Das Adapter System entkoppelt die Datenver- und entsorgung von der Analytik und ermöglicht so beispielsweise die Erstellung von Workflows die zunächst zur Verprobung auf CSV-Dateien zurückgreifen. Die so entwickelten und getesteten Workflows können dann später sehr einfach nur durch Änderung der Datenverbindung produktiv genutzt werden. Damit rückt die Wiederverwendbarkeit unabhängig von den zugrundeliegenden Datenquellen in den Vordergrund.

Das hetida designer Adaptersystem ist somit ein weiterer Schritt in Richtung unserer Vision die Zeit zwischen Verprobung von Data Science und ihrem produktivem Einsatz drastisch zu verkürzen.

hetida designer Adapter System | Wired Workflows
hetida designer Adapter System | Wired Workflows

Motivation

Um Daten in analytische Workflows zu laden, bieten zahlreiche analytische Tools Funktionen wie “Lade Tabelle aus Datenbank” oder “Schreibe als CSV Datei”, um Ein- und Ausgabe Operationen zu realisieren. Diese Kopplung von Analytics Funktionen mit Data Engineering Tasks macht es unmöglich, universelle analytische Workflows in unterschiedlichen Kontexten zu nutzen.

Im ungünstigen Fall müssen Anwender bei diesem Vorgehen mehrere Varianten ein und desselben Workflows implementieren und pflegen, beispielsweise in unterschiedlichen Kontexten wie einer Entwicklungs- und einer Test Umgebung mit dadurch bedingten unterschiedlichen Datenanbindungen. Soll ein Workflow zudem an verschiedenen Unternehmensstandorten mit sich unterscheidender Datenhaltung genutzt werden multipliziert sich der Wartungsaufwand sogar noch weiter.

Ein weiterer Nachteil dieses Vorgehens ist, dass aus funktionaler Sicht Seiteneffekte entstehen können, während der reine analytische Workflow frei von Seiteneffekten implementiert werden kann. Das behindert die Skalierung und Parallelisierung von Workflows, was unbedingt vermieden werden sollte. Grundsätzlich ist es also zielführend, analytische Funktionen von Data Engineering Tasks in einem dreistufigen Prozess zu entkoppeln (Datenversorgung | Analytische Funktionen | Datenentsorgung).

Als Alternative für Data Engineering Komponenten haben wir daher den hetida designer mit einem flexiblen Adapter System ausgestattet, um eine optimale Entkopplung zu erreichen. Hiermit ist zusätzlich die Navigation über unterschiedliche Datenquellen bzw. -senken möglich und es kann zur Laufzeit aus der hetida designer Oberfläche entschieden werden, auf welche Daten zugegriffen werden soll. Ein weiterer Vorteil dieser Lösung ist, dass über diese definierten Schnittstellen die Integration in vor- und nachgelagerte Software Systeme sehr einfach umgesetzt werden kann.

hetida designer Adapter System IO
hetida designer Adapter System: Workflow mit IO Elementen.

Fazit

Durch die Entkopplung von Data Engineering und Analytics bietet hetida designer eine zeitgemäße Architektur und vielfältige Möglichkeiten zur Anbindung externer Systeme. Eine flexible Integration des hetida designers in Fremdsysteme ist hiermit einfach und mit wenig Aufwand gegeben.

Software Quellen und weiterführende Dokumentation

Die Quellen und Dokumentation samt zugehöriger Beispiel Implementierungen unterschiedlicher Adapter sind auf Github verfügbar. https://github.com/hetida/hetida-designer/

Ihr Ansprechpartner

Dr. Steffen Wittkamp

Seit 2015 betreut, konzipiert und entwickelt Dr. Steffen Wittkamp Data Science Projekte von der Potentialanalyse bis hin zur vollumfänglichen Prognoseplattform inklusive Model Life Cycle Management. Schwerpunkte sind dabei Operationalisierbarkeit und die Robustheit von Data Science Lösungen im täglichen Betrieb.
Scroll to Top