FAQ mit Nils zu “Sichere Datenräume mit senseering”

Alles, was du dich über die Datenökonomie der Zukunft fragst

Nils van Ouwerkerk
senseering
9 min readFeb 15, 2021

--

Header. Bild: © senseering | Semjon Becker

Co-Author: Daniel Trauth, Kristof Herrmann, Felix Mönckemeyer

This article is also available in English.

Abstract

Im Kontext von Resilienz ist es besonders für Produktionsunternehmen relevant, Daten über ihre kompletten Prozessketten zu sammeln. Dies bedeutet aber oftmals, dass Daten oder auch Prozesswissen mit anderen Stakeholdern geteilt werden muss. Dies ist nur möglich, wenn es dafür sichere Datenräume gibt.

Die senseering hat mit der MyDataEconomy den Prototypen eines solchen sicheren Datenraums geschaffen und stellt sich den drängenden Fragen, was bei einem sicheren Datenraum beachtet werden muss und wie die senseering dies umgesetzt hat.

Erfahre hier mehr über die MyDataEconomy oder erlebe sie einfach selbst.

Inhaltsverzeichnis

1. Datenanbindung

2. Datenaustausch

3. Data Policy

4. Datenmarktplatz

5. Datenverarbeitung

Ausblick

Datenanbindung

Wie sieht das Metadatenmodell in der MyDataEconomy aus?

Metadaten werden bei in der MyDataEconomy über JSON-Objekte (Java Script Object Notation) geregelt. Dort sind beliebige Metadatenstrukturen zulässig, so wie es der Benutzer wünscht. Jedes IoT-Device (Worker) besitzt ein Metadatenobjekt, welches bei Bedarf angepasst werden kann. Zusätzlich zu diesen nutzerbasierten Metainformationen werden systemspezifische Metadaten ergänzt, wie etwa ein Zeitstempel zur Festlegung der Erstellungszeit des Datenpunktes, oder die System-ID des Datenurhebers. Zudem wird zur Sicherstellung der Datenintegrität eine Signatur der Daten inklusive Metainformationen in einen Distributed Ledger geschrieben.

Können beliebige Payloads ausgetauscht werden und wie werden die Substrukturen für den Datenempfänger dokumentiert?

Die Payload bei der Datenübertragung ist beliebig, solange sie sich an das JSON-Format hält. Jegliche Payloads in JSON-Struktur kann die MyDataEconomy verarbeiten. Jedoch ist unser System optimiert auf IoT-Daten (beispielsweise Zeitreihendaten, welche kontinuierlich im selben Format geschrieben werden). Die Struktur der Daten wird dabei über ein JSON-Schema festgelegt (Datenquellen können auch nur Daten, welche nach diesem Schema zulässig sind, in die MyDataEconomy schreiben). Der Marktplatz ist die Komponente der MyDataEconomy, welche den Kauf und Verkauf von Daten zwischen zwei Parteien regelt. Dort wird aus dem JSON-Schema bei der Ansicht der Datenquellen randomisiert ein Beispieldatensatz erzeugt und dient dort als Verkaufsbild, damit potentielle Käufer eine Datenstrukturübersicht erhalten. Bei einem Datenkauf wird vom Netzwerkknoten des Empfängers zunächst das Schema aus dem Marktplatz geladen. Dann wird eine Peer-to-Peer Verbindung mit dem Datenproduzenten aufgebaut. Das Schema dient dann bei der Übertragung der Daten direkt als Kontrollschema für die eintreffenden Daten.

Habt ihr Erfahrung mit OPC-UA und was gibt es für weitere Datenstandards im Umfeld IIoT?

Vor einigen Wochen haben wir eine Produktionsmaschine eines Kunden mit einem integrierten OPC-UA-Server an unser System angeschlossen. Wir sind mit dem Standard vertraut und können ihn in unser System integrieren, ebenso wie andere gängige Standards, etwa MQTT oder HTTP.

Zukünftig wollen wir auch eine native Einbindung von beispielsweise OPC-UA oder MQTT in unser System realisieren, zurzeit läuft dies noch über den Umweg unseres Connectors (Worker), welcher auf Websockets, einem bidirektionalen, auf TCP basierenden Netzwerkprotokoll, aufbaut.

Generell sind wir Schnittstellen-/Protokoll-agnostisch, solange JSON-Dateien darüber übertragen werden können.

Was sind die technischen Voraussetzungen an einen Netzwerkknoten?

Ein Netzwerkknoten ist eine NodeJS-basierte Open Source Software, welche lediglich einen dockerfähige Laufzeitumgebung (beispielsweise Ubuntu 20.04 LTS) mit Internetzugang und den technischen Voraussetzungen von 20GB Festplattenspeicher und mindestens 4GB RAM benötigt. Ansonsten gibt es keine weiteren Beschränkungen an die Nutzbarkeit der Netzwerkknoten-Software. Somit kann diese Software sowohl auf einem eigenen Server als auch bei einem beliebigen Cloudprovider auf einer virtuellen Maschine laufen. Es ist ebenfalls möglich kleine Einplatinencomputern mit einer Arm-CPU zu nutzen.

Datenaustausch

Geht ihr auch den Peer-to-Peer Ansatz oder ist der Marktplatz Peering/Clearingstelle?

Beim Datenaustausch kann über den Marktplatz nach entsprechenden Datenproduzenten gesucht werden. Dort erhält man eine Übersicht der angebotenen Datenkanäle und beschreibende Informationen dazu (ohne je die tatsächlichen Daten zu sehen). Bei Abschluss einer Transaktion wird dann eine Peer-to-Peer Verbindung zwischen Datenproduzent und -empfänger aufgebaut, über welche dann die Daten transportiert werden. Der Marktplatz selber dient nur zur Suche und Vermittlung von Datenproduzenten und es werden niemals Daten über ihn geleitet. Im Marktplatz werden zudem zentral alle Transaktionsquittungen abgespeichert und im Distributed Ledger abgelegt. Somit ist ein Abgleich im Bedarfsfall möglich.

Gibt es eine funktionale Übersicht des Konzepts Datenmarktplatz?

Das Architekturbild der MyDataEconomy zeigt, dass das System im Wesentlichen aus drei Komponenten besteht. Die Datenquellen sind an einen Netzwerkknoten angeschlossen. Dieser managed die eintreffenden Daten und hat zudem weitere Funktionalitäten im Umgang mit den Daten, wie etwa die Visualisierung oder auch die Bereitstellung einer Datenanalyse-Umgebung.

Architekturbild der MyDataEconomy

Der Marktplatz selber ist sowohl das Orchestrierungstool für seine eigenen Netzwerkknoten, als auch eine Suchmaschine für die IoT-Devices und Datenquellen anderer Nutzer.

In größeren Organisationen mit mehreren Nutzern übernimmt der Datenmarktplatz zudem die Funktion des User-, Rollen- und Policymanagements innerhalb der Organisation.

Habt ihr ein Beispiel für eine typische Datenstruktur und deren Semantik?

Ein Beispiel für einen Datenpunkt eines Umgebungssensors könnte so aussehen:

{    temperature: -73557567.70839567,    humidity: 22750917.696623445,    pressure: -4404144.863966808,    magnet: {        x: -82743673,        y: -59384045,        z: 57014035    }}

Die Daten sind aus der Marktplatzübersicht dieser Datenquelle entnommen. Der Datenpunkt hier ist randomisiert erzeugt und lässt nur Aufschluss darüber, welche Datenstruktur sich hinter dieser Datenquelle verbirgt.

Was sind gängige Datenaggregationsmodelle, die mit eurem System kompatibel sind?

Bei einem Datenkauf stehen grundsätzlich zwei Modelle zur Verfügung. Zum einen ist es möglich, bereits bestehende Daten vom Datenkonsumenten in einer Transaktion zu kaufen. Diese Daten werden dann als Batch vom Datenproduzenten zum Datenkonsumenten übertragen. Die andere Möglichkeit ist das Abonnieren von zukünftigen Daten. Sobald neue Daten beim Datenproduzenten anfallen, welche den Kaufbedingungen entsprechen, werden diese zum Datenkonsumenten gestreamt.

Beim Einspeisen von Daten in unser System gilt grundsätzlich, dass alle Daten, welche in JSON-Format vorliegen, mit unserem System kompatibel sind. Somit können sowohl Data-Streams, einmalige Data-Extracts oder auch periodische Dumps von Datenpaketen von unserem System verarbeitet werden. Da jedoch jede Datenquelle mit einem JSON-Schema ausgestattet ist, ist das System optimiert für gleichstrukturierte Daten, wie etwa IoT-Streams. Daten können somit beliebig modelliert, aggregiert und bereits ausgewertet, je nach anwendungsfall bereitgestellt werden.

Data Policy

Wir schafft ihr ein Policy Enforcement zur Erhaltung der Datensouveränität des Datenerzeugers?

Bereits jetzt ist es für den Datenurheber möglich, Nutzungsbedingungen in ein dafür ausgewiesenes Dokument zu jeder Datenquelle zu schreiben, welches dem Datenkonsumenten vor Verkauf vorgelegt wird. Aufgrund rechtlicher Fragestellungen haben wir uns zudem entschlossen, Policies zur Nutzung von gekauften Daten anhängen zu können, welche auch technisch beim Datenkonsumenten einfach automatisiert angewendet werden können. Da unsere Netzwerkknoten-Software jedoch Open Source ist, könnte zudem eine Art Auditierungsstelle für Netzwerkknoten sicherstellen, dass die Software des Empfängerknotens die technischen Voraussetzungen der Durchführung von Datennutzungspolicies garantiert.

Zudem werden alle Datentransaktionen geloggt und auch im Distributed Ledger gespeichert und somit sind die Konfigurationen des Datenkaufs (und somit eben auch die Policies) nachverfolgbar.

Welche Entitäten können ein Policy Enforcement nachvollziehen?

Das Policy Enforcement ist so noch nicht im System implementiert, jedoch planen wir die technische Umsetzung einer Auditierungsstelle, die bei Bedarf Netzwerkknoten auf Policy Enforcement-Methodiken prüfen kann. Diese Auditierungsstelle soll von jedem Nutzer des Systems angefragt werden können. Zukünftig sollen auch die Transaktionsinformationen aus dem Distributed Ledger für solche Zwecke aufgearbeitet werden können.

Mit welchen Mechanismen werden Sanktionen ausgesprochen und umgesetzt?

Ein Policy Enforcement soll zunächst rein technisch ablaufen, sodass die Software des Datenkonsumenten die Einhaltung der Policies prüft und abwickelt. Die bereits erwähnte Auditierungsstelle prüft zudem, ob die Netzwerkknoten den neuesten Sicherheitsstandards und dem neuesten Softwarestand entsprechen. Zusätzlich zu einer automatisierten Prüfung der Teilnehmer des Netzwerks, wird es ein manuelles Meldesystem geben, bei dem Knoten des Netzwerks fehlerhafte Transaktionen oder böswilliges Verhalten im Netzwerk melden können.

Datenmarktplatz

Gibt es Klassifizierungsattribute für Daten im Marktplatz?

Bisher gibt es in unserem System zwei Stufen der Klassifizierung. Daten können entweder privat sein und im Datenmarktplatz nur von bestimmten Teilnehmern gesucht werden (bspw. Unternehmen einer Daten Allianz oder interne Nutzer der eigenen Organisation), oder sie sind öffentlich und somit auch für jeden Nutzer sichtbar und auf käuflich erwerbbar. In Zukunft soll auch noch die Umsetzung von anonymisierten Daten auf dem Datenmarktplatz umgesetzt werden.

Welche semantischen Standards werden genutzt, um fremde Datenstrukturen einzubinden?

Bisher ist eine externe Anbindung an das System nicht möglich, jedoch wird dies zeitnah technisch umgesetzt werden können, falls die angebundenen Daten ein JSON-Schema mitliefern können.

Wie kann das Businessmodell eines Marktplatzes mit Datensouveränitäts-Ansprüchen einhergehen?

Das Businessmodell eines Marktplatzes lebt von der Nutzung dessen, also dem Austausch von Gütern. Ungeachtet der Datensouveränität ist es für viele Fragestellungen der heutigen Industrie wie auch Smart Home oder City zwingend notwendig, dass IoT-Devices (oder anders gesagt, Teilnehmer des Netzwerkes) Daten austauschen.

Datensouveränität bedeutet nun lediglich, dass die Transaktionen, welche über den Marktplatz abgewickelt werden, mit gewissen Regeln versehen werden, welche es dem Datenurheber erlauben, weiterhin in gewisser Weise über seine Daten zu verfügen, obwohl sie mittlerweile seinen eigenen Server verlassen haben. Zudem liefert unser dezentrales Marktplatz-System gerade auch dadurch schon Datensouveränität, als dass bis zum Verkauf der eigenen Daten diese die eigene IT-Infrastruktur nicht verlassen müssen, anders als bei zentralisierten Architekturen, bei denen alle Daten aller Nutzer zentral gesammelt würden. Der Datenmarktplatz ist somit kein richtiger Marktplatz, wo alle Assets zusammengetragen werden, sondern eher eine Art Vermittlungsinstanz zwischen zwei Stakeholdern, welche hauptsächlich organisatorische Funktionalität aufweist.

Somit sind die Konzepte Marktplatz und Datensouveränität nicht nur kompatibel, sondern sie unterstützen sich gegenseitig, wenn der Marktplatz einen sicheren Datenraum darstellt. In einem solchen sicheren Datenraum kann der Fokus wieder auf die Vorteile von Daten Austausch und die gemeinsame Nutzung von Assets zur Erschaffung von besseren datengetriebenen Services fallen.

Datenverarbeitung

Ist es dem Datenkonsumenten möglich, Datenanalyse-Umgebungen von Drittanbietern (bspw. Hyperscalern) zu nutzen?

Ja, bisher ist es möglich, die Daten aus der Datenbank auch lokal zu downloaden und somit in eine eigene Datenanalyse-Umgebung der Wahl zu transferieren. Dies soll in Zukunft auch durch Policies reguliert werden können.

Ist es möglich, bereits auf Datenproduzenten-Seite spezifische ETL Funktionen vor dem Erhalt der Daten auszuführen?

Nein, dies ist nicht ohne weiteres möglich. Hier bedarf es, sofern die Daten ausschließlich in einem transformierten Zustand vorliegen, die mithilfe des Datenproduzenten. Wenn der Datenproduzent allerdings auch die Rohdaten auf dem Netzwerkknoten vorhält und Transformationen auf dem Knoten selbst durchführt, ist es möglich ebenfalls die Rohdaten dem gesamten Netzwerk bereitzustellen.

Bisher ist der Transfer von Daten auf eine Datenquelle pro Transaktion beschränkt, dieses Limit werden wir jedoch in Zukunft aufheben. Somit wird ein Datenkaufprozess mehrere Datenpakete von unterschiedlichen Datenquellen umfassen können. Die Transformation der Daten kann dann am eigenen Netzwerkknoten durchgeführt werden.

Was sind übliche Löschvoraussetzungen für Datenkonsumenten?

Im Moment streben wir Policies zum Löschen von Daten auf Konsumenten-Seite an, welche etwa zeitlich begrenzt sind. Somit kann festgelegt werden, dass die Daten nach einer gewissen Zeit aus dem Netzwerkknoten des Datenempfängers gelöscht werden.

Ausblick

Zurzeit sind wir im Kontext des Forschungsprojektes SPAICER mit dem Aufbau eines solchen, sicheren Datenraumes beschäftigt. Dieser soll insbesondere dafür genutzt werden, komplexe Produktionsdaten wie etwa hochauflösende Körperschallsignale sicher mit den Partnern des Projektes zu teilen und somit die Datenproduzenten wie auch die Datenkonsumenten zusammenzubringen. Zudem soll der Vorteil für die Resilienz eines Produktionsunternehmens anhand dieses sicheren Datenraumes untersucht werden.

senseering Logo | © senseering

senseering GmbH

Die senseering GmbH ist ein mit dem RWTH Aachen University Spin-Off-Award ausgezeichnetes und im September 2018 gegründetes Unternehmen. Kernkompetenz der senseering GmbH ist die Entwicklung und Implementierung von Systemen zur Digitalisierung und Vernetzung von Industrie- und Produktionsanlagen. Gleichermaßen berät die senseering GmbH bei strategischen Unternehmensfragestellungen, insbesondere bei der digitalen Transformation, bei Distributed-Leger-Technologies, bei Edge vs. Cloud-Computing-Architekturen zur KI-basierten Echtzeitregelung industrieller Prozesse, bei der Digital Business Model Innovation und bei der Einführung digitaler Geschäftsprozesse wie Home Office, Azure oder Microsoft365. Senseering gehört zu den Gewinnern des ersten und größten KI-Innovationswettbewerbs des BMWi mit dem Projekt www.spaicer.de.

Daniel Trauth (CEO) | www.senseering.de | E-Mail: mail@senseering.de

--

--