BESD – Begleitung und Evaluierung der Software für Datenräume und Datenkreise

Wie muss eine Softwarelösung aussehen, auf der Organisationen Daten austauschen können?

BESD: Datenräume mit Datenkreisen

Beteiligen Sie sich bei der Testung und Evaluierung – Ihr Feedback ist ein wichtiger Beitrag!

Täglich werden Milliarden von Daten generiert, analysiert und verwaltet: Umweltdaten, Sensordaten, Gesundheitsdaten, Daten aus sozialen Medien und dem Web, um nur einige Bereiche zu nennen. Diese Datenmengen verändern gerade die Geschäftsmodelle in der Wirtschaft. Doch viele Personen stehen bei einer Nutzung von Daten, die nicht im eigenen Unternehmen oder im eigenen Umfeld generiert werden, vor verschlossenen Türen.

Das Bundesministerium für Klimaschutz, Umwelt, Energie, Mobilität, Innovation und Technologie (BMK) möchte die intelligente Nutzung von Daten voranbringen und mit der Digitalwirtschaft gemeinsam ein Ökosystem anstoßen. Hier unterstützt die Data Intelligence Offensive. Ein Schritt in die entsprechende Richtung ist die Möglichkeit, Daten auf einfache Art und Weise zu nutzen und zu teilen. Dies soll über Datenräumen und innerhalb dieser in innovativen, dezentralen Datenkreise geschehen. Hierfür wurde vom BMK eine Software angekauft (Nexyo Data Hub), die ein Jahr gratis zur Verfügung steht.

Das BESD-Projekt orientiert sich an der Infrastruktur-Leitinitiative Gaia-X, in der Vertreter*innen aus Wirtschaft, Wissenschaft und Politik auf internationaler Ebene ein offenes, transparentes und sicheres digitales Ökosystem fördern, in dem Daten und Dienste in einem vertrauensvollen Umfeld zur Verfügung gestellt, gesammelt und gemeinsam genutzt werden können. Mithilfe des Nexyo Hubs sollen in kleinem Rahmen durch Metadata-Matching innovative Use Cases entwickeln und anschließend umgesetzt werden.

Zum besseren Verständnis haben wir ein Glossar der wichtigsten Begrifflichkeiten erstellt:

Um Speicherressourcen in das Ökosystem einzubringen, müssen diese aktiv eingebunden werden. Dazu braucht es sogenannte Konnektoren (APIs), die die technische Verbindung der (Meta-)Daten auf den Speicherressourcen zu einer Infrastruktur (z.B. Softwarelösung, Konnektoren, Hochleistungsrechenressourcen) im Ökosystem ermöglichen. In vielen Fällen gibt es bereits gut etablierte Standards für Schnittstellen, sodass Systeme einfach miteinander kommunizieren können (Interoperabilität).

EDC

Der Eclipse Dataspace Connector (EDC) bietet ein Connector-Framework für den souveränen, organisationsübergreifenden Datenaustausch. Das Framework enthält Module für die Datenabfrage, den Datenaustausch, die Durchsetzung von Richtlinien (Policy Enforcement), das Monitoring und Auditing. Er lässt sich insbesondere in bestehende Identitäts-, Datenkatalog- und Transfertechnologien integrieren, um unternehmensübergreifende Compliance-, Richtlinien- und Kontrollfunktionen bereitzustellen.

Ein Daten Bestand besteht u. a. aus: Daten, Metadaten, Konnektor-Daten, Datenquelle, Speicherort und API.

Die Begriffe Use Case und Data Circle (Datenkreis) sind synonym. Data Circles sind themenspezifische Projekte innerhalb eines Data Space.

Sie fokussieren sich auf einen Teilbereich der jeweiligen Domäne und ermöglichen den Austausch beziehungsweise die Nutzung von Daten in einem klar abgegrenzten Teilgebiet. Zu den Zielen gehört wesentlich, dass Daten auf einem virtuellen Datenmarkt gehandelt, gemeinsam genutzt werden und somit einen betriebs- wie volkswirtschaftlichen Mehrwert schaffen können.

Funktion

Die Funktion der Datenkreise ist die Konsortiumbildung sowie der Datenaustausch mit klarem Output. Der Datenaustausch erfolgt via API, Smart Contracts, Konnektoren sowie Souveränität, Vertrauen.

Ziel

Ziel von Datenkreisen ist es, den Austausch, Handel und die gemeinsame Nutzung von anonymisierten und pseudoanonymisierten Daten für Forschung und Technologieentwicklung zu ermöglichen und zu beschleunigen. Da Datenkreise eine kollaborative Zusammenführung von Datenanbieter*innen, Umsetzer*innen und Datenkonsument*innen ermöglichen sollen, liegt das Hauptaugenmerk auf der Vertrauenswürdigkeit des Datenaustausches beziehungsweise der Datennutzung.

Wenn die Daten im Datenökosystem weitergegeben werden sollen, ist es wichtig, die Bedingungen für die Datenweitergabe zu definieren. Damit nicht für jede Transaktion ein langwieriger, administrativer Prozess starten muss, gibt es neue und innovative Möglichkeiten Verträge einfach zu erstellen, sogenannte Datenverträge (auch Smart Contracts genannt).

Im Kontext der Datenökonomie überspannt eine Domäne ein Netz an Akteur*innen, welche sich mit einem klaren datenspezifischen Thema auseinandersetzen.

Eine Domäne kann sein:

  • ein Wirtschaftsbereich (z.B. Bauwirtschaft, Energiewirtschaft, etc.),
  • ein Industriesektor (Möbelindustrie, Textilindustrie, etc.),
  • aber auch ein mehrere Bereiche übergreifender Themenblock sein (Smart Cities, Mobilität, etc.).

Damit die Zusammenarbeit im Daten-Ökosystem gestartet werden kann, ist es nötig, dass die Teilnehmenden auch wissen, welche Daten im Ökosystem vorhanden sind. Dazu werden Metadatenkataloge erstellt. In Gaia-X gibt es dezentrale Metadatenkataloge, also Listen der Datenbestände. Diese Listen können im Ökosystem dann zusammengeführt werden, so dass auf einen Blick die gesamten Daten im Ökosystem erkennbar sind. Die Daten selbst bleiben aber dennoch auf den ursprünglichen Speicherressourcen, um die Datensouveränität zu gewährleisten.

Föderierter Datenkatalog

Die Summe aller Datenkataloge der Teilnehmenden eines Data Space

Eine Datenrichtlinie enthält eine Reihe von Regeln und Grundsätzen, die einen Rahmen für verschiedene Bereiche des Datenmanagements bilden, einschließlich, aber nicht beschränkt auf Data Governance, Datenqualität und Datenarchitektur.

Policy Provider

In der Regel ist der Policy Provider der Federator eines Data Space, welcher die Data Policy eines Datenraums festlegt.

Unter der gemeinsamen Datennutzung ist die eigentliche, technische Datenverbindung zwischen Parteien in einem Data Space zu verstehen.

Data Spaces (Datenräume) fokussieren sich auf Domänen (Wirtschaftsbereiche, Industriesektoren oder sonstige fachliche Anwendungsfelder), mit einer dezentralen und verteilten Dateninfrastruktur, auf der Use Cases (aka Data Circles) aufbauen können.

In einem Data Space werden Metadaten unter Wahrung der Datensouveränität, das heißt der größtmöglichen Kontrolle und Herrschaft über die eigenen Daten, für potenzielle innovative Dienste verfügbar gemacht.

Dabei greifen unterschiedliche Akteure eines Data Spaces über Connectoren und klaren Policies und Contracts auf Daten zu und nutzen diese mit klar definierten Regeln, um das volle Innovationspotenzial von Daten auszuschöpfen.

Domänenspezifische Datenräume können sich auch mit anderen Datenräumen verbinden (aka föderieren), wie beispielsweise ein Datenraum Mobilität mit einem Datenraum Tourismus.

Funktion 

Die Funktion der Datenräume ist die Anzeige von Metadaten. Ein Austausch von Metadatenanbieter*innen sowie -anwender*innen und ein perspektivischer Datenaustausch ist möglich. Diese Möglichkeit wird von Richtlinien zum Datenaustausch und den darüberliegenden Smart Contracts unterstützt.

Ziel 

Ziel der Datenräume ist der Wissensaustausch innerhalb der Domänen und eine Ausweisung (wie ein „Telefonbuch“) der Metadaten einer Organisation mit dem Absicht, Datenkreise abzuwickeln.

Participant

Generell ein/e Teilnehmer*in eines Data Space, der/die sich mittels eines Verifiable Credentials als solcher ausweisen.

Federator

Ist der Initiator eines Datenraums, welcher die Vergabe von Verifiable Credentials, die die Mitgliedschaft belegen, verantwortet. Der Federator hat auch ein Verfiable Credential inne und ist daher gleichzeitig immer ein Participant.

Consumer

Ein Consumer ist ein Participant eines Data Space und Empfänger*in von Daten.

Provider

Ein Provider ist ein Participant eines Data Space und Bereitsteller*in von Daten und Diensten.

Public Data Space

(i) Jede*r darf dem Data Space beitreten – der Data Space ist für jeden sichtbar. Es gibt keine Einschränkungen.

Restricted Data Space

(ii) Der Beitritt ist eingeschränkt – der Data Space ist für jeden sichtbar. Die Teilnehmer*innen geben eine Richtlinie für den Beitritt vor.

Private Data Space

(iii) Der Beitritt ist eingeschränkt – der Data Space ist nicht öffentlich ersichtlich. Die Teilnehmer*innen geben eine Richtlinie für den Beitritt vor.

Verteilte Systeme ohne Abhängigkeit von einem zentralen Punkt

Dezentrale Architektur

In einer dezentralen Architektur hat kein zentraler Identity Provider, kein einzelne*r Teilnehmer*in die Möglichkeit andere Teilnehmende aus einem Datenraum auszuschließen oder alle Teilnehmende betreffende Entscheidungen zu treffen. Somit gibt es keinen Souverän und alle Teilnehmende des Datenraums sind gleichberechtigt und selbst-souverän.

Dezentraler Identityprovider

In einem dezentralen System gibt es keinen Identity Provider, nur dezentrale Identifikatoren, die jeder selbst generieren kann und Verifiable Credentials, um Berechtigungen für Datenräume zu belegen.

Föderation

Aus technischer Sicht wird eine föderierte Infrastruktur als eine Sammlung interoperabler, API-basierter IT-Plattformen angesehen, auf denen Benutzer*innen den Datenfluss über fortschrittliche Mechanismen des Identitäts- und Einwilligungsmanagements steuern. Da die Datenplattformen dezentral und somit föderiert sind, werden auch Schutzmechanismen verbunden.

Eine Federation benennt eine Gruppe von Akteur*innen, die durch direkte oder indirekte Zusammenarbeit, Daten bereitstellen, produzieren, verarbeiten oder konsumieren. Ziel ist eine gesteigerte Mehrwertgenerierung aus Daten gegenüber zentralisierenden, proprietären bzw. geschlossenen Systemen.

In einer Federation stellen verschiedene Technologie-Provider ein Netzwerk an Services zur Verfügung, um einen übergreifenden Austausch von Daten aus Spaces verschiedener Domänen zu ermöglichen.

Eine Federation wird auch aus dem Zusammenschluss (organisatorisch) von dezentralen Data Spaces zu einem gesamtheitlichen Data Space (DS Health Austria, DS Health Germany werden zum Beispiel zu einem European Data Space Health) gebildet.

Siehe auch: https://www.gaia-x.eu/what-is-gaia-x/federation-services

Gaia-X ist ein deutsch-französisches Leitprojekt, welches es sich zum Ziel gesetzt hat, den Weg für ein europäisches digitales Ökosystem zu ebnen. Vertreter*innen aus Wirtschaft, Wissenschaft und Politik entwickeln gemeinsam Vorschläge, um eine sichere und vernetzte Dateninfrastruktur zu schaffen, die den höchsten Ansprüchen an digitaler Souveränität gebührt und Innovationen fördert.

Gaia-X AISBL

Die Gaia-X Association (AISBL = Association internationale sans but lucratif) ist eine gemeinnütziger Vereinigung, welche die Bestrebungen innerhalb der Community festigen und die internationale Zusammenarbeit fördern soll, indem sie bei der Entwicklung rechtlicher Rahmenbedingungen und dem Ausbau und der Verbreitung notwendiger Dienste unterstützt. Europäische und internationale Partner sind dazu eingeladen, sich dem Vorhaben anzuschließen und zu seiner Entwicklung beizutragen. Gaia-X steht darüber hinaus im kontinuierlichen Austausch mit der Europäischen Kommission.

Datenökosystem

In biologischen Ökosystemen wie Wäldern findet sich eine Vielzahl symbiotischer Beziehungen. Pflanzen, Tiere, Pilze fördern und ergänzen sich gegenseitig zu aller Nutzen. Analog dazu können auch in digitalisierten Wirtschaftsräumen komplexe Wertschöpfungsstrukturen entstehen, in denen die einzelnen Akteure gegenseitig voneinander profitieren. Unter einem Datenökosystem versteht man eine dezentrale Koordinationsform zwischen Organisationen und Individuen, die ein gemeinsames Ziel verfolgen, sei es der Datenaustausch oder die Bereitstellung von Produkten oder Dienstleistungen, um
Innovationen voranzutreiben.

Identity bezeichnet die Identität des/der Teilnehmenden, der Organisation, etc.

  • Decentralized Identity: Die dezentrale Identität basiert auf mathematischen Prinzipien ohne die Notwendigkeit eines zentralen Verwaltungsdienstes.
  • Decentralized Identifier: Dezentrale Identifikatoren (DIDs) sind eine neue Art von Identifikator für überprüfbare, dezentrale digitale Identität. Diese neuen Identifikatoren sind so konzipiert, dass der Inhaber eines dezentralen Identifikators die Herrschaft darüber nachweisen kann und dass sie unabhängig von einem zentralen Register, einem Identitätsanbieter oder einer Zertifizierungsstelle implementiert werden können.
  • Verifiable Credentials: Kryptographische Schlüssel, die den Beweis einer Behauptung (z. B. Mitgliedschaft in einem Data Space) ermöglichen.
  • Verifiable Presentation: Darstellungs- und Übertragungs-Standard für Verifiable Credentials
  • Decentralized Identity Foundation: Die Decentralized Identity Foundation ist eine Organisation zur Standardisierung von Technologien für dezentrale Identitäten: https://identity.foundation

Metadaten liefern Informationen über Daten und sind eine Beschreibung dessen. Metadaten sind nicht der Inhalt der Daten, wie der Text einer Nachricht oder das Bild selbst. Es gibt unterschiedliche Arten von Metadaten, darunter: (i) Beschreibende Metadaten: Informationen über eine Ressource. Sie dienen der Auffindung und Identifizierung und umfassen Elemente wie Titel, Zusammenfassung, Autor und Schlüsselwörter. (ii) Strukturelle Metadaten: Informationen über Datencontainer. Sie geben an, wie Datencontainer zusammengesetzt sind, z. B. wie Seiten zu Kapiteln angeordnet sind. Sie beschreiben die Typen, Versionen, Beziehungen und andere Merkmale von digitalen Materialien. (iii) Administrative Metadaten: Informationen zur Verwaltung einer Ressource, wie z. B. Ressourcentyp, Berechtigungen sowie Zeitpunkt und Art der Erstellung. (iv) Referenz-Metadaten: Informationen über den Inhalt und die Qualität von statistischen Daten. (v) Statistische Metadaten (auch Prozessdaten genannt): Informationen zu Prozessen, die statistische Daten sammeln, verarbeiten oder produzieren. (vi) Rechtliche Metadaten: Informationen über den Urheber, den Inhaber des Urheberrechts und die öffentliche Lizenzierung, sofern vorhanden.

Der Nexyo Data Hub ist eine Softwaretechnologie, die es Unternehmen ermöglicht, dezentralisierte Daten zu verwalten, zu regeln und zu teilen. Es ist die erste Lösung, die Datenmanagement, -freigabe und -kontrahierung in nur einem Tool vereint. So ist es möglich vertrauenswürdige und wertvolle Datenverbindungen herzustellen und dabei die eigene Souveränität zu behalten.

(Data) Hub

Ein Data Hub ist eine moderne, datenzentrierte Storage-Architektur, die Unternehmen bei der Konsolidierung und dem Austausch von Daten unterstützt, damit Analysen und datenabhängige Arbeiten ermöglicht werden.

Föderierter Hub

Mehrere Data Hubs in einem Netzwerk können nach außen als ein Hub dargestellt werden. Ein Beispiel dafür sind mehrere Abteilungen einer Firma, die je einen Hub betreiben, die dann zu einem Firmenhub föderiert werden können. Auch föderierte Hubs können in einem Data Space teilnehmen.

Datenhoheit ist die Fähigkeit des/der Dateneigentümer*in zur ausschließlichen Selbstbestimmung in Bezug auf eigene Daten als Wirtschaftsgut. Dies ist eines der zentralen Konzepte, das Data Spaces zugrunde liegt. Für Teilnehmende in Data Spaces bedeutet Datenhoheit die Möglichkeit zum Anzeigen, Verarbeiten, Verwalten und Sichern ihrer Daten sowie essenzielle Kontrolle über ihre eigenen Daten, auch, wenn diese anderen Marktteilnehmer*innen zugänglich gemacht werden.

Ein vertrauenswürdiger Datenaustausch impliziert, dass Datenkreise den erwarteten Anforderungen entsprechen und Entwicklungen von Daten-Anwendungen oder Daten-Analysen in einem sicheren Umfeld erfolgen. (i) Security-by-Design: Sicherung von Datenkreisquellen durch eindeutige, nicht widerlegbare Vereinbarungen (z. B. Smart Contracts). (ii) Privacy-by-Design: Integration von Datenschutzbedingungen in die Entwicklung von Datenplattformen und Datenaustauschanwendungen. (iii) Assurance-by-Design: Integration von Sicherheits- und Datenschutzanforderungen in die Entwicklung von Datenplattformen und Datenfreigabeanwendungen. Ein solches vertrauenswürdiger Rahmen für Datenaustausch umfasst fünf Säulen:

  • Identifizieren
  • Schützen
  • Erkennen
  • Reagieren
  • Wiederherstellen.

Zu behandelnde Probleme umfassen Zugriffskontrolle, Nutzungskontrolle, Vertrauens- und Identitätsverwaltung. Diese Parameter müssen jedenfalls von einem Datenkreis und dem darüber liegenden Datenraum konzipiert sein.

Hintergründe zum Projekt

Datenräume und -kreise

Ein Datenkreis soll einen konkreten Datenaustausch in einem bestimmten Anwendungsbereich ermöglichen und einen Mehrwert für alle Teilnehmenden schaffen. Der Mehrwert entsteht in der Regel dadurch, dass bestehende Datensätze zusammengeführt werden und sich so neue Analyseergebnisse ergeben.

Das Bundesministerium für Klimaschutz, Umwelt, Energie, Mobilität, Innovation und Technologie (BMK) unterstützt über Förderungen und Initiativen die Entwicklung von datengetriebenen und nachhaltigen Technologien und Lösungen. Gemeinsam mit relevanten Stakeholdern wurde identifiziert, dass es für Datenkreise eine technische Umsetzung in Form einer Softwarelösung braucht, die einen strukturierten und geregelten Datenaustausch ermöglicht. Diese Entwicklung soll über einen neuartigen digitalen Marktplatz eingeleitet werden, der Datenanbieter*innen und Datensuchende unter Einhaltung der rechtlichen Voraussetzungen in einem Ökosystem zusammenbringt.

Mehr zu Datenräumen und Datenkreisen

Erster Schritt:  Die IÖB-Challenge

Gesucht wurde eine Softwarelösung, auf der Unternehmen in Datenkreisen Daten handeln können. Bei der IÖB-Challenge konnten Erstkonzepte für eine innovative Softwarelösung eingereicht werden. Nach der Bewertung durch eine Jury aus internen und externen Expert*innen werden jene Unternehmen, deren Lösungen bei den Bewertungskriterien besonders positiv hervorstechen, zu einem Innovationsdialog eingeladen. Die Gewinner*innen präsentieren ihr Konzept beim Austrian Data Day am 17.Juni 2021.

Im Anschluss an die Challenge wird über die weitere Projektgestaltung entschieden.

Mehr zur IÖB Challenge erfahren

Open-Source-Software für den souveränen Datenaustausch: Der Eclipse Dataspace Connector

Das Konzept Data Spaces definiert das Zusammenspiel verschiedener technologischer Komponenten, um den Datenaustausch über (Unternehmens-)Grenzen unter Wahrung der Datensouveränität zu fördern. Eine der wichtigsten Komponenten ist der sogenannte Connector, der die einzelnen Teilnehmer*innen eines solchen Datenraums miteinander verbindet und den Endpunkt für den eigentlichen Datenaustausch nach bestehenden Standards bildet.

Der Eclipse Dataspace Connector (EDC) bietet ein Connector-Framework für den souveränen, organisationsübergreifenden Datenaustausch. Das Framework enthält Module für die Datenabfrage, den Datenaustausch, die Durchsetzung von Richtlinien (Policy Enforcement), das Monitoring und Auditing.

Mehr Informationen zum EDC