Big Data funktioniert nur mit semantischen Technologien – 5 Nutzungsszenarien

Bisher wurden semantische Technologien noch sehr akademisch diskutiert. Dabei gibt es längst Lösungsansätze und bereits heute praxisrelevante Nutzungsszenarien. Prof. Dr. Martin Gaedke von der Technischen Universität Chemnitz (TU Chemnitz) und Christian Opitz vom Technology-Provider Netresearch geben Einblick in konkrete Anwendungen und Entwicklungsziele. Beide unterstützen das vom BMBF geförderte Wachstumskern-Projekt “Linked Enterprise Data Services” (LEDS), welches sich mit der Entwicklung von Methoden zur Verarbeitung großer Datenmengen beschäftigt. Kernziele sind die Integration unterschiedlicher Datenquellen sowie die Verknüpfung von Big Data zu neuen Dienstleistungen.

Unternehmen stehen auf dem Weg zum Big Data vor einer entscheidenden Herausforderung: Nicht das Sammeln von Daten ist das Schwierige, sondern die (Weiter-) Verarbeitung und Integration. Das hat zwei Ursachen:
Daten liegen in der Regel nicht einheitlich formatiert und strukturiert vor. Von Fließtexten, Datenbankeinträgen und Tabellen bis zu Bildern, Videos und kurzen Social Media-Schnipseln – es gibt etliche Datentypen, die nicht wirklich miteinander verknüpft werden können. Hinzu kommen die vielen verschiedenen Quellsysteme mit ihren unterschiedlichen Datenformaten wie SAP, Windows, iOS etc.
Datenquellen entwickeln sich weiter. Die Datenquellen müssen also ständig synchronisiert und die Ergebnisse der Datenverknüpfungen überprüft werden (die so genannte Co-Evolution von Daten).

„Die Lösung zu diesen Problemstellungen steckt in den semantischen Technologien“, erläutert Prof. Dr. Gaedke, Professor für Verteilte und selbstorganisierte Rechnersysteme der Fakultät für Informatik an der TU Chemnitz und Leiter der Arbeitsgruppe Qualität und Kohärenz bei LEDS. „Semantische Technologien helfen dabei, verschiedenste Datentypen zu vereinheitlichen, sie zu verknüpfen und ineinander zu überführen. Ferner stellen sie einheitliche Schnittstellen zwischen den verschiedenen Datenlieferanten und -nutzern sicher und ermöglichen die Definition von Prozessen, die sowohl die Qualitätssicherung als auch die Synchronisation großer Datenmengen effizient gewährleisten.“

Nutzungsszenario 1: Plattformübergreifende, erkenntnisorientierte Datenintegration

In Unternehmen existiert mit ERP, CMS, MES, PIM und CRM oft ein regelrechtes Chaos verschiedener Backend-Systeme. Um der Datenvielfalt gerecht zu werden, setzt sich in Unternehmen deshalb langsam das Konzept der Data Lakes durch. Diese bilden eine Art riesige unternehmensinterne Datensammelstelle. Pro forma werden damit zwar in Unternehmen Datensilo-Wände eingerissen. In diesem “Datensee” liegen die Daten jedoch noch immer in ihrem ursprünglichen Datenformat vor. Videos finden sich neben PDFs und SQL-Datenbänken. Eine sinnvolle Integration der verschiedenen Datensätze wird damit noch nicht möglich.

Genau diese Datenintegration, -verdichtung und -weiterverarbeitung ist aber gerade der entscheidende Vorteil von Big Data. Nur die Integration ermöglicht weiterführende Erkenntnisse für Business Intelligence, Produktionsplanung und Anwendungen wie Produktdatenmanagement und Content Augmentation.

Ein semantischer Lösungsansatz ist daher ein zwischen Data Lake und den Backend-Anwendungen zwischengeschalteter Enterprise Service Bus (ESB).

„Dieser ESB transformiert automatisch alle Datensätze in strukturierte, semantische RDF-Daten, bevor sie in den Data Lake importiert werden. Gleichzeitig kann er die RDF-Daten auch wieder in das jeweilige Backend-System-Format überführen, in dem die Daten verarbeitet werden sollen“, erklärt Christian Opitz die Grundfunktion der semantischen Anwendung. Als Leiter Innovationen bei Netresearch und verantwortlicher Leiter der Arbeitsgruppe Vernetzte E-Commerce-Dienste bei LEDS legt er sein Hauptaugenmerk auf die freie Verwendbarkeit von Daten über mehrere Plattformen hinweg. „So werden Daten frei kombinierbar. Beliebige Anwendungen können auf beliebige Daten aus anderen Anwendungen zugreifen, diese verdichten und zu neuem Wissen aggregieren. Das vereinfacht nicht nur die gesamte IT-Landschaft im Unternehmen. Das Potential von Big Data kann so erst wirklich in Unternehmen voll ausgeschöpft werden.“

Nutzungsszenario 2: Ergänzung journalistischer Arbeit durch Content Augmentation

Sowohl Journalisten als auch Redakteure von Onlineshops stehen vor derselben Herausforderung: Wie halte ich meine Inhalte aktuell? Wie entwickle ich Inhalte (Content), der sich von meinen Mitbewerbern abhebt und mich im Netz sichtbarer macht? Und wie schaffe ich das in kürzester Zeit?

Eine Lösung für diese Herausforderungen soll die semantische Content Augmentation (Inhaltsvermehrung) liefern.

Prof. Dr. Gaedke: „Die Idee hinter dem Ansatz ist dabei einfach, klar und elegant zugleich. Der Text oder die Information eines Redakteurs bildet zunächst die Ausgangssituation. Die semantische Technologie sucht aus verschiedenen externen Datenquellen Zusatzinformationen, die zu Worten, Sätzen oder ganzen Textpassagen des Redakteurs passen, sie vervollständigen oder ergänzen. Dieses automatisch hinzugefügte so genannte Hintergrundwissen, versetzt den Text mit weiteren Erfahrungsebene und verknüpft ihn gegebenenfalls mit tagesaktuellen Bezügen.“

Content Augmentation könnte somit zum einen über ein Vorschlagswesen die Recherche von Redakteuren unterstützen. Weiterhin würde damit eine automatisierte Erstellung und Aktualisierung thematischer Landingpages sowie die automatisierte Verknüpfung von Texten untereinander oder mit Beiträgen im sozialen Netz ermöglicht.

Nutzungsszenario 3: Vereinfachtes Management von Produktdaten

In Onlineshops aber auch unternehmensinternen Produktmanagementsystemen sind fehlerfreie und aussagekräftige Produktdaten entscheidend – für die Suchmaschinen-Auffindbarkeit und Verkaufserfolg (Conversion) genauso wie für das Produktmanagement. Die Konzeption und Modellierung der Daten ist jedoch aufwendig und erfordert Fachkenntnisse sowohl im Umgang mit dem Backend-System als auch den Produkten selbst.

Christian Opitz: „Semantische Technologien greifen den Redakteuren und Managern gezielt unter die Arme. Zum Beispiel können die Technologien semantische Produktinformationen aus Konkurrenz-Onlineshops oder anderen Quellen extrahieren. Dadurch werden dem Nutzer konkrete Attribute und Attributgruppen empfohlen, unter denen diese im Onlineshop eingestellt werden sollten, um eine möglichst hohe Sichtbarkeit zu erreichen. Wie auch bei der Content Augmentation handelt es sich dabei um ein Vorschlagswesen, dass dem Nutzer langwieriges Suchen und Ausprobieren erspart.“

Nutzungsszenario 4: Bessere Suchergebnisse durch semantische Suche

Im Kampf um Aufmerksamkeit im Internet sind noch immer die sogenannten Keywords (Schlagworte) Hauptreiber jeder Optimierung. Jedoch basieren herkömmliche Suchmechanismen auf der reinen Verschlagwortung unstrukturierter Texte auf Basis der Wortstämme. Das Resultat sind häufig fehlerhafte, unerwünschte oder ungenaue Suchergebnisse. Grund ist, dass mit dieser sehr basalen Verschlagwortung ähnliche Begriffe und Synonyme nicht erkannt werden. Zugleich erkennt die Suchmaschine keine Mehrdeutigkeiten.

Prof. Dr. Gaedke: „Ein Beispiel für diese Lücken im Suchalgorithmus ist das Wort “Matchbox”. Dies ist mittlerweile ein umgangssprachliches Wort für Spielzeugautos. Gleichzeitig bedeutet es auch Zündholzschachtel. Die semantische Suche würde Schlagworte mit Hintergrundwissen z. B. aus der Open Data Cloud anreichern. Das ermöglicht eine Kontextualisierung von Schlagworten und Webseiteninhalten. Sucht nun ein Nutzer nach “Matchbox” würden auch Händler (hoch platziert) angezeigt werden, die grundsätzlich Spielzeugautos führen, selbst wenn sie keine Matchbox im Angebot haben.“

Nutzungsszenario 5: Cross-Selling steigern mit semantischem Vorschlagswesen

Ein klassisches Cross-Selling-Werkzeug in Onlineshops ist der Reiter “Diese Produkte könnten Sie auch interessieren”. Um seinen Kunden jedoch ähnliche oder passende Angebote vorzuschlagen, müssen die Beziehungen zwischen den einzelnen Artikeln hinterlegt werden. Aktuell erfolgt dies entweder manuell oder durch aufwendige Algorithmen. Die Erfolgsquote ist meist fraglich.

Christian Opitz: „Das semantische Vorschlagswesen, das wir auch Recommendation Engine nennen, funktioniert ähnlich der semantischen Suche. Angebote werden mit Daten aus anderen Quellen, wie z. B. Data Lakes oder dem Unternehmens-CRM, abgeglichen. So könnten das Klickverhalten, die Verlaufsdaten und die Einkaufshistorie von Kunden automatisiert herangezogen werden, um Interessen abzuleiten und passgenaue Angebote zu machen.“

Onlineshops würden damit nicht weiter in das Fettnäpfchen treten, seinen Kunden Angebote zu bereits gekauften oder mehrfach abgelehnten Produkten zu unterbreiten.

Fazit

Viele Unternehmen beschränken sich in ihrer Big-Data-Strategie aktuell noch auf das reine Datensammeln und gehen häufig umständliche Wege, um diese für sich nutzbar zu machen. Insbesondere in einer zunehmend digitalen Wirtschaft wird es in Zukunft immer wichtiger, aus verschiedenen Quellen passgenaue Angebote in kürzester Zeit zu generieren. Semantische Strategien versprechen schlanke und effektive Lösungen für die Weiterverarbeitung großer und variabler Datensätze. Dabei stehen sowohl die Zeit- als auch die Kostenersparnis im Fokus.

Weitere Informationen zum vom BMBF geförderten Wachstumskern-Projekt Linked Enterprise Data Services finden Sie unter www.leds-projekt.de.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.