Damit Künstliche Intelligenz valide Ergebnisse liefert, muss ihre Datengrundlage stimmen. Klingt einfach, ist es aber nicht: Unternehmen, die ihre eigenen Daten für KI-Anwendungen nutzen wollen, stehen vor großen Herausforderungen.
Das Potential von Künstlicher Intelligenz (KI) liegt für Unternehmen nicht nur darin, irgendeine KI zu nutzen, um das Wissen des Internets für sich auszuschöpfen. Viel entscheidender ist, dass Unternehmen auch ihre eigenen und einzigartigen Daten nutzen und mit vortrainierten Modellen auf Basis öffentlicher Daten kombinieren können. Diese Mischung aus öffentlichen und proprietären Daten kann generative KI zur umfassendsten Wissenseinheit im Unternehmen machen und eine Vielzahl von Innovationsmöglichkeiten bieten.
Um mit generativer KI erfolgreich zu sein, müssen Unternehmen ihre eigenen Erwartungen definieren, was KI leisten kann und was nicht. Und darauf basierend die bestehenden Datensysteme anpassen, um die Relevanz und Wirkung für die Zukunft zu maximieren. Für den Erfolg ist ein leistungsfähiges Datenmanagement erforderlich sowie ein ausgeklügeltes Verfahren, um zu bestimmen, welche Daten einbezogen und wie diese Daten verarbeitet werden sollen.
Zuerst sollten Unternehmen ihre Datensilos beseitigen
Wenn verschiedene Quellen von Kundendaten oder von Business-Intelligence-Infos (BI) isoliert und unabhängig voneinander gespeichert werden, ist es für die KI viel schwieriger, Verbindungen zwischen den Datensätzen herzustellen. Daher hat die Zentralisierung von Unternehmenswissen Priorität. Zudem müssen Unternehmen einen Datenkatalog erstellen, um Tabellen zu definieren, Metadaten zu organisieren und die Governance-Fähigkeiten zu verbessern. So kann man KI-Datensätze verwalten und effizient auf Datenschutzgesetze und Regulierungen reagieren. Ein Datenkatalog kann wichtige Funktionen zur Änderungsverfolgung und Indizierung bereitstellen, um bei der Datenverwaltung Zeit und Rechenleistung zu sparen.
Schließlich geht es noch um die Automatisierung der Datenintegration und um das Datenmanagement. Der Aufbau und die Pflege von Daten-Pipelines können zeitaufwändig und frustrierend sein, weil sich Schemata, Endpunkte oder APIs im laufenden Betrieb in der Regel häufig ändern. Daten-Teams sollten sich besser darauf konzentrieren, Erkenntnisse zu gewinnen, anstatt ihre Zeit darauf zu verwenden, Datenströme zu organisieren und manuell integrieren zu müssen. Heute stehen Unternehmen technische Lösungen für automatisierte Integration, Cloud Data Lakes und Visualisierungsplattformen zur Verfügung und diese ermöglichen einen einfachen, schnellen und präzisen Datenzugriff. Dabei sind die Arbeitslasten skalierbar. Robuste, automatisierte Datensysteme schaffen Vertrauen in die Ergebnisse eines KI-Modells, da damit Fehlerquellen und Irrtümer durch Menschenhand vermieden werden.
Die Vorbereitung der Daten für generative KI hängt von zwei wichtigen Faktoren ab: Einerseits von der Fähigkeit, Daten aus verschiedenen Quellen automatisiert, zuverlässig, effizient und sicher zu transferieren und zu integrieren. Andererseits müssen Data Governance, Schutz und Zugriff auf Daten gewährleistet sein. Diese Aspekte in der Datenbereitstellung werden oft übersehen und haben in der Vergangenheit viele Versuche, das volle Potential von Big Data zu nutzen, zu Fall gebracht.
Es gibt einige Voraussetzungen für den GenAI-Einsatz
Generative KI erfordert eine hohe Datenreife, die sowohl technologische als auch organisatorische Elemente umfasst. Zu den technologischen Anforderungen gehören ein zentrales, Cloud-basiertes Daten-Repository (Data Warehouse, Lake oder Lakehouse), das als „Single Point of Truth“ dient. Zudem braucht man ein Tool zur automatisierten und zuverlässigen Datenaufnahme mit schnellen, zeitnahen Aktualisierungen und hoher Fehlerresilienz. Dazu zählen auch Tools für kollaborative, versionskontrollierte Modellierung und Datenumwandlung. Data-Governance-Funktionen wie Verschlüsselung und Zugriffskontrolle, Datenkatalogisierung und automatisierte Benutzerbereitstellung sind nicht zuletzt entscheidend, aber mit entsprechenden Lösungen zu meistern. Nicht zu unterschätzen sind die Anforderungen an die Organisation des Unternehmens: Vor allem gilt es eine skalierte Analyseorganisation mit Fachexperten in verschiedenen Funktionseinheiten zu etablieren. Es muss regelmäßige Berichte und Dashboards zur Entscheidungsunterstützung geben und jeder Ansatz in der Analytik muss an die Bedürfnisse der Stakeholder angepasst sein. Überhaupt gilt es auch außerhalb der Data Scientists und Data Engineers gute Datenkenntnisse und eine entsprechende Katalogisierung der Datenbestände zu etablieren.
Kurz gesagt, der Erfolg von Künstlicher Intelligenz in Unternehmen hängt von einer starken Datenbasis ab, die durch die Kombination eigener und öffentlicher Daten entsteht. Automatisierte Datenintegration und effektives Datenmanagement spielen dabei eine zentrale Rolle. Nur durch die Zentralisierung von Wissen und die Nutzung moderner Integrationstools kann das volle Potenzial der KI ausgeschöpft und innovative Lösungen vorangetrieben werden.