Wie maßgeschneiderte KI bei komplexen Aufgaben unterstützt

Von Dr. Karl Häfner und Dr. Simon Birkholz

Stellen Sie sich vor, es gäbe eine KI, die Sie maßgeschneidert bei Ihren täglichen, auch komplexen Arbeitsabläufen unterstützt – so einfach zu bedienen wie ChatGPT.

Für die meisten Technik-Enthusiasten ist generative Künstliche Intelligenz längst Teil ihres Alltags geworden. So lassen Nutzer immer häufiger Texte und Bilder für ihre tägliche Arbeit von ChatGPT und Midjourney generieren. Fortgeschrittene Anwender nutzen KI-basierte Werkzeuge sogar, um Software zu entwickeln oder um ihre Geschäftszahlen zu analysieren. Zunehmend sind diese Werkzeuge so gestaltet, dass sie sich nahtlos in den täglichen Arbeitsablauf integrieren lassen. Das spart Zeit und vermindert manchmal die Arbeit an eher unbeliebten Tätigkeiten.

Für komplexere Aufgaben gibt es allerdings meistens noch keine leicht verfügbaren KI-Services. Worauf es bei der Entwicklung maßgeschneiderter KI für Unternehmen wirklich ankommt, das erfahren Sie im ersten Teil unserer Reihe „AI Deep Dive“.

KI als spezialisierte Assistenten für individuelle Anforderungen

Seit einigen Monaten kommen unsere Kunden deshalb vermehrt auf uns zu, um KI als spezialisierte Assistenten für ihre individuellen Anforderungen einsetzen zu können. So entstehen beispielsweise Chatbots, die Antworten basierend auf umfangreichen technischen Handbüchern liefern. In anderen Anwendungen unterstützt die KI fast unauffällig durch Empfehlungen in der bisher rein manuellen Produktdokumentation.

Besonders wichtig: Die Antwort der KI muss für den Nutzer immer nachvollziehbar und prüfbar sein.

Wenn der Nutzer per Chat-Funktion mit unseren KI-Implementierungen interagiert, erhält er nicht nur eine Antwort. Die KI verlinkt außerdem auf die Dokumente, in denen die für die Antwort genutzten Informationen gefunden wurden.

Retrieval Augmented Generation (RAG): Der Schlüssel zu maßgeschneiderten KI-Anwendungen

Doch wie entsteht eine KI-Anwendung basierend auf eigenen Daten? Hierfür hat sich das sogenannte Retrieval Augmented Generation-Muster etabliert (RAG).

In der Abbildung haben wir den Workflow einer KI-Anwendung, die auf nutzereigenen Daten basiert, abgebildet. Zunächst werden die Unternehmenseigenen Daten (Your Data) in sogenannte Chunks zerlegt und in einer Vektordatenbank abgelegt. Stellt ein Nutzer eine Anfrage an die KI-Anwendung, wird daraus eine Suchanfrage (Search Query) an die Vektordatenbank gestellt. Die relevanten Einträge in der Datenbank werden dann gemeinsam mit der Nutzerfrage an ein GPT-Modell weitergegeben. Mithilfe der relevanten Einträge aus der Datenbank beantwortet das GPT-Modell anschließend die Nutzerfrage.

Ein Bild, das Text, Screenshot, Design enthält. Automatisch generierte Beschreibung

Abbildung: Workflow einer KI-Anwendung basierend auf eigenen Daten

Oft unterschätzt: Eine umfassende Datenbasis ist das A & O für KI-Anwendungen

Für die hier beschriebenen generativen KI-Technologien kommt die Erstellung einer umfassenden Datenbasis eine wichtige Bedeutung zu. Dieser Schritt wird leider aus Zeit- und Kostengründen oft unterschätzt. Die Vielzahl der Texte, die Unternehmen in ihren Handbüchern, Wikis und Dokumentationen gesammelt haben, sind für generative KI aber von unschätzbarem Wert. Erst wenn man diese Texte, die oft einen Großteil des Wissens des Unternehmens beinhalten, für die KI zugänglich macht, kann man ihr Potential tatsächlich nutzen.

Große Mengen an Texten sind unstrukturierte Daten, deren Nutzen nicht immer leicht zu erschließen ist. Nur weil ich ein Buch im Regal stehen habe, weiß ich noch lange nicht, was in ihm steht und wie ich das Wissen daraus am besten anwende. Selbst ein ausgefeiltes System, das dafür sorgt, dass das Buch an der perfekten Stelle im Regal steht, hilft mir nicht weiter.

KI-Systeme sind hier nicht anders als Menschen. So wie ein Mensch ein Buch erst lesen, sich dabei ggf. Notizen machen und das Gelernte in Beziehung zum bereits vorhandenen Wissen stellen muss, muss ein Text auch für eine KI zunächst in verdauliche Abschnitte zerteilt, mit Metadaten sowie weiterem Kontext versehen werden. Erst dann können Mensch und KI tatsächlich etwas mit dem Text anfangen.

Für KI-Technologien kommt die Herausforderung hinzu, dass typische Dokumentations-Texte eben nicht nur Text, sondern auch Abbildungen aller Art, Tabellen, Überschriften, Hinweise, Fußnoten und ähnliches enthalten. Menschen fällt es leicht, diese alle miteinander in Beziehung zu setzen. Selbst die besten aktuellen multimodalen KI-Modelle kommen dabei jedoch an ihre Grenzen und auch auf absehbare Zeit wird diese Herausforderung bestehen bleiben.

Shit in, shit out: Für erfolgreiche KI-Anwendungen braucht es gut aufbereitete Daten

Die Lösung für diese Probleme liegt in der Vorverarbeitung der Dokumente.

Es müssen Pipelines implementiert werden, die die Dokumente aus ihren Ursprungsquellen beziehen, sie umformen, ihre Elemente miteinander in Beziehung setzten, sie um Metadaten anreichern und sie schließlich in neuer Form an einem Ort speichern, auf den die KI dann Zugriff hat (typischerweise ein Suchindex oder eine Vektordatenbank).

Diese Vorverarbeitung hat direkten Einfluss auf die Qualität der eigentlichen KI-Anwendung: Umso spezifischer die Pipeline auf die jeweiligen Dokumente angepasst ist, umso höher die Qualität und Zuverlässigkeit. Aus unserer Erfahrung heraus hat keine andere Stellschraube während der Entwicklung einer KI-Anwendung einen vergleichbar großen Einfluss auf das Endergebnis.

Deshalb muss man auch damit rechnen, das 70-80% des Aufwands während der Implementierung einer KI-Anwendung (ohne Testen und Evaluieren) auf die pre-processing Pipelines entfallen.

Testen für die Praxis: Zuverlässigkeit und Alltagstauglichkeit von KI-Lösungen sicherstellen

Nach einer gelungen Datenaufbereitung und der Implementierung der KI-Anwendung steht ein weiterer wichtiger Arbeitsschritt. Für den Einsatz im Unternehmensalltag muss die KI-Anwendung zuverlässig funktionieren. Insbesondere Falschaussagen, die auch als Halluzinationen bezeichnet werden, müssen so weit wie möglich ausgeschlossen werden.

Mit einer sorgfältigen Aufbereitung der Daten wird eine wichtige Grundlage für eine zuverlässige Anwendung geschaffen.

In jedem Fall muss die Anwendung vor dem Live-Betrieb sorgfältig getestet werden. Das systematische Testen einer Lösung ist in allen Bereichen der IT weit verbreitet. Somit überrascht es nicht, dass auch für KI-Anwendungen bewährte Testverfahren gebraucht werden. Das nicht-deterministische Verhalten der KI verlangt aber nach Vorgehensweisen, die sich von Testmethoden der klassischen IT unterscheiden.

In unseren Projekten bauen wir auf drei Test-Methoden auf.

Erstens wird der Prototyp immer von Domänenexperten getestet. In einem Testzeitraum weniger Wochen, in dem Mitarbeitende unserer Kunden den Prototypen in ihrer täglichen Arbeit nutzen, kann so sichergestellt werden, dass die Anwendung praxistauglich funktioniert. Die Tester geben dabei Rückmeldungen zur Qualität der generierten Antworten, die vom Entwicklungsteam für Fehlerbehebungen und Feinjustierung genutzt werden.
Zweitens wird der Prototyp durch ein Set vorgefertigter Fragen getestet. Damit werden in der Praxis seltene Fälle, die spezifisch für das jeweilige Anwendungsfeld sind, abgedeckt.
Drittens wird mit einem noch größeren Set generischer Fragen die allgemeine Performance, Sicherheit und die Unschädlichkeit der Antworten sichergestellt.

Fazit: Mehr Mut zur maßgeschneiderten KI-Anwendung

Auch wenn wir in diesem Artikel vor allem über die Herausforderungen gesprochen haben, möchten wir Sie dazu ermutigen, Ihre eigenen maßgeschneiderten KI-Anwendungen zu entwickeln. Denn seien wir mal ehrlich: Wer im Wettbewerb die Nase vorn haben will, dem helfen keine KI-Lösungen von der Stange.

Unser Team begleitet Sie gern bei der Konzeptionierung von KI-Werkzeugen für Ihren individuellen Einsatzzweck und hilft insbesondere bei der dafür so wichtigen Datenaufbereitung.

Lust auf den ersten Schritt zur maßgeschneiderten KI?

Als einfachen ersten Schritt zur maßgeschneiderten Lösung bieten wir einen KI-Workshop, in dem wir gemeinsam mit Ihnen Anwendungs-Szenarien und praktische Lösungswege entwickeln.

Mehr Informationen zu unserem Workshop „KI-Kick-Start“ finden Sie hier.

Über die Autoren:

Dr. Karl Häfner hat Wirtschaftsgeographie studiert und arbeitet seit 2019 als Data Scientist im Bereich Natural Language Processing und AI. Bereits seit 2021 unterstützt er Unternehmen dabei generative KI und Large Language Models in ihre Geschäftsprozesse zu integrieren. Bei der Dataciders-Tochter ixto GmbH leitet er das Team AI-Solutions.

Dr. Simon Birkholz hat Physik studiert und begann 2016 seine Arbeit als Data Scientist. Als Berater war er unter anderem bei Mercedes-Benz, Siemens, Vattenfall und Bayer im Einsatz. Heute ist er Geschäftsführer der Dataciders-Tochter ixto GmbH mit Schwerpunkten auf Data Science und KI.

Wie maßgeschneiderte generative KI Ihr Unternehmen bei komplexen Aufgaben unterstützt