Die Meinung der SAP-Community, MAG 24-07 / 08, Open Source Kolumne

Enterprise-KI-Chatbots mit Open-Source-Software

Wer ChatGPT nutzt, gefährdet seine Daten. Doch um mit dem technischen Wandel mithalten zu können, darf KI nicht ignoriert werden. Wie also kann man die Sicherheit interner Daten mit KI vereinen? Die Antwort: Open Source!

Maximilian Rehms, FIS-ASP

Felix Förster, FIS-ASP

23. Juli 2024

Inhalt:

LLM und eigene Daten

Inference Engine

Zu den Kommentaren (0)

Die Gefahr von Closed Source LLMs: Bis heute ist nicht publiziert worden, wie die Sprachmodelle von großen AI-Chat-Hostern trainiert wurden. Ganz im Gegenteil: Immer wieder kommen Meldungen auf, Teile der Trainingsdaten seien urheberrechtlich geschützt. Solange das Trainingsverfahren nicht offengelegt wird, besteht auch immer die Gefahr, dass jede Nachricht, jede Webseite, jeder Text und damit potenziell auch interne Firmendaten für das Training genutzt werden. Denn eins ist auch klar: Entwickler von Sprachmodellen leben von den Daten und müssen Sprachmodelle permanent weitertrainieren. Woher kann man neue Daten nehmen, wenn bereits das gesamte freie Internet genutzt wurde?

Die bahnbrechende Eigenschaft von großen AI-Chat-Hostern ist nicht etwa, dass im Hintergrund eine Art Superintelligenz werkelt, die den Menschen ersetzen kann. Da es sich nur um Wahrscheinlichkeitsrechnung handelt, ist ein Chatbot kein intelligentes Wesen. Auch wenn das Konstrukt in Gänze hochkomplex ist, ist das Erfolg versprechende Element simpel: Sprache. Large-Language-Modelle ermöglichen die Interaktion mit Computersystemen durch natürliche, menschliche Sprache. Die Schnittstelle wird noch weiter vereinfacht: ein Chat. Kommunikation mit einem Computer, als würde man einem Freund via Messenger schreiben.

LLM und eigene Daten

Die Unterstützungsmöglichkeiten sind gewaltig: ein Trainingsplan zur erfolgreichen Absolvierung eines Triathlons? Kein Problem. Quälend lange Mails oder Verträge auf die Kernelemente zusammenfassen? In Sekunden erledigt. Analyse von Auffälligkeiten in großen SAP-Log-Dateien? Sofort abgeschlossen. Verknüpft man ein LLM nun noch mit eigenen Daten, ist das Potenzial schier unendlich. Man stelle sich nur mal vor, was alles möglich ist, wenn man sein ganzes Ticketsystem als Wissensdatenbank mit natürlicher Sprache befragen kann. Ihre Daten sind Ihre Stärke.

LLMs schöpfen das größtmögliche Potenzial aus dieser Stärke aus. LLMs machen Ihre Daten lebendig. Nachdem zum Beispiel OpenAI keinen Einblick gewährt, kann man sich der Sicherheit der eigenen Daten hinter den verschlossenen Türen nie sicher sein. Doch genau diese geschlossene Tür ist es, die eine andere öffnet: Open Source.

Open Source liefert den Schlüssel: Jedes Detail kann im Programmcode nachverfolgt, jede Anpassung geprüft werden. Dadurch wissen Sie, was mit Ihren Daten passiert: nichts. Denn Sie senden keine Daten an irgendeine Firma, ganz im Gegenteil, Sie holen sich das Produkt ins eigene Haus. Es ist in etwa so, als könnten Sie ChatGPT als fertiges Produkt kaufen und in Ihr Rechenzentrum stellen. Sie haben den Schlüssel und damit die volle Kontrolle, wie und ob Ihre Daten mit KI verknüpft werden. Zusammengefasst ist der Vorteil von Open Source: Transparenz.

Inference Engine

Zuerst wird auf starker Hardware eine Inference Engine installiert, die den Betrieb von Sprachmodellen ermöglicht. Es fehlt noch das passende LLM, welches man auf Huggingface für jeden Einsatzzweck finden kann. Um dann auf Ihre Daten zuzugreifen, bieten sich zwei Möglichkeiten: Finetuning und Retrieval Augmented Generation (RAG). Während Finetuning zu viel Leistung und Kosten benötigt, bietet RAG eine günstige Alternative.

Hierbei verändert man die Daten des LLM nicht, sondern liefert einen Kontext aus dem eigenen Datenbestand mit. So, als würden Sie dem LLM sagen: Hier ist mein Ticket 1234, fasse mir den Inhalt zusammen. Dadurch, dass der Kontext stets mitgegeben wird, ergibt sich ein weiterer Vorteil: Im Gegensatz zu den Online-Anbietern ist der Datensatz immer aktuell.

Mit RAG und einem quelloffenen LLM haben Sie alle Voraussetzungen in der Hand, um eigene Daten mit der Technologie zu verknüpfen. Die Antwort auf die Frage, wie man mit dem technologischen Wandel Schritt halten kann und sich dennoch keine Sorgen um die Sicherheit der eigenen Daten machen muss, ist letztendlich einfach: Open Source.

Zum Partner-Eintrag:

Maximilian Rehms, FIS-ASP

Maximilian Rehms ist Cloud Engineer bei FIS-ASP.

Alle Artikel des Autors

Felix Förster, FIS-ASP

Felix Förster ist AI Consultant im Bereich Infrastruktur, FIS-ASP

Alle Artikel des Autors

Enterprise-KI-Chatbots mit Open-Source-Software

LLM und eigene Daten

Inference Engine

Schreibe einen Kommentar (Antwort abbrechen)

Der verborgene ROI von BTP: Warum CFOs den Clean Core lieben werden

Künstliche Intelligenz: Trendstudie Digital 2030

SAP kann alles

Veranstaltungsort

Veranstaltungsdatum

Reguläres Ticket

Veranstaltungsort

Veranstaltungsdatum