KI – von der Quelle zur Senke


Es ist nicht in allen Fällen bewiesen, aber die Vermutung erscheint offensichtlich: Trotz virtueller Verbotsschilder und Bezahlschranken „plündern“ die Betreiber großer LLMs (Large-Language-Modelle) den Datenschatz des Internets. Die KI-Pioniere gehören zu den besten Informatikern der Welt, damit sollte es ihnen ein Leichtes sein, jede Hürde und Schranke zu umgehen.
Es gibt eine WWW-Etikette: Am Beginn des HTML-Codes einer Website (Homepage) lässt sich ein virtuelles Eintrittsverbot für Bots und Crawler programmieren. Diese Schranke kann aus verschiedenen Gründen sehr sinnvoll sein: Ist etwa eine Website im Aufbau und noch mit Testdaten bestückt, dann macht es für einen Google-Crawler wenig Sinn, diese Seiten zu indexieren. Ein Web-Crawler ist ein automatisiertes Programm (auch Spider oder Bot genannt), das das Internet durchsucht, um Inhalte von Websites zu sammeln und zu indexieren. Der Crawler folgt Hyperlinks, um neue Webseiten zu entdecken, und speichert Informationen wie Titel, Bilder und Schlüsselwörter, um einen durchsuchbaren Index für Suchmaschinen wie Google oder Bing zu erstellen.
Naturgemäß lässt sich dieses Verbotsschild für Web-Crawler am Beginn einer Webseite auch zum Schutz des eigenen Contents nutzen. Voraussetzung ist natürlich die Einhaltung der WWW-Etikette. Anders gesagt: Jeder Schutz lässt sich mit noch raffinierterer Programmierung umgehen. Es gibt zahlreiche Experimente, die belegen, dass die Web-Crawler der großen IT-Pioniere zum Anlernen ihrer LLMs regelmäßig die virtuellen Verbotsschilder umgehen.
Autoren, Journalisten, Künstler, Fotografen und alle Content-Produzenten empfinden diese Umgehung einer technischen Schranke als Copyright-Verletzung und Diebstahl geistigen Eigentums. Es gibt in den USA vorläufige Rechtsgutachten und Gerichtsentscheide zu diesem Thema. Kurz zusammengefasst: Einige US-Richter sind der Meinung, dass die Verbotsschilder zum Zweck des KI-Trainings umgangen werden können. Was aber nicht bedeutet, dass bei KI-Antworten und -Ergebnissen diese Texte und Fotos ausgespielt werden dürfen. Es ist eine dünne Grenze, die vielleicht juristisch haltbar ist, wohl aber dem menschlichen Empfinden widerspricht.
Zum Trainieren darf die KI also die E3-Magazine lesen, aber zitieren darf sie nicht. Dem Hilfesuchenden aus der SAP-Community ist wahrscheinlich schon mit einer guten Zusammenfassung aus dem E3 geholfen, was die KI sicher mit den „Trainingsdaten“ ganz hervorragend schafft. Auf den Luxus eines wörtlichen Zitats kann dann gerne verzichtet werden – die Katze ist ohnehin aus dem Sack, oder?
Letztendlich ist es ein finanzielles Problem: Wer immer sich auch in kommerzieller Art der E3-Inhalte bediente, der stand in einer Geschäftsbeziehung zum Verlag. Damit waren das so wichtige Geben und Nehmen in der SAP-Community gesichert. Und es konnten neue Quellen entstehen. „Plündert“ nun die KI die E3-Quellen ohne entsprechende Gegenleistung, dann besteht die Gefahr, dass die E3-Quelle und viele andere, unabhängige SAP-Quellen versiegen.
In wenigen Jahren könnten der KI dann nur die offiziellen SAP-Webseiten und das WWW-Angebot des Anwendervereins zum Training der Large-Language-Modelle zur Verfügung stehen. Die Antworten in der Senke werden bescheidener sein. (pmf)




