IA – de la source au puits


Cela n'a pas été prouvé dans tous les cas, mais l'hypothèse semble évidente : malgré les panneaux d'interdiction virtuels et les barrières de paiement, les opérateurs de grands modèles linguistiques (LLM) „ pillent “ le trésor de données que représente Internet. Les pionniers de l'IA comptent parmi les meilleurs informaticiens au monde, ils devraient donc pouvoir contourner facilement tous les obstacles et toutes les barrières.
Il existe une étiquette WWW : au début du code HTML d'un site web (page d'accueil), il est possible de programmer une interdiction d'accès virtuelle pour les robots et les crawlers. Cette barrière peut s'avérer très utile pour différentes raisons : si un site web est en cours de construction et contient encore des données de test, il n'est pas très utile pour un crawler Google d'indexer ces pages. Un robot d'indexation est un programme automatisé (également appelé spider ou bot) qui parcourt Internet afin de collecter et d'indexer le contenu des sites web. Le robot d'indexation suit les hyperliens pour découvrir de nouvelles pages web et enregistre des informations telles que les titres, les images et les mots-clés afin de créer un index consultable pour les moteurs de recherche tels que Google ou Bing.
Naturellement, ce panneau d'interdiction destiné aux robots d'indexation au début d'un site web peut également être utilisé pour protéger son propre contenu. La condition préalable est bien sûr le respect de l'étiquette WWW. En d'autres termes, toute protection peut être contournée grâce à une programmation encore plus sophistiquée. De nombreuses expériences prouvent que les robots d'indexation des grands pionniers de l'informatique contournent régulièrement les panneaux d'interdiction virtuels pour former leurs LLM.
Les auteurs, journalistes, artistes, photographes et tous les producteurs de contenu considèrent ce contournement d'une barrière technique comme une violation du droit d'auteur et un vol de propriété intellectuelle. Il existe aux États-Unis des avis juridiques préliminaires et des décisions de justice sur ce sujet. En résumé : certains juges américains estiment que les panneaux d'interdiction peuvent être contournés à des fins de formation de l'IA. Cela ne signifie toutefois pas que ces textes et photos peuvent être utilisés dans les réponses et les résultats de l'IA. Il s'agit d'une frontière ténue, qui est peut-être juridiquement défendable, mais qui contredit le sentiment humain.
Pour s'entraîner, l'IA peut donc lire les magazines E3, mais elle ne peut pas les citer. Une bonne synthèse tirée de l'E3 suffira probablement à aider la personne qui sollicite de l'aide au sein de la communauté SAP, ce que l'IA parvient très bien à faire grâce aux „ données d'entraînement “. On peut donc se passer du luxe d'une citation littérale – le secret est de toute façon dévoilé, n'est-ce pas ?
En fin de compte, c'est un problème financier : quiconque utilisait le contenu E3 à des fins commerciales entretenait une relation commerciale avec l'éditeur. Cela garantissait l'équilibre si important entre donner et recevoir au sein de la communauté SAP. Et de nouvelles sources pouvaient voir le jour. Si l'IA „ pille “ désormais les sources E3 sans contrepartie appropriée, le risque est grand de voir la source E3 et de nombreuses autres sources SAP indépendantes se tarir.
Dans quelques années, l'IA pourrait alors ne disposer que des sites Web officiels de SAP et de l'offre WWW de l'association des utilisateurs pour former les modèles de langage à grande échelle. Les réponses dans le creux seront plus modestes.



