Des chatbots d'IA d'entreprise avec un logiciel open source


Le danger des LLM à source fermée : à ce jour, aucune publication n'a été faite sur la manière dont les modèles linguistiques ont été entraînés par les grands hébergeurs de chat AI. Bien au contraire : on entend régulièrement dire que certaines parties des données d'entraînement sont protégées par des droits d'auteur. Tant que le processus d'entraînement n'est pas divulgué, il y a toujours le risque que chaque message, chaque page web, chaque texte et donc potentiellement aussi les données internes de l'entreprise soient utilisés pour l'entraînement. Car une chose est claire : les développeurs de modèles linguistiques vivent des données et doivent continuer à entraîner les modèles linguistiques en permanence. Où peut-on trouver de nouvelles données si tout l'Internet libre a déjà été utilisé ?
La caractéristique révolutionnaire des grands hébergeurs de chat AI n'est pas qu'une sorte de superintelligence capable de remplacer l'homme travaille en arrière-plan. Comme il ne s'agit que de calcul de probabilités, un chatbot n'est pas un être intelligent. Même si la construction dans son ensemble est très complexe, l'élément prometteur est simple : le langage. Les modèles Large Language permettent d'interagir avec les systèmes informatiques en utilisant le langage naturel, humain. L'interface est encore plus simplifiée : un chat. Communiquer avec un ordinateur, c'est comme écrire à un ami via Messenger.
LLM et données propres
Les possibilités de soutien sont énormes : un plan d'entraînement pour réussir un triathlon ? Pas de problème. Résumer des mails ou des contrats interminables aux éléments clés ? C'est fait en quelques secondes. Analyser des anomalies dans de gros fichiers journaux SAP ? Terminé immédiatement. Si l'on relie encore un LLM à ses propres données, le potentiel est presque infini. Il suffit d'imaginer tout ce qu'il est possible de faire lorsqu'on peut interroger tout son système de tickets comme base de connaissances en langage naturel. Vos données sont votre force.
Les LLM exploitent le plus grand potentiel possible de cette force. Les LLM donnent vie à vos données. Comme OpenAI, par exemple, ne donne pas de visibilité, on ne peut jamais être sûr de la sécurité de ses propres données derrière les portes fermées. Mais c'est justement cette porte fermée qui en ouvre une autre : Open Source.
L'open source fournit la clé : chaque détail peut être tracé dans le code du programme, chaque adaptation peut être vérifiée. Vous savez ainsi ce qui se passe avec vos données : rien. Car vous n'envoyez pas de données à une quelconque entreprise, bien au contraire, vous vous procurez le produit dans votre propre maison. C'est un peu comme si vous pouviez acheter ChatGPT en tant que produit fini et le placer dans votre centre informatique. Vous avez la clé et donc le contrôle total de la manière dont vos données sont reliées à l'IA et si elles le sont. En résumé, l'avantage de l'open source est la transparence.
Moteur d'inférence
Tout d'abord, un moteur d'inférence permettant d'exploiter des modèles de langage est installé sur un matériel fort. Il manque encore le LLM adéquat, que l'on peut trouver sur Huggingface pour chaque utilisation. Pour accéder ensuite à vos données, deux possibilités s'offrent à vous : Finetuning et Retrieval Augmented Generation (RAG). Alors que le finetuning nécessite trop de puissance et de coûts, le RAG offre une alternative avantageuse.
Dans ce cas, on ne modifie pas les données du LLM, mais on fournit un contexte issu de sa propre base de données. C'est comme si vous disiez au LLM : voici mon ticket 1234, résumez-moi son contenu. Le fait que le contexte soit toujours fourni présente un autre avantage : contrairement aux fournisseurs en ligne, l'ensemble des données est toujours à jour.
Avec RAG et un LLM open source, vous avez toutes les clés en main pour associer vos propres données à la technologie. La réponse à la question de savoir comment suivre le rythme de l'évolution technologique sans avoir à se soucier de la sécurité de ses propres données est finalement simple : l'open source.
Vers l'inscription du partenaire :
