IA: de la fuente al sumidero


No está demostrado en todos los casos, pero la suposición parece obvia: a pesar de las señales de prohibición virtuales y las barreras de pago, los operadores de grandes LLM (modelos de lenguaje grande) „saquean“ el tesoro de datos de Internet. Los pioneros de la IA se encuentran entre los mejores informáticos del mundo, por lo que debería resultarles fácil sortear cualquier obstáculo y barrera.
Existe una etiqueta WWW: al principio del código HTML de una página web (página de inicio) se puede programar una prohibición de acceso virtual para bots y rastreadores. Esta barrera puede ser muy útil por varias razones: si, por ejemplo, una página web está en construcción y todavía contiene datos de prueba, no tiene mucho sentido que un rastreador de Google indexe estas páginas. Un rastreador web es un programa automatizado (también llamado araña o bot) que busca en Internet para recopilar e indexar el contenido de los sitios web. El rastreador sigue los hipervínculos para descubrir nuevas páginas web y almacena información como títulos, imágenes y palabras clave para crear un índice que puedan buscar motores de búsqueda como Google o Bing.
Naturalmente, esta señal de prohibición para los rastreadores web al inicio de una página web también se puede utilizar para proteger el propio contenido. Por supuesto, el requisito previo es el cumplimiento de la etiqueta WWW. En otras palabras: cualquier protección se puede eludir con una programación aún más sofisticada. Existen numerosos experimentos que demuestran que los rastreadores web de los grandes pioneros de la informática eluden regularmente las señales de prohibición virtuales para entrenar sus LLM.
Los autores, periodistas, artistas, fotógrafos y todos los productores de contenidos consideran que eludir una barrera técnica constituye una violación de los derechos de autor y un robo de propiedad intelectual. En Estados Unidos existen dictámenes jurídicos preliminares y sentencias judiciales sobre este tema. En resumen: algunos jueces estadounidenses opinan que las señales de prohibición pueden eludirse con el fin de entrenar la IA. Sin embargo, esto no significa que estos textos y fotos puedan reproducirse en las respuestas y resultados de la IA. Se trata de una delgada línea que quizá sea jurídicamente sostenible, pero que contradice el sentido común humano.
Para entrenarse, la IA puede leer las revistas E3, pero no puede citarlas. Probablemente, a quien busca ayuda en la comunidad SAP ya le basta con un buen resumen de la E3, algo que la IA sin duda consigue de manera excelente con los „datos de entrenamiento“. Se puede prescindir del lujo de una cita textual: al fin y al cabo, el secreto ya se ha desvelado, ¿no?
En última instancia, se trata de un problema financiero: cualquiera que utilizara los contenidos de E3 con fines comerciales mantenía una relación comercial con la editorial. De este modo, se garantizaba el importante intercambio recíproco en la comunidad SAP. Y podían surgir nuevas fuentes. Si ahora la IA „saquea“ las fuentes de E3 sin ofrecer una contraprestación adecuada, existe el riesgo de que la fuente de E3 y muchas otras fuentes independientes de SAP se agoten.
En pocos años, la IA solo podría disponer de las páginas web oficiales de SAP y la oferta web de la asociación de usuarios para entrenar los modelos de lenguaje grande. Las respuestas en el valle serán más modestas. (pmf)





