IA: de la fuente al sumidero


Aunque no se ha demostrado en todos los casos, la suposición parece obvia: a pesar de las señales de prohibición virtuales y los muros de pago, los operadores de los grandes modelos de lenguaje (LLM) están saqueando la riqueza de datos de Internet. Los pioneros de la IA se encuentran entre los mejores informáticos del mundo y, para ustedes, sortear cualquier obstáculo o barrera es pan comido.
Existe una etiqueta de la WWW: al principio del código HTML de un sitio web, se puede programar una prohibición de entrada virtual para los bots y los rastreadores. Esta barrera puede ser útil por varias razones. Por ejemplo, si un sitio web está en construcción y todavía contiene datos de prueba, no tiene mucho sentido que un rastreador de Google indexe estas páginas. Un rastreador web, también llamado araña o bot, es un programa automatizado que busca en Internet para recopilar e indexar el contenido de los sitios web. Los rastreadores siguen los hipervínculos para descubrir nuevas páginas web y almacenan información como títulos, imágenes y palabras clave para crear índices de búsqueda para motores de búsqueda como Google y Bing.
Esta señal de prohibición para los rastreadores web al principio de un sitio web también puede utilizarse, por supuesto, para proteger tu propio contenido. El requisito previo, por supuesto, es el cumplimiento de la etiqueta de la WWW. En otras palabras, cualquier protección puede eludirse con una programación más sofisticada. Numerosos experimentos demuestran que los rastreadores web de las principales empresas de TI eluden regularmente las señales de prohibición virtuales para entrenar sus LLM.
Los autores, periodistas, artistas, fotógrafos y todos los productores de contenido consideran que esta elusión de una barrera técnica constituye una infracción de los derechos de autor y un robo de propiedad intelectual. Existen dictámenes jurídicos preliminares y sentencias judiciales sobre esta cuestión en Estados Unidos. En resumen, algunos jueces estadounidenses consideran que estas señales pueden eludirse con fines de entrenamiento de la IA. Sin embargo, esto no significa que estos textos y fotos puedan utilizarse en las respuestas y resultados de la IA. Esto puede ser legalmente sostenible, pero contradice la sensibilidad humana.
A efectos de entrenamiento, la IA puede leer las ediciones de la revista E3 Magazin, pero no puede citarlas. Probablemente, un resumen de E3 sea suficiente para ayudar a alguien que busque ayuda en la comunidad SAP, lo que la IA puede hacer bien con los datos de entrenamiento. No hay necesidad de citas textuales: el secreto ya ha salido a luz, ¿no?
En última instancia, es una cuestión económica. Cualquiera que utilizara el contenido de E3 con fines comerciales tenía una relación comercial con el editor. Esto garantizaba el intercambio que es tan importante en la comunidad SAP. También podían surgir nuevas fuentes. Sin embargo, si ahora la IA saquea las fuentes de E3 sin ofrecer nada a cambio, existe el riesgo de que E3 y muchas otras fuentes independientes de SAP se agoten.
En unos años, es posible que solo los sitios web oficiales de SAP y la presencia web del grupo de usuarios de SAP estén disponibles para entrenar modelos de lenguaje grandes. Los resultados serán entonces más modestos.




