🥇 ▷ OpenAI se mezcla con su nueva herramienta y accederá a contenidos de Internet "como Pedro en casa"

Gracias por visitarnos y por leer el artículo: OpenAI se mezcla con su nueva herramienta y accederá a contenidos de Internet “como Pedro en casa”

Denominado GPTBot, este nuevo sistema que lanza OpenAI se centra en rastrear Internet para entrenar y mejorar las capacidades de sus modelos de inteligencia artificial. “El uso de GPTBot tiene el potencial de mejorar los modelos de IA existentes en aspectos como la precisión y la seguridad”, según una publicación de blog de OpenAI.

Esta novedad está pensada para potenciar en concreto modelos como el GPT-4 —que ya ha demostrado perder calidad en sus respuestas— y su esperado sucesor, el GPT-5. La empresa detrás del famoso ChatGPT explica que GPTBot se centrará en recopilar datos disponibles públicamente en la red global, pero con ciertos filtros.

En concreto, la herramienta evitará acceder a fuentes que requieran suscripciones de pago, aquellas que recopilen información de identificación personal (PII) o contengan contenido que vaya en contra de las políticas de OpenAI, tal y como ha explicado en su blog.

Esto, en pocas palabras, marca un paso realmente importante en el desarrollo de modelos de IA más avanzados, permitiéndoles acceder a datos en tiempo real y mejorar en tiempo real. Sin embargo, la iniciativa no ha estado exenta de grandes críticas en cuanto a la protección del contenido y la copia de datos de sitios web ajenos si no cumplen con los requisitos de filtración.

Si no desea que OpenAI acceda a sus datos, debe prohibirlo manualmente

La empresa, por el momento, se esconde detrás de que Los propietarios de sitios web podrán identificar GPTBot a través de su token de agente de usuario y su cadena de agente de usuario completa:

Token de agente de usuario: GPTBot
Cadena completa de agente de usuario: Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Afirman que “para evitar que GPTBot acceda a su sitio, puede agregar el GPTBot al archivo robots.txt de su sitio”:

agente de usuario:GPTBot
Rechazar:/

También es posible controlar el acceso de GPTBot a ciertas partes del sitio web a través de códigos específicos en el archivo robot.txt:

agente de usuario:GPTBot
permitir: /directorio-1/
No permitir: /directorio-2/

Como era de esperar, esto ha hecho saltar todo tipo de alarmas entre la comunidad tecnológica. Esta novedad de OpenAI obliga a los propietarios de los sitios web a prohibir el uso de sus contenidos para el entrenamiento de inteligencia artificial en lugar de que la empresa los solicite y esto ha hecho que salte la chispa.

Una de las principales quejas radica en que GPTBot tiene la capacidad de acceder a gran parte de Internet para recopilar datos. Aunque la intención detrás de esta función es mejorar los modelos de IA y enriquecer su capacitación, esto plantea problemas de privacidad y seguridad.

Existe el riesgo de que GPTBot recopile información que, a pesar de no ser confidencial, es privada y sensible, y todo sin el consentimiento de los creadores.

Teniendo en cuenta que no accederá a información bajo un muro de pago o texto que incluya datos privados, GPTBot podrá acceder a una variedad de contenido, incluidas imágenes, videos, música y otros medios, algunos de los cuales pueden estar protegidos por derechos de autor.

“No se da el consentimiento hasta que no se manifiesta explícitamente de forma afirmativa”, dice uno de los usuarios de la comunidad de HackerNews. “Intente aplicar el concepto de ‘asumir que sí’ inicialmente, hasta que le digan lo contrario, para entrar en la casa de alguien o tocar el cuerpo de alguien y déjeme saber cómo funciona para usted”, agrega.

A todo esto hay que añadir que, como es habitual, OpenAI nunca ha citado los sitios web o el contenido que ya se ha utilizado para entrenar sus modelos.

Grandes dudas crecen debido a errores de privacidad en el pasado

Esta preocupación se ve acentuada por los errores de recopilación de datos anteriores de OpenAI, como el caso en el que se alegó que recopilaron datos personales para entrenar el modelo ChatGPT sin el debido consentimiento.

La adopción de estas funciones de exclusión voluntaria para los usuarios y la capacidad de los propietarios de sitios web para bloquear el acceso a GPTBot. serían intentos de abordar algunas de estas preocupaciones. Sin embargo, parece que no convence.

La implementación de GPTBot se produce solo tres semanas después de que OpenAI presentara una solicitud de marca registrada para GPT-5, el próximo modelo en su línea de desarrollo. Esta aplicación cubre una variedad de aplicaciones, incluido el software basado en IA para voz y texto humanos, conversión de audio a texto y reconocimiento de voz.

Tabla de Contenido