🥇 ▷ ChatGPT de OpenAI engaña a un tercio de los usuarios a pesar del 52% de respuestas incorrectas, según un estudio de Purdue

ChatGPT de OpenAI se ha convertido en una herramienta popular para diversos usos en el panorama de la inteligencia artificial en rápida evolución.

Sin embargo, un estudio publicado recientemente por la Universidad Purdue arroja luz sobre un elemento crítico del desempeño de ChatGPT que merece atención: su precisión al responder preguntas de ingeniería de software.

El estudiartitulado “¿Quién responde mejor? Un análisis en profundidad de ChatGPT y respuestas de desbordamiento de pila a preguntas de ingeniería de software”, profundiza en la calidad y usabilidad de las respuestas de ChatGPT, descubriendo algunos hallazgos intrigantes y, en ocasiones, problemáticos.

Exponiendo ChatGPT con preguntas del programador

El equipo de Purdue examinó meticulosamente las respuestas de ChatGPT a 517 preguntas procedentes de Stack Overflow, una conocida plataforma de preguntas y respuestas para programadores.

La evaluación abarcó varios criterios, incluida la corrección, la coherencia, la exhaustividad y la concisión. Los resultados fueron esclarecedores y preocupantes.

ChatGPT respondió incorrectamente aproximadamente el 52% de las preguntas de ingeniería de software, lo que generó dudas importantes sobre su precisión y confiabilidad como recurso de programación.

El estudio reveló otro aspecto interesante del comportamiento de ChatGPT: la verbosidad. Un asombroso 77% de las respuestas de ChatGPT se consideraron excesivamente prolijas, lo que podría afectar la claridad y eficiencia de sus soluciones.

Sin embargo, en medio de estas imprecisiones y palabras divagaciones, sorprendentemente los usuarios continuaron prefiriendo las respuestas de ChatGPT el 39,34% del tiempo. Como revela el estudio, esta preferencia se atribuye al estilo de lenguaje integral y bien articulado de ChatGPT.

Además, la investigación destacó un rasgo distintivo del enfoque de ChatGPT: la propensión a errores conceptuales. El modelo parece tener dificultades para captar el contexto subyacente de las preguntas, lo que lleva a una mayor frecuencia de errores derivados de una falta de comprensión conceptual.

Incluso cuando una respuesta contenía inexactitudes evidentes, los participantes en el estudio a menudo marcaron la respuesta como preferida, lo que indica la influencia del estilo cortés y autoritario de ChatGPT.

Sin embargo, los autores reconocen las limitaciones de ChatGPT, particularmente en lo que respecta al razonamiento. El modelo a menudo proporciona soluciones o fragmentos de código sin comprender claramente sus implicaciones, lo que sugiere el desafío de incorporar el razonamiento en modelos de lenguaje como ChatGPT.

Una mirada más cercana

Como Noticias18 Según informes, el estudio de Purdue también profundizó en los aspectos lingüísticos y sentimentales de las respuestas de ChatGPT.

Sorprendentemente, las respuestas del modelo exhibieron un lenguaje más formal, pensamiento analítico y sentimientos positivos en comparación con las respuestas de Stack Overflow.

Esta inclinación hacia la positividad podría contribuir a la confianza de los usuarios en las respuestas de ChatGPT, incluso cuando contienen inexactitudes.

Qué contiene este estudio

Las implicaciones de este estudio se extienden más allá de los límites del desempeño de ChatGPT. La disminución observada en el uso de plataformas tradicionales como Stack Overflow sugiere que la popularidad de ChatGPT está alterando el panorama de la búsqueda de asistencia de programación en línea.

En respuesta a estos hallazgos, los investigadores ofrecen valiosas recomendaciones. Plataformas como Stack Overflow podrían beneficiarse al mejorar la detección de sentimientos negativos y toxicidad en las respuestas y al proporcionar pautas más precisas para estructurar las respuestas de manera efectiva.

El estudio enfatiza que, si bien ChatGPT puede resultar útil, los usuarios deben ser conscientes de los riesgos potenciales asociados con respuestas aparentemente precisas.

Manténgase informado aquí en Tech Times.

Etiquetas:

Tabla de Contenido