GPT-4 es el último hito en el esfuerzo de OpenAI por ampliar el aprendizaje profundo en Inteligencia Artificial. GPT-4 es un gran modelo multimodal (que acepta entradas de imágenes y texto, y emite salidas de texto) que, si bien es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales.

GPT-4 es la nueva revolución

GPT significa «transformador preentrenado generativo» (generative pre-trained transformer por sus siglas en inglés) y GPT-4 es parte de una serie de modelos de lenguaje fundamentales que se remontan al GPT original en 2018. Después del lanzamiento original, OpenAI anunció GPT-2 en 2019 y GPT-3 en 2020. Otro perfeccionamiento llamado GPT-3.5 llegó en 2022. En noviembre, OpenAI lanzó ChatGPT , que en ese momento era un modelo de conversación perfeccionado basado en GPT-3.5.

Con el tiempo, OpenAI ha aumentado el tamaño y la complejidad de cada modelo de GPT, lo que ha resultado en un rendimiento generalmente mejor, modelo sobre modelo, en comparación con la forma en que un humano completaría el texto en el mismo escenario, aunque varía según la tarea. GPT-4 es un gran modelo multimodal capaz de procesar imágenes y entradas de texto y producir salidas de texto. Tiene potencial para ser utilizado en una amplia gama de aplicaciones, tales como sistemas de diálogo, resumen de texto y traducción automática.

Uno de los principales objetivos del desarrollo de esta nueva versión es mejorar su capacidad para comprender y generar texto en lenguaje natural, particularmente en escenarios más complejos. Para probar sus capacidades en tales escenarios, GPT-4 incluso se evaluó en una variedad de exámenes diseñados originalmente para humanos. En estas evaluaciones se desenvuelve bastante bien y, a menudo, supera a la gran mayoría de los examinados humanos, generalmente el 10% superior de los examinados (esto contrasta con GPT-3.5, la versión en la que se basaba ChatGPT, que puntuaba en el 10% inferior).

GPT-4 es más creativo y colaborativo que nunca. Puede generar, editar e iterar con los usuarios en tareas de escritura técnica y creativa, como componer canciones, escribir guiones o aprender el estilo de escritura de un usuario. En una conversación informal, la distinción entre GPT-3.5 y GPT-4 puede ser sutil. La diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente: GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más concretas que GPT-3.5.

«Pasamos 6 meses haciendo que GPT-4 sea más seguro y más fiable. GPT-4 tiene un 82 % menos de probabilidades de responder a solicitudes de contenido no permitido y un 40% más de probabilidades de producir respuestas fiables que GPT-3.5 en nuestras evaluaciones internas».

gpt4

A pesar de esta revolución, todavía se reconocen limitaciones. «GPT-4 todavía tiene muchas limitaciones conocidas que estamos trabajando para abordar, como los prejuicios sociales, las alucinaciones y las indicaciones contradictorias. Fomentamos y facilitamos la transparencia, la educación de los usuarios y una mayor alfabetización en IA a medida que la sociedad adopta estos modelos. También pretendemos ampliar las vías de entrada de las personas para dar forma a nuestros modelos».

Por el momento, GPT-4 está disponible en ChatGPT Plus y como API para que los desarrolladores creen aplicaciones y servicios. Algunas de las marcas con las que ya se han anunciado alianzas incluyen a Duolingo, Be My Eyes, Morgan Stanley o Khan Academy.

Qué puedes hacer gracias a GPT-4

Greg Brockman, presidente y co-fundador de OpenAI, mostró en la presentación de GPT-4 algunos de los usos que se puede llegar a dar a esta nueva versión del modelo. Por ejemplo, gracias al reconocimiento de imágenes, permite analizarlas y sacar conversaciones sobre ellas. Si subes una foto con lo que tienes en la nevera y preguntas «¿qué puedo hacer con estos ingredientes?» te debería devolver una receta completa.

También mediante Be My Eyes puede describir y comprender cuál es el punto de interés en una imagen, incluso dividida en diferentes recuadros o secciones. Be My Eyes utiliza GPT-4 para transformar la accesibilidad visual. La diferencia entre GPT-4 y otros modelos de lenguaje y aprendizaje automático, explica Jesper Hvirring Henriksen, CTO de Be My Eyes, es tanto la capacidad de tener una conversación como el mayor grado de destreza analítica que ofrece la tecnología.

“Las aplicaciones básicas de reconocimiento de imágenes solo te dicen lo que tienes delante. No pueden tener una discusión para entender si los fideos tienen el tipo correcto de ingredientes o si el objeto en el suelo no es solo una pelota, sino un peligro de tropiezo, y comunicarlo”.

En una de las demos mostrada por OpenAI, se mostró la capacidad que tiene incluso de transformar en código simples inputs y crear una página web desde una simple imagen. Se mostró una imagen con un boceto muy básico de una página web que el usuario quería crear con HTML y JavaScript y GPT-4 devolvió el código necesario para crear dicha página web con todo en orden como figuraba en el boceto..

Si eres un aficionado al meme de «mucho texto», ahora GPT-4 es un gran aliado para ayudarte a comprender y sintetizar grandes cadenas de texto. GPT-4 es capaz de manejar más de 25.000 palabras de texto, lo que permite casos de uso como la creación de contenido de formato largo, conversaciones extendidas y búsqueda y análisis de documentos.

Con respecto a la escritura creativa, puede conseguir cosas realmente asombrosas, que costarían a un humano bastantes horas, en cuestión de minutos. Un ejemplo que ha querido destacar OpenAI muestra la respuesta a la siguiente solicitud: «explícame la trama de Cenicienta en una frase donde cada palabra tiene que comenzar con la siguiente letra del alfabeto de la A a la Z, sin repetir ninguna letra. El resultado (en inglés) no puede ser más perfecto. «A beautiful Cinderella, dwelling eagerly, finally gains happiness; inspiring jealous kin, love magically nurtures opulent prince; quietly rescues, slipper triumphs, uniting very wondrously, xenial youth zealously».

El salto en cuanto a escritura de código también es considerable. En el hilo de Twitter que tenéis más arriba, que recoge algunas de las primeras aplicaciones de GPT-4, podemos ver cómo se han recreado juegos sencillos como Snake o Pong facilitando el código a personas sin nociones de programación.

Por ejemplo, GPT-4 es lo que está potenciando al nuevo Bing, ejecutándose en esta nueva versión que Microsoft ha personalizado para la búsqueda. Si has utilizado la nueva preview de Bing en cualquier momento durante las últimas cinco semanas, ya has experimentado una versión anterior de este poderoso modelo. A medida que OpenAI realice actualizaciones de GPT-4 y posteriores, Bing se beneficiará de esas mejoras junto con actualizaciones propias basadas en los comentarios de la comunidad. De hecho, si deseas experimentar GPT-4, regístrate para obtener la nueva versión preliminar de Bing y, una vez que estés dentro, podrá usar el nuevo Bing para buscar, responder, chatear y crear.

 

Fuente: adslzone