La batalla de los chatbots con Inteligencia Artificial está en su punto máximo de esplendor. No es una coincidencia que los tres principales contendientes del sector estén secundados por las firmas de mayor prestigio tecnológico. En un rincón, ChatGPT, de Microsoft. En el otro, los recientes estrenos de Meta AI y Google Gemini.
La IA Generativa que los impulsa busca perfeccionar sus modelos de lenguaje (LLM). Los mismos fueron ejercitados para la creación de textos e imágenes, la clasificación de datos y la optimización de los códigos de programación.
Sin embargo, en el corto plazo, estas plataformas evolucionaron más allá del ida y vuelta del chat hasta convertirse en sistemas multimodales capaces de comprender tanto el lenguaje escrito como la información visual. Se pueden controlar desde la computadora o el celular.
Cada herramienta trae su paquete de virtudes y especialidades. Copilot (GPT) es ideal para combinar con productos de Microsoft, Meta AI es muy útil en las redes sociales y Gemini es recomendable para cumplir tareas de oficina.
ChatGPT, el pionero
Por una cuestión de tiempo y entrenamiento, ChatGPT corre unos metros por delante de Meta AI y Gemini. Esto se evidencia en las respuestas que formula, ya que el software de OpenAI comete menos errores lógicos y brinda un panorama mucho más completo en sus réplicas.
Su capacidad para producir contenidos de calidad a partir de una simple petición –sin necesidad de recurrir a un prompt muy elaborado- lo posiciona como el chatbot más potente, completo y funcional.
La versión gratuita de OpenAI permite utilizar GPT-4o, aunque está restringido a unos 15 mensajes cada 3 horas. Una vez alcanzada esta orilla, la sesión de chat vuelve a GPT-3.5, limitada a generar texto conversacional e información que data de enero de 2022.
La otra alternativa de acceso es Copilot, que funciona con GPT-4 y es gratis. Aunque está condicionado a 5 respuestas por conversación y el interrogador sólo puede introducir hasta 4 mil caracteres en cada pregunta. Con el tiempo, incorporará GPT-4o, pero Microsoft aún no anunció la fecha.
Microsoft Copilot está orientado a profesionales que dependen de las aplicaciones de Microsoft para su trabajo cotidiano. Sobre todo, en tareas que requieren análisis de datos.
Meta AI, con el impulso de las redes sociales
Meta AI es mucho más que una novedosa función de WhatsApp. Se trata de un asistente inteligente “capaz de razonar de manera compleja, seguir instrucciones, visualizar ideas y resolver problemas matizados”, describen desde la empresa.
Se comporta como un contacto -no se puede eliminar, aunque sí omitir- que flota en el menú de WhatsApp. Sus argumentos, aunque menos precisos, son más rápidos que los de ChatGPT o Gemini. No brinda demasiada profundidad, aunque es muy creativo.
Se basa en Llama 3-70B, un modelo de código abierto que no está sujeto a condiciones de uso ni excepciones. En un futuro, WhatsApp dará la opción de utilizar Llama 3-405B, que es mucho más potente, aunque bajo la modalidad de suscripción.
El chatbot está programado para ajustar su tono de conversación en función de la entrada del usuario y la naturaleza de la solicitud. Gracias al procesamiento del lenguaje natural (PLN) mejora la experiencia mediante interacciones distintivas.
En breve, permitirá la creación de fotos de perfil con sólo dar una orden de texto. Además, la IA podrá generar avatares personalizados a partir de una selfie hecha desde la propia cámara.
Y aunque el consenso general coincide en que DALL-E 3 (bajo el comando de Microsoft Designer) es uno de los mejores generadores de imágenes, el que incorpora Meta AI, no está tan rezagado como uno podría suponer.
Como novedad, Meta AI traza una vista previa de lo que va a componer. A diferencia de Copilot, que si bien demoran algunos segundos más, genera cuatro imágenes de un tirón. En Meta el resultado es inmediato, aunque muestra una foto.
Las ilustraciones de Copilot son más detalladas aunque se perciben demasiado artificiales. Las composiciones de Meta destacan por su nivel de realismo. Mientras que las de Gemini todavía no están bien calibradas.
Sin embargo, Meta AI es limitado y sólo acepta entradas de texto: no es posible conversar con él ni subir archivos, algo que ChatGPT hace de maravillas. Gemini, para las imágenes, sólo recibe órdenes en inglés.
La base de conocimientos de Meta llega hasta diciembre de 2023, lo que implica que los datos de entrenamiento ya están desfasados. Y si bien tiene acceso a los motores de búsqueda, estos resultados pueden ser algo imprecisos e incluir alucinaciones.
Gemini, el tercero en discordia
La llegada de GPT agarró a Google con la guardia baja. Su reacción tardó en llegar y fue bautizada como Bard. Al principio parecía una pálida imitación de OpenAI. Sin embargo, al superar un año de su publicación, evolucionó hasta convertirse en Gemini.
En el medio hubo que soportar algunas turbulencias. En principio, Bard funcionaba con LaMDA antes de que se introdujera un modelo más reciente, PaLM 2, que mejoraba sus capacidades de codificación y matemáticas.
Se presenta en tres tamaños: Nano, Pro y Ultra. El Ultra es el más avanzado y el único multimodal. Está diseñado para realizar tareas complejas con gran precisión. El Pro fue concebido para potenciar herramientas de IA y el Gemini Nano se desempeñar en dispositivos móviles.
Aunque parezca el menos atractivo, Nano representa toda una renovación, ya que podrá ser utilizada como una IA que se ejecuta dentro del dispositivo. Es decir, que no tendrás que usar una app que se conecte a un servidor de la IA como sucede con la de ChatGPT
Al momento de su estreno, Gemini logró aventajar a todos sus rivales en los principales tests de rendimiento. Y si bien Google se adelantó a GPT-4, más temprano que tarde, llegará una nueva versión de OpenAI que lo vuelva a superar.
Es así como Gemini Ultra obtuvo una mayor calificación que GPT-4 en tareas de generación de código y resolución de problemas, aunque todavía deja muchas dudas en cuestiones éticas y de privacidad.
Al igual que Copilot, Gemini está programado para integrarse con los datos que uno guarda en la nube de Google. Esto incluye documentos, presentaciones, hojas de cálculo y el correo, en sus respectivas aplicaciones de Google Workspace.
Además de la integración en dispositivos móviles, Google reveló que será más accesible a través de Chrome. Al utilizar el buscador y escribir @gemini seguido de una solicitud, se podrá iniciar un chat de forma simple y directa.
Aunque ofrece una amplia gama de funciones, aún se encuentra en fase experimental y puede carecer de algunas funcionalidades clave, como el generador de imágenes en idioma español.
Según algunos estudios, los modelos Gemini tienen dificultades para responder a preguntas sobre grandes conjuntos de datos, dando una respuesta correcta solo el 50% de las veces. A pesar de la gran cantidad de contexto que puede procesar, muchas veces, el modelo en realidad no logra interpretar el contexto.
SL