
Astra y GPT-4o: la IA que le habla, lo escucha y lo ve
La competencia por el alcance de la inteligencia artificial, además de sorprendente y alarmante, apenas comienza. Les contamos qué ofrecen los modelos multimodales de Google y de Open IA.
Por: María Amparo Gaitán
Estos dos proyectos revolucionarios representan la llegada de una nueva era de asistentes multimodales capaces de procesar información a través de texto, voz, imágenes y videos.
Google y OpenAI, dos gigantes de la inteligencia artificial, han dado un paso decisivo hacia el futuro de la interacción hombre-máquina con el lanzamiento de Astra y GPT-4o, respectivamente.
Se trata de dos asistentes multimodales, es decir, Inteligencia Artificial que puede interactuar con los usuarios y procesar información a través de diferentes modalidades que incluyen texto, voz, imágenes y videos. En otras palabras, pueden recibir información en diferentes formatos y proporcionar respuestas en el formato más adecuado para cada situación.
Beneficios de los asistentes multimodales
Mayor naturalidad en la interacción: los usuarios pueden interactuar con el asistente de forma más natural, utilizando la modalidad que les resulte más cómoda.
Mayor eficiencia: el asistente puede procesar información de diferentes fuentes, lo que le permite ofrecer respuestas más precisas y relevantes.
Mayor accesibilidad: los asistentes multimodales pueden ser utilizados por personas con diferentes discapacidades, como aquellas que tienen problemas de visión o audición.
Astra: Un asistente virtual para la vida cotidiana
Astra, desarrollado por Google, se presenta como un asistente virtual multimodal diseñado para integrarse de forma natural en la vida cotidiana de los usuarios. Su capacidad para procesar información a través de diferentes formatos le permite ofrecer una experiencia de usuario intuitiva y versátil.
Imagine poder apuntar con la cámara de su teléfono a un restaurante y pedirle a Astra que le recomiende un plato, o escanear el código de barras de un producto para obtener información sobre precios, reseñas y comparaciones. Astra también podría controlar dispositivos inteligentes en el hogar, planificar viajes y crear contenido creativo, como poemas o historias.
Se espera que su lanzamiento al mercado ocurra a finales de este año.
GPT-4o: un asistente virtual multimodal en desarrollo
GPT-4o, desarrollado por OpenAI tiene un potencial enorme. Al igual que Astra, combina las capacidades de procesamiento de texto, audio, imágenes y video, lo que le permite interactuar con los usuarios de forma más natural y eficiente.
Con GPT-4o, los usuarios pueden dar instrucciones por voz a sus dispositivos, mostrarle imágenes o videos para que los describa o analice, y recibir respuestas en diferentes formatos, incluyendo texto, imágenes o incluso audio.
Según informó el MIT Technology Review, GPT-4o está disponible desde mediados de mayo para comunicación en tiempo real a través de conversaciones de voz en directo, retransmisiones de vídeo desde el teléfono y mensajes de texto.
El modelo se irá desplegando en las próximas semanas y será gratuito para todos los usuarios, tanto a través de la aplicación GPT como de la interfaz web. Los usuarios que se suscriban a los niveles de pago de OpenAI, a partir de 20 dólares al mes, podrán realizar más solicitudes.
Hacia un futuro de interacción natural
Astra y GPT-4o representan un cambio radical en la forma en que se interactúa con la tecnología. Estos asistentes multimodales comprenden mejor el contexto en el que se encuentran y responden de forma más natural y precisa.
Su potencial para simplificar las tareas diarias y mejorar la experiencia con la tecnología es enorme. Sin duda, se está presenciando el inicio de una nueva era en la que la interacción hombre-máquina será más natural, intuitiva y eficiente.
Comentar este artículo
Aún no hay comentarios












