La conferencia de desarrolladores de Google se llevó y tuvo como protagonista a la inteligencia artificial. Las novedades incluyen herramientas que ayudan al usuario y asistentes virtuales en video.
Google llevó a cabo recientemente en Mountain View, California, su versión 2024 del Google I/O, la conferencia de desarrolladores que realiza la compañía anualmente y que esta vez tuvo como protagonista a la inteligencia artificial y su poder al servicio de los usuarios.
Una de las principales novedades presentadas es Gemini 1.5 Flash, un modelo diseñado para ofrecer una mayor velocidad y eficiencia en la ejecución de tareas de alto volumen y alta frecuencia, optimizando los procesos a gran escala y reduciendo los costos operativos. Se caracteriza por ser más ligero que su predecesor, el 1.5 Pro, se destaca especialmente en aplicaciones que requieren de la generación de resúmenes, chat, subtitulación de imágenes y videos, y extracción de datos de documentos extensos y tablas.
Gemini podrá verse en herramientas de Google como su buscador, Google Fotos, Gmail, entre otros. En el caso del buscador, por ejemplo, cada vez que un usuario escribe una pregunta recibirá, además del tradicional listado de webs sugerido, un nuevo módulo llamado AI Overviews, que es una Vista General IA, una contestación a la búsqueda del usuario en lenguaje natural y con enlaces. Utiliza una versión de Gemini adaptada a este fin, y es multimodal. Es decir, puede entender varios formatos, no solo texto. También audio e imagen.
También será capaz de responder preguntas complejas, con múltiples aspectos. Por ejemplo, se le podrá preguntar por los mejores lugares para practicar pilates en una ciudad, a qué distancia están y qué ofertas tienen para nuevos clientes, y AI Overviews facilitará toda la información necesaria en un lenguaje natural, exigiendo el mínimo esfuerzo cognitivo al usuario.
Proyecto Astara
El equipo de Google trabaja en Project Astra, una iniciativa que tiene como objetivo desarrollar asistentes digitales basados en IA capaces de comprender y responder al mundo “tal y como lo hacen las personas”.
“Hemos trabajado para mejorar la forma en que nuestros modelos perciben, razonan y conversan y en optimizar el ritmo y calidad de las interacciones para hacerlas más naturales”, dijo Demis Hassabis, CEO de Google DeepMind. El siguiente paso es mejorar los tiempos de respuesta, conseguir que los algoritmos “recuerden” lo que ven y escuchan y mejorar su comprensión del contexto.
Al mejor estilo de la película ‘Her’, la compañía presentó su nuevo asistente virtual con inteligencia artificial que llegará en forma de app para móviles, pero no solo. Según ha explicado Demis Hassabis, cofundador de DeepMind que ahora es la división IA de Google, será capaz de ver lo que hay a su alrededor, identificarlo y responder cuestiones sobre ello.
La compañía tecnológica anunció dos nuevos modelos de IA que pretenden acelerar y optimizar los flujos de trabajo en las tareas de producción audiovisual. Veo es un sistema de generación de video que, mediante indicaciones de texto, puede producir materiales de más de un minuto con una resolución de 1080 píxeles. Veo competirá directamente con Sora, de OpenAI.
Por su lado, Image 3 es ahora el sistema de texto a imagen más robusto de Google. Es capaz de comprender la intención de cada indicación de texto que recibe y extraer detalles de las interacciones pasadas con el usuario. Estas características le permiten crear imágenes más realistas, con menos elementos innecesarios en comparación con sus antecesores.
Google ha integrado Gemini en la app Fotos. Pregunta a Fotos es una nueva función experimental, que llegará en los próximos meses, con la que será más fácil recuperar imágenes perdidas por la galería.
Con Pregunta a Fotos, el usuario puede realizar cualquier búsqueda en su galería con preguntas en lenguaje natural. Por ejemplo, “muéstrame la mejor foto de todos los parques de atracciones que he visitado“, de forma que no tendrá que realizar manualmente la selección.
Fuente: Forbes Chile