Lors de la conférence I/O 2024, Google a présenté de nouvelles fonctionnalités pour sa plateforme d'IA Gemini, qui sont désormais progressivement disponibles. Avec GEMS, un système d'assistants IA basés sur des thèmes, et Imagen 3, un générateur d'images avancé, Google montre comment l'IA peut être utilisée de manière personnalisée et éthiquement responsable. Dans cet article, nous examinons de plus près ces nouvelles fonctions, leurs domaines d'application et les défis qu'elles représentent.
GEMS : des chatbots d'intelligence artificielle ciblés pour répondre aux besoins individuels

Les GEMS sont des versions spéciales de l'assistant d'intelligence artificielle Gemini. Ils permettent aux utilisateurs de créer des experts pour des sujets ou des tâches spécifiques, qui répondent exactement à leurs besoins. On peut définir soi-même ces chatbots personnalisés et ils se souviennent de ce dont on a déjà parlé et dans quel contexte. Ils peuvent ainsi vous aider à accomplir des tâches répétitives. Le concept correspond globalement aux GPT d'Open AI et aux projets d'Anthropic.
GEMS est disponible pour les utilisateurs de Gemini qui utilisent Advanced, Business ou Enterprise. Les utilisateurs peuvent définir des objectifs, des règles de comportement et des applications. Pour commencer, il y a aussi quelques Gems prédéfinis que l'on peut utiliser - par exemple comme aide à l'apprentissage, partenaire créatif, conseiller de carrière, assistant d'écriture ou partenaire de codage. Ces Gems prédéfinis peuvent être utilisés directement et permettent de se familiariser plus facilement avec les assistants IA basés sur des thèmes.
Imagen 3 : Génération d'images avancée assistée par IA

Imagen 3 marque le retour du générateur d'images IA de Google, qui peut désormais (à nouveau) générer des images d'êtres humains, même s'il y a quelques restrictions. Avec Imagen 3, les images sont désormais bien mieux générées et plus variées. En outre, l'IA peut désormais créer des images dans différents styles, allant de représentations très réalistes à des interprétations artistiques. Cette fonction est disponible dans toutes les langues prises en charge par Google et se base sur la technologie de watermarking SynthID de Google. Cela permet de s'assurer que les contenus générés par l'IA proviennent bien d'elle.
Il est intéressant de noter que Google a réintroduit la génération d'images de personnes, alors qu'il y avait des problèmes auparavant.
Toutefois, elle n'est disponible qu'en anglais pour le moment. Cela signifie que même la version gratuite de Gemini peut accéder à la génération générale d'images, mais sans les fonctions avancées pour les images humaines.
Dans les versions précédentes, l'IA représentait par exemple mal les personnages historiques. Avec Imagen 3, Google veut corriger de telles inexactitudes. Les représentations de personnes connues ou mineures ainsi que les représentations d'une violence excessive ou les contenus inappropriés ne sont plus interdits.
Gemini Live : l'avenir des interactions IA en temps réel
Même si Gemini Live n'est pour l'instant disponible qu'en anglais et sous forme d'abonnement, Google a ici dépassé la variante Chatgpt, bloquée dans les tests alpha, et mis la pression sur Open Ai pour qu'il puisse interagir en temps réel avec l'IA par la voix. Avec Gemini Live, les réponses devraient être encore plus dynamiques et contextuelles à l'avenir.
En outre, la frontière entre la communication automatique et la communication humaine s'estompe davantage. Cette fonction pourrait être particulièrement utile lorsqu'il s'agit de répondre rapidement à des demandes, par exemple dans le service clientèle ou dans des environnements d'apprentissage.
Prix et disponibilité
Actuellement, la plupart des nouvelles fonctions ne sont disponibles qu'avec un abonnement payant : Pour Gemini Advanced, il faut compter 20 dollars US par mois, pour la version Enterprise 30 dollars US.
Conclusion : une IA personnalisée pour le quotidien et au-delà
Les nouvelles fonctionnalités de la plateforme Gemini illustrent la manière dont Google entend rendre l'utilisation de l'IA accessible à un large éventail d'utilisateurs. GEMS et Imagen 3 offrent un soutien sur mesure dans de multiples scénarios et montrent ce qui est déjà possible aujourd'hui avec l'intelligence artificielle. Google suit ici une voie minutieuse, où innovation et responsabilité vont de pair. Les mesures de protection telles que SynthID, qui permet de reconnaître les contenus générés par l'IA, sont particulièrement importantes à cet égard.
Avec ces développements, Google montre que l'avenir de l'IA réside dans des solutions sur mesure, responsables et néanmoins puissantes, qui répondent aux besoins des utilisateurs et dépassent les limites des applications traditionnelles. Au-delà de ces faits fondamentaux, il reste passionnant de savoir quels modèles sont et seront les plus utiles dans quelles situations.