Course à l’IA : Google frappe fort avec son modèle Gemini !

Google a lancé Gemini, un nouveau modèle d'IA qui détrône ChatGPT

Après des mois d’attente, Google a annoncé le 6 décembre 2023 le lancement de Gemini, son nouveau modèle d’intelligence artificielle (IA). Une date importante pour l’histoire de la firme américaine, car elle propose désormais une IA multimodale très puissante, qui va sans aucun doute révolutionner notre manière d’utiliser et de considérer cette technologie.

Destiné à concurrencer le fameux ChatGPT, ce modèle de langage (ou large language model en anglais – LLM) est bien plus avancé que Bard, la précédente IA de Google. Il a d’ailleurs été présenté à la presse, par Eli Collins (vice-président de Google DeepMind) comme étant leur « modèle d’IA le plus conséquent, le plus doué et aussi le plus général ». Une belle promesse en somme, mais pour vérifier sa véracité, il faudra patienter un peu.

En effet, il n’est pas encore disponible en France. Proposé uniquement en langue anglaise pour l’instant, il est déployé dans 170 pays, mais ceux de l’Union Européenne en sont exclus. Aucune date précise de disponibilité n’a été annoncée. On sait juste qu’il devrait être lancé dans l’Union Européenne en 2024 et qu’en attendant, Bard sera doté de modalités supplémentaires en début d’année prochaine.   

Néanmoins, cela ne nous empêche pas de nous intéresser à cette IA et de vous la présenter dans ses moindres détails.

Gemini, de quoi s’agit-il concrètement ?

Gemini est la réponse plus élaborée de Google à ChatGPT. Un nouveau modèle de langage très performant et multimodal. Cela signifie qu’il n’a pas été entraîné uniquement sur du texte, et qu’il est capable de traiter et de réagir à différents types d’informations, tels :

  • de l’audio ;
  • du code ;
  • de la vidéo ;
  • du texte ;
  • des images.

Il peut répondre à l’écrit et à l’oral, et dispose selon le communiqué de presse de Google de « capacités sophistiquées de raisonnement sur tous types d’entrées ». Il peut donc comprendre et analyser, à partir de données :

  • un contexte ;
  • des émotions ;
  • des intentions ;
  • des relations ;
  • des concepts.

Pour obtenir un tel résultat, Google a conçu Gemini comme étant « nativement multimodal ». Il l’a d’abord « pré-entraîné à traiter des modalités variées », puis « son efficacité a été renforcée par des données multimodales supplémentaires ».

D’après les premiers tests effectués, l’efficacité de cette IA a été démontrée dans divers domaines, dont les mathématiques, la physique, le droit, la médecine et l’histoire. En d’autres termes, il s’agit d’un modèle de langage aux capacités uniques, et avec des performances remarquables. Il est donc beaucoup plus développé que Bard, qui avait été lancé par Google début 2023, et s’avère révolutionnaire. Il peut par exemple :

  • générer des images, vidéos, sons ou graphiques à partir d’une description en quelques mots ;
  • écrire des paroles de chansons, des histoires ou des blagues ;
  • apporter des réponses précises, claires et pertinentes à des questions, sur des sujets variés ;
  • traduire des mots, des phrases en de nombreuses longues ;
  • identifier des objets, des animaux sur des dessins ;
  • lancer de la musique ;
  • raisonner sur des sujets complexes.

Ses capacités dépassent donc, sur le papier, celles de ChatGPT à l’heure actuelle.

Les trois versions proposées par Google

Ce modèle de langage multimodal se décline en 3 versions, qui sont optimisées pour des tâches spécifiques. Une nouvelle preuve de la puissance et des performances de Gemini.

3 modèles distincts donc, pour répondre à différents besoins et usages : Ultra, Pro et Nano.

Gemini Ultra

La version Ultra est la plus puissante et la plus complète. Elle peut gérer des tâches vraiment complexes, et possède une capacité de compréhension de différentes données très approfondie. Cette version est avant tout destinée à des usages requérant un raisonnement et une analyse avancés (la recherche scientifique par exemple). Normalement, elle devrait être intégrée à Google Bard Advanced début 2024, après la réalisation de tests auprès de clients, développeurs, partenaires et experts en cybersécurité.

Gemini Pro

La version Pro de Gemini se caractérise par sa polyvalence et ses performances accrues sur de très nombreuses tâches. Elle convient parfaitement à des applications généralistes (analyse de données, développement de logiciels par exemple), et est déjà intégrée à Bard (sauf en Europe).

Gemini Nano

La version Nano est la plus légère. Elle a été développée pour des tâches sur les appareils mobiles et autres équipements aux ressources limitées. Elle est adaptée aux applications fonctionnant en temps réel, telles les réponses intelligentes et les fonctionnalités d’IA présentes dans les appareils connectés et smartphones. Par exemple, on la retrouve déjà sur le Pixel 8 Pro de Google, qui est sorti en octobre 2023. Elle peut notamment être utilisée pour générer des réponses automatiques (en anglais) dans l’application WhatsApp.

Avec ces 3 modèles, Google met en avant la flexibilité de son IA.

La multimodalité au cœur de cette technologie

Avec Gemini, l’entreprise californienne veut prendre sa revanche sur OpenAI et son célèbre ChatGPT. Il faut dire que son lancement et son succès ont pris Google par surprise. L’arrivée de ChatGPT n’est absolument pas passée inaperçue dans le monde, et a été une vraie révolution.

Google a réagi aussi vite que possible en annonçant le lancement de Bard début 2023 dans certains pays (en juillet 2023 en France). Mais il faut reconnaître que ses capacités sont limitées et venant de la part de Google, on s’attendait à mieux. Avec Gemini, c’est chose faite. Ses performances sont à la hauteur des précédentes innovations de la firme américaine, voire supérieures.

Une avancée majeure en matière d’IA

En effet, Google a doté cette IA de capacités multimodales très poussées et innovantes. C’est l’une de ses différences notables avec ChatGPT. Et cette multimodalité rend Gemini particulièrement efficace. D’ailleurs, selon Google, lors des entraînements, ce modèle de langage a affiché des performances qui « dépassent de loin celles des modèles existants ».

Le géant américain affirme aussi que les résultats de Gemini sont meilleurs que les autres LLM (dont ChatGPT-4, la dernière version d’OpenAI) dans 30 des 32 référentiels académiques utilisés dans la recherche et le développement de ces technologies.

Grâce à cette multimodalité, Gemini peut :

  • être utilisé dans différents domaines tels que la science, la finance, le droit, la médecine ;
  • repérer et analyser des informations dans d’importantes quantités de données ;
  • raisonner sur des sujets complexes.

Plus qu’un chatbot (ou agent conversationnel), ce modèle de langage possède des capacités de compréhension et de déduction, qui peuvent se rapprocher de celles des humains. Cela peut faire peur, mais cela donne aussi un aperçu des multiples possibilités offertes par l’IA.

Comment sera intégré Gemini aux services de Google ?

Comme nous l’avons indiqué dans un paragraphe précédent, trois versions de Gemini ont été développées, dont deux sont déjà proposées aux utilisateurs de Bard (hors Europe) et de Pixel 8 Pro. Mais d’autres usages sont prévus par Google. Ainsi, dès 2024, cette IA devrait faire son apparition dans :

  • le moteur de recherche de la firme américaine ;
  • les publicités en ligne qui sont proposées aux internautes en fonction de leurs recherches.

Concrètement, l’intégration de Gemini au moteur de recherche Google devrait permettre d’obtenir des réponses :

  • plus précises ;
  • plus rapides ;
  • plus qualitatives grâce à une meilleure compréhension du contexte des recherches ;
  • plus complètes avec différents types de contenu (du texte, des vidéos, des photos, des sons par exemple).

Cela aura donc un impact positif sur l’expérience utilisateur.

Pour les publicités, Gemini devrait permettre de mieux personnaliser les annonces proposées aux internautes afin qu’elles soient plus pertinentes. Cette amélioration est rendue possible par le fait que cette IA comprenne mieux le contexte des requêtes des internautes, et leurs intentions. Ainsi, Google pourra cibler plus efficacement les publicités affichées. Un bon point pour les internautes, et pour les annonceurs.

En outre, les premiers effets positifs de Gemini ont été démontrés avec la version Pro, qui a vraiment amélioré les capacités de compréhension, de raisonnement et de planification de Bard.

Comment accéder à Gemini en France ?

A ce jour, cette nouvelle IA est disponible gratuitement dans 170 pays, sauf en France et en Europe. En cause, la législation RGPD (Règlement Général sur la Protection des Données) en vigueur dans l’Union Européenne. Une législation qui avait déjà retardé le lancement de Bard dans les pays européens.

Pour en profiter, il faut donc attendre 2024… en théorie. Dans la pratique, il est possible d’y accéder en France, en utilisant un VPN (Virtual Private Network), comme l’explique bien le site Les Numériques*. Cet outil, en créant un tunnel virtuel entre un ordinateur et un serveur basé dans un autre pays, rend Gemini accessible aux internautes français et européens. Voici les étapes à suivre pour découvrir le potentiel de cette IA :

  • avoir un compte Google ;
  • installer un logiciel  VPN ;
  • sélectionner un serveur situé dans un pays ayant accès à Gemini (les Etats-Unis par exemple) ;
  • lorsque la connexion est établie, il suffit d’aller sur l’interface web de Bard et de tester les capacités de cette nouvelle IA, qui pour rappel, est uniquement proposée en anglais pour le moment.

Une vidéo de promotion impressionnante… mais légèrement trompeuse

Pour présenter Gemini, Google avait tout prévu (ou presque) avec une présentation à la presse, et une vidéo de démonstration. Et la firme n’a pas lésiné sur les moyens. Sa vidéo de présentation des capacités de son nouveau modèle IA multimodal dure 6 minutes et 23 secondes, avec des démos épatantes. Dans cette vidéo, une personne lance des défis à Gemini en lui montrant des images, et lui demande de raisonner pour indiquer ce qu’il voit.

Des défis variés relevés par Gemini

Voici quelques exemples des défis que l’on voit dans cette démonstration vidéo :

  • l’IA arrive à reconnaître un dessin de canard, et fournit des informations sur cet animal. Puis, il identifie la couleur du canard, du bleu dans le test, et précise que ce n’est pas « une couleur courante chez les canards » bien qu’il « existe quelques races de canards bleus » ;
  • il a également réussi à identifier la matière d’un objet, un canard dans le test qui « semble être en caoutchouc ou en plastique », et à traduire le mot « canard » dans plusieurs langues, dont le mandarin ;
  • Gemini a aussi trouvé une idée de jeu à partir d’une carte du monde, qu’il a intitulé « Devine le pays », et a donné des indices à la personne réalisant le test pour qu’elle trouve des pays ;
  • il a pu reconnaître, en regardant les gestes de deux mains, le jeu « Pierre, feuille, ciseau » ;
  • il a aussi été capable d’identifier la forme d’objets, et de dire s’ils étaient comestibles ;
  • il a reconnu des instruments dessinés sur une feuille (une guitare, un ampli, une batterie) et a lancé des sons et musiques associés à ces instruments.

Autant de défis qui illustrent très bien les capacités de Gemini. Et il faut avouer que c’est assez impressionnant. Un peu trop peut-être ?

Une vidéo non tournée en conditions réelles

En effet, dans un article de blog, Google a avoué que les réponses fournies par l’IA dans la vidéo sont, dans la réalité, plus fractionnées (moins fluides donc). De même, les instructions lancées à Gemini lors de tests sont en fait plus précises que celles que l’on entend dans la vidéo en voix off. Un petit arrangement avec la réalité en somme.

Néanmoins, cela n’enlève rien aux capacités de raisonnement, de compréhension et de déduction de l’IA. Les réponses données lors des tests n’ont pas été inventées, mais elles n’ont pas été obtenues aussi rapidement qu’on pourrait le croire en regardant la vidéo. Pour justifier cette mise en scène, Google a rappelé avoir indiqué, dans la description de la vidéo, que « pour les besoins de cette démo, la latence a été réduite et les messages de Gemini ont été raccourcis par souci de brièveté ».

Par conséquent, cette vidéo de démonstration n’est ni complètement vraie, ni totalement fausse. En revanche, Google ne précise pas quelle version de Gemini a été testée et selon Bloomberg, il s’agit de la version Ultra (la plus puissante). Or, c’est la seule à être actuellement indisponible…. Et à ce jour, Google n’a toujours pas indiqué la version utilisée lors de la démo.

Malgré tout, cette vidéo a atteint son objectif, à savoir prouver la faisabilité et la viabilité de son modèle de langage multimodal.   

Gemini fait-il vraiment le poids face à ChatGPT ?

Depuis la présentation de cette IA, une question revient en boucle : Gemini est-il plus puissant et performant que ChatGPT ?

Si l’on en croit Google, la réponse est positive. C’est assez logique puisque Gemini est destiné à concurrencer ChatGPT. Avec cette technologie, la firme californienne compte bien rattraper son retard et frapper fort.

Aujourd’hui, cette IA n’étant pas accessible en France et en Europe (hors utilisation d’un VPN), on ne peut pas se prononcer sur les capacités réelles de Gemini. Mais on peut les envisager en se basant sur :

  • les tests effectués ;
  • les résultats obtenus dans les 32 référentiels académiques utilisés dans la recherche et le développement de ces modèles de langage ;
  • l’expérience des utilisateurs dans les pays ayant accès à Gemini.

Dès lors, il semble que les capacités de rédaction de ChatGPT-4 soient similaires à celles de Gemini. Mais, quand il s’agit de multimédia, l’IA de Google est beaucoup plus performante. 

On peut également confirmer l’affirmation de Google selon laquelle ses équipes auraient conçu le premier « vrai modèle multimodal ».

Pour le reste, il faut attendre le lancement de Gemini en Europe et en France, et sa disponibilité en français, pour se prononcer. D’autant que Google a déjà prévu de nouvelles fonctionnalités pour son IA en 2024, telle une aide avancée à la résolution de problèmes de mathématiques. En outre, il est fort probable qu’OpenAI réplique à cette technologie de Google, en améliorant davantage les fonctionnalités de ChatGPT (qui, par exemple, intègre la parole et la vision depuis septembre 2023).

Le début de l’année 2024 sera donc placé sous le signe de l’IA et nous réserve de belles surprises à ce sujet.

*Lien vers la source

Facebook
Twitter
LinkedIn