Faites des ah ! et des oh ! avec GPT-4o
OpenAI vient d’annoncer, il y a quelques jours, la sortie de GPT 4-o, la dernière mouture de leur IA, dotée d’une interface modale, c’est à dire capable d’interagir à base de textes, d’images et de sons. Et comme tout n’arrive jamais par hasard, l’annonce a été rendue publique juste avant la conférence Google I/O. On est concurrent ou on ne l’est pas, n’est-ce pas ?
Je ne me suis pas immédiatement précipité sur GPT-4o, laissant le temps aux journalistes et aux experts en tout genre de faire un premier travail d’analyse plus ou moins promotionnelle de la petite merveille autoproclamée. Ce que j’en ai lu, ces derniers jours, m’a incité à aller me rendre compte par moi-même. Et je dois avouer que j’ai été bluffé… Je vous invite d’ailleurs à aller voir ces petites vidéos promotionnelles, qui illustrent les possibilités de cette bête.
Bonjour C-3PO…
La combinaison voix et image permet finalement à GPT d’interagir comme s’il était doté d’yeux, d’oreilles et d’une bouche, ce qui rend cette expérience autrement plus intéressante que la simple saisie de textes sur les versions actuelles de Chat GPT.
Changez l’appareil qui sert de support, en remplaçant par exemple le smartphone par un petit robot, et vous plongez directement dans ce que les films de science-fiction nous promettaient il y a quelques années. Ajoutez lui, d’ici quelques années, des fonctions liées à la locomotion, à la préhension ou à la gestion de ses propres réserves d’énergie, et vous aurez devant vous l’ancêtre de C-3PO, le robot StarWars qui me faisait tant penser à Valery Giscard d’Estaing dans ma jeunesse…
OpenAI, promoteur de services à la personne ?
Au-delà de l’aspect ludique et récréatif, le grand bond en avant que représentent les LLM, quand on les dote de telles capacités d’expression, c’est de pouvoir rapidement tenir des rôles autrefois dévolus à des humains. L’apprentissage d’une langue, les cours particuliers, la traduction simultanée, l’orientation des visiteurs sur un salon, et peut-être même le baby-sitting (dans une version limitée convenons-en) semblent à la portée des ingénieurs d’OpenAI.
Le point commun entre tous ces rôles, c’est qu’il s’agit de métiers qu’on peut classer dans la catégorie « services à la personne », ce qui est une évolution par rapport à ce que permettait auparavant Chat GPT, qui relevait plutôt de la catégorie « tâches répétitives et automatismes ».
Gardons cependant la tête froide. Je ne pense pas que ces métiers disparaîtront totalement. La diversité tâches étant liée à l’inventivité de ceux qui pratique ces métiers, et GPT n’étant toujours capable que de reproduire ce qu’on lu ia enseigné, il sera toujours possible de se distinguer de la version robotique en faisant preuve d’ingéniosité et d’inventivité. Mais ceux qui pratiquent ces métiers de façon basique seront probablement appelés à évoluer.
Bad bot, good bot ?
Pour l’instant, les petites vidéos d’Open AI ne nous montrent que de gentils usages de cette technologie. La question qui se pose, c’est qu’adviendra-t-il dans la cas où on sortira du cadre prévu par les ingénieurs ? Ce n’est pas tant la crainte de l’avènement d’un Terminator, conscient de sa supériorité sur l’espèce humaine qui m’inquiète, que l’usage de ces fonctions évoluées au service d’individus ou de groupes mal intentionnés. On a pu voir, ces dernières années, se développer des usages pervers des technologies : sites de phishing, deep fakes, tout est bon pour jeter le trouble en tirant profit d’un avantage technologique.
Comment fire pour qu’un produit comme GPT-40 reste dans des usages moraux ou légaux (en tenant compte des particularismes locaux) ? Voici un pan entier d’activité dans lequel les fabricants de LLM devront se plonger.
Une idée de business pour des acteurs économiques de la moralité ?
Découvrez d'autres articles sur ce thème...
Hervé Kabla, ancien patron d’agence de comm’, consultant très digital et cofondateur de la série des livres expliqués à mon boss.
Crédits photo : Yann Gourvennec