Rejoignez-nous !

Pourquoi Chat GPT, Gemini ou Claude hallucinent si souvent ?

ai apprentissage automatique chat gpt erreurs ia fiabilité des ia gemini hallucinations ia ia intelligence artificielle llm prompts ia Nov 04, 2024

T'hallucine mec !
Oui, ben c'est normal, j'utilise Chat GPT.

Chat GPT est un LLM, et les LLM ont deux problèmes majeurs.

Le premier problème, c'est qu'il ont été mal éduqués. L'entraînement est globalement de mauvaise qualité.

Il a fallu plus de 10 milliards de documents (soit 3 à 4 centaines de milliards de mots) pour entraîner chat GPT 4. 

Et ces mots on les trouve partout sur le web.

Sauf que comme 10 milliards ça fait beaucoup, personne n'a vérifié la qualité des ces mots. Personne.

Par exemple, vous lancez un prompt parce que vous recherchez le meilleur film de karaté de l'histoire.

Si dans les données d'entraînement de Chat GPT, il y a une source qui dresse une liste des meilleurs films de karaté, ou s'il y a Allociné, ou s'il y a un blog reprenant tous les films de karaté de l'histoire, ou s'il y a une américaine qui a publié un papier présentant les films de karaté comme la représentation de l'antéchrist, et bien les résultats du prompt seront différent.

Mais qui a contrôlé cela ?

Aucun humain ne contrôle la qualité du corpus, car les données sont achetées en masse, ou scrappées.

Le deuxième point, c'est qu'il adore donner son opinion, même quand il ne sait pas de quoi il parle.

S'il n'y a pas de données parlant de film de karaté dans les données d'entraînement ?

Et bien Chat GPT va inventer des noms de films, des années, des acteurs, des histoires, ... Comme il n'a pas les bonnes données, il va en chercher d'autres. Elles ne répondent pas à 100%, mais 65%, c'est pas si mal ? 

"Brousse Lit", c'est presque ça ? Précis à 70%, c'est acceptable.

C'est ça une hallucination: quand chat GPT "Fills the gap", il remplit les trous avec une information fausse, mais pas trop éloignée. La différence entre le vrai et le faux, pour nous c'est entre 0 et 1. Pour lui, c'est en 99% et 100%.


Alors les LLM produisent 2 types d'erreurs.

Les "erreurs", et les "erreurs graves".

Les "erreurs" sont les erreurs factuelles que l'on peut identifier facilement. Par exemple, on veut une image de chat, et il produit une girafe. Là, ça va, on peut le corriger. Nous sommes capables de voir qu'il y a erreur.

Mais il fait aussi des "erreurs graves". Je veux une référence d'article de recherche, il ne sait pas, mais il me donne une référence bidon: mauvais auteur, mauvais titre, mauvaise année. Ou pire: bons auteurs, bon titre, bonne année, mauvais résumé.

Une erreur grave, c'est une erreur qui est très difficile à voir, ou qui prendrait un temps fou à identifier. Donc personne ne le fait. Et on se retrouve avec un avocat du barreau de New York qui appuie sa plaidoirie sur des jurisprudences qui n'existent pas.

Gardons en tête deux choses:
1. Travaillons nos prompts et notre analyse des résultats;
2. Ne faisons pas trop confiance aux IA: demandons les sources avec des liens hypertextes, des rapports, ... bref, demandons des preuves !

Les IA ont débarqué brusquement dans nos vies, presque par effraction. Nous devons absolument les apprivoiser.

Si cet article vous plait, partagez-le:

Après la lecture de cet article, je peux vous aider de plusieurs manières:

  1. Vous trouverez sans aucun doute d'autres articles à votre goût !

  2. Allez découvrir les formations. Vous en trouverez certainement une qui vous aidera dans vos activités.

  3. Rendez-vous sur la page "conférences" et voyez si cela vous inspire

  4. Allez jeter un œil à mes solutions de coaching 1:1 et mes workshops, cela vous sera peut-être utile.

 

Rejoignez Secret Sauce: la newsletter tactique ! 

Chaque samedi matin, un ensemble de techniques, astuces et tactiques qui vous permettront d'accélérer votre activité !

 

Vous ne serez pas spammé. Jamais. Promis.