L’IA générative sème le doute dans les sciences sérieuses. Des chercheurs ont déjà mis au point un robot qui pourrait aider à faire la différence entre un texte synthétique et un texte généré par l’homme.
Les grands modèles de langage comme ChatGPT sont des pourvoyeurs de plausibilité. Les chatbots, dont beaucoup sont basés sur ce que l’on appelle l’IA générative, sont entraînés à répondre aux questions des utilisateurs en recherchant sur Internet des informations pertinentes et en assemblant des réponses cohérentes, produisant ainsi des dissertations d’étudiants convaincantes, des documents juridiques faisant autorité et des articles de presse crédibles.
Mais, comme les données publiques contiennent des informations erronées et de la désinformation, certains textes générés par la machine peuvent ne pas être exacts ou vrais. Cette situation a déclenché une course effrénée pour mettre au point des outils permettant de déterminer si un texte a été rédigé par un humain ou par une machine. La science a également du mal à s’adapter à cette nouvelle ère, avec des discussions animées sur la question de savoir si les chatbots devraient être autorisés à rédiger des articles scientifiques ou même à générer de nouvelles hypothèses.
L’importance de distinguer l’intelligence artificielle de l’intelligence humaine s’accroît de jour en jour. Ce mois-ci, les analystes d’UBS ont révélé que ChatGPT était l’application web qui connaissait la croissance la plus rapide de l’histoire, avec 100 millions d’utilisateurs actifs mensuels en janvier. Certains secteurs ont décidé qu’il était inutile de verrouiller la porte de l’écurie : lundi, le baccalauréat international a déclaré que les élèves seraient autorisés à utiliser ChatGPT pour rédiger leurs dissertations, à condition qu’ils y fassent référence.
En toute honnêteté, le créateur de la technologie est conscient de ses limites. Sam Altman, directeur général d’OpenAI, a prévenu en décembre que ChatGPT était « suffisamment bon dans certains domaines pour créer une impression trompeuse de grandeur… nous avons encore beaucoup de travail à faire en matière de robustesse et de véracité ». L’entreprise développe actuellement un filigrane cryptographique pour ses résultats, une séquence secrète de ponctuation, d’orthographe et d’ordre des mots, lisible par une machine, et perfectionne un « classificateur » capable de faire la différence entre un texte synthétique et un texte généré par l’homme, en utilisant des exemples des deux pour l’entraîner.
Eric Mitchell, étudiant diplômé de l’université de Stanford, pensait qu’un classificateur nécessiterait beaucoup de données d’entraînement. Avec ses collègues, il a mis au point DetectGPT, une approche « zéro coup » pour repérer la différence, c’est-à-dire que la méthode ne nécessite aucun apprentissage préalable. Au lieu de cela, la méthode fait tourner un chatbot sur lui-même, afin de détecter ses propres résultats.
Le principe est le suivant : DetectGPT demande à un chatbot dans quelle mesure il « aime » un échantillon de texte, le terme « aime » étant un raccourci pour indiquer dans quelle mesure l’échantillon est similaire à ses propres créations. DetectGPT va ensuite plus loin : il « perturbe » le texte, en en modifiant légèrement la formulation. L’hypothèse est qu’un chatbot est plus variable dans ses « goûts » en matière de texte modifié généré par l’homme que de texte modifié par la machine. Selon les chercheurs, lors des premiers tests, la méthode a permis de distinguer correctement les auteurs humains des auteurs automatiques dans 95 % des cas.
Il y a des réserves à faire : les résultats ne sont pas encore examinés par des pairs ; la méthode, bien qu’elle soit meilleure que les suppositions aléatoires, ne fonctionne pas de manière aussi fiable pour tous les modèles d’IA générative. DetectGPT pourrait être trompé en apportant des modifications humaines à un texte synthétique.
Que signifie tout cela pour la science ? L’édition scientifique est l’élément vital de la recherche, qui injecte des idées, des hypothèses, des arguments et des preuves dans le canon scientifique mondial. Certains n’ont pas tardé à considérer ChatGPT comme un assistant de recherche, une poignée d’articles mentionnant de manière controversée l’IA comme co-auteur.
Meta a même lancé un générateur de texte spécifique à la science appelé Galactica. Il a été retiré trois jours plus tard. Parmi les inepties qu’il a produites figure une histoire fictive des ours voyageant dans l’espace.
Le professeur Michael Black, de l’Institut Max Planck pour les systèmes intelligents de Tübingen, a tweeté à l’époque qu’il était « troublé » par les réponses de Galactica à de multiples demandes concernant son propre domaine de recherche, notamment l’attribution de faux articles à de vrais chercheurs. « Dans tous les cas, [Galactica] se trompait ou était partial, mais avait l’air d’avoir raison et de faire autorité. Je pense que c’est dangereux ».
Le danger vient du fait qu’un texte plausible se glisse dans de véritables soumissions scientifiques, truffant la littérature de fausses citations et déformant à jamais le canon. La revue Science interdit désormais purement et simplement le texte généré ; Nature autorise son utilisation s’il est déclaré, mais interdit de le créditer en tant que coauteur.
Mais la plupart des gens ne consultent pas les revues haut de gamme pour guider leur réflexion scientifique. Si des personnes mal intentionnées le souhaitent, ces chatbots peuvent cracher à la demande un flot de pseudo-sciences lourdes de citations expliquant pourquoi la vaccination ne fonctionne pas ou pourquoi le réchauffement climatique est un canular. Ce matériel trompeur, mis en ligne, peut ensuite être avalé par une future IA générative pour produire une nouvelle itération de faussetés qui polluent davantage le discours public.
–
SEO INSIDE est une agence de netlinking (notamment…)
--
SEO Inside est une agence web et SEO - en savoir plus sur nous:
Agence web / Audit SEO / Conseil SEO / Création de site internet / Refonte de site internet optimisé pour le SEO / Référencement naturel / Référencement local /Netlinking / Formation SEO / E-Réputation et avis
Voici nos implantations :
Lille / Dunkerque / Amiens – ce sont nos 3 bureaux historiques.
Puis voici nos zones géographiques d’intervention :
Paris / Abbeville / Rouen / Compiègne / Reims / Metz / Caen / Evreux / Nancy / Colmar / Rennes / Le Mans / Orléans / Dijon / Besançon / Angers / Nantes / La Rochelle / Poitiers / Limoges /Clermont-Ferrand / Lyon / Annecy / Grenoble / Valence / Bordeaux / Montauban / Toulouse / Biarritz / Montpellier / Marseille / Cannes / Nice / Avignon / Monaco
SEO INSIDE est une agence web spécialiste en référencement naturel qui se veut proche de vous. Contactez-nous pour discuter de vos projets.