IA, éthique, tout ça

J’ai lu le rapport hier et si on va plus loin que juste le résumé en page 5 la démarche est expliquée.

Au début ça m’a fait tiquer aussi mais en fait le rapport dit qu’ils font référence à un autre rapport:

Et leur conclusion est plutôt du type:

  • plutôt que de demander 3 autorisations à des acteurs différents, il faut renforcer le rôle de la CNIL pour qu’elle puisse traiter une gestion plus collective des données plutôt que seulement individuelle

Je ne suis pas forcément d’accord avec tout mais c’est nettement plus nuancé que ce que le chapô du Monde laisse entendre.

Ça devient compliqué de trouver du journalisme de qualité sur ces sujets depuis le rachat de NextInpact :tired_face:

Le rapport fait le constat d’entrée qu’on ne pourra pas se baser sur des solutions étrangères si on veut avoir du poids, avant même de penser à l’IA il faudrait rattrapper les années de retard accumulées sur l’hébergement.
C’est donc illusoire de se positionner comme champions de l’IA alors que nous n’en avons pas les infrastructures. Le plan parle d’inciter les communes à héberger des datacenters mais leurs besoins sont stratégiques, on ne peut pas décemment en installer un n’importe où…
Pour rappel AWS est entrain d’installer un méga Datacenter aux states avec une centrale nucléaire aux fesses par exemple …

Et j’ai coupé mon pavé sur l’impact écologique à peine abordé si ce n’est pour dire « Oui mais avec l’IA, on pourrait peut-être limiter l’impact » (et encore ils avouent que c’est à court terme).
D’ailleurs c’est le même constat à peu près partout, l’IA pourrait aider, on pourrait avoir de nouveaux métiers (mais pour tous?) et le remplacement de certains métiers (culture notamment) pourrait se faire dans l’avenir mais on est vachement moins sûrs bizarrement (alors que le recours à des IA génératives dans l’industrie grossit déjà tous les jours).
On y file au passage des chiffres montrant que 30% des métiers pourraient être remplacés selon le FMI et 30% impactés. D’ailleurs le rapport, lui indique que certains métiers seraient « améliorés », je suis curieux de voir la perception réelle derrière ce terme, si ce n’est que de l’amélioration de productivité l’acceuil va être froid.

J’ai survolé le rapport et l’article mais j’ai globalement le sentiment que l’une des conclusions du rapport (hors sujet santé) est que la logique du RGPD (maîtrise des données par la personne, je résume fort) est emmerdante et qu’il serait bon de basculer vers une " gestion plus collective des données " qui serait de nature à " permettre d’accroître l’effectivité de la garantie des droits de chacun. "

Je ne demande qu’à être convaincu mais dire que la solution se trouve dans des asso/syndicat/collectif me laisse sur un bon gros « mouais » (sorry si je loupe un passage qui expliquerait sérieusement le truc). Après la question du renouvellement du RGPD est un process qui est ouvert, mais jusqu’à présent il y a plutôt consensus pour dire que le texte roule.

C’est plutôt bon esprit pour decarbonner à 100% d’ici 2025. C’est bientôt et ça arrive vite. Je trouve que c’est même un argument commercial du coup.

2 « J'aime »

Pour éviter de polluer le thread vidéo :

+1

Comme accélérateur où on arrive facilement par nous-même à vérifier l’output c’est des outils très chouettes. On aurait pu faire pareil mais ça aurait pris plus de temps.

C’est comme la prédiction auto des claviers de smartphone en fait (qui sont des small language model, si on réfléchit bien). (… j’attends un épisode de Black Mirror où des biais politiques sont insérés en scred dans le clavier).

Jusqu’à maintenant les meilleures utilisations que j’en ai fait est bien sûr du code (la boîte me paie gihub copilot), mais aussi pour m’aider à créer des personnages de jeu de rôle. Je lui demande « j’ai tel personnage avec tel background, c’est quoi ses traits de personnalités ? » et je pioche ce qui me plaît / je m’en sers de base pour construire d’autre truc.

Par contre pour des fins de recherche sérieuse (scientifique, journalistique ou même « je me souviens de ce passage dans ce standard ISO, c’est où déjà ? »), il faut soit batailler dur, soit passer par des interfaces spécialisé dans la recherche.

1 « J'aime »

C’est bien mon souci. Si je demande à un LLM de me résumer un événement historique, par exemple, et qu’il est incapable de sourcer ses affirmations, ça n’a aucun intérêt. C’est même problématique.

1 « J'aime »

Il peut inventer des sources complètement bidon aussi :smile: .

Je suis pas spécialiste mais de ce que j’en ai vu jusqu’à maintenant, ça me parait incompatible avec leur mode de fonctionnement : une suite de mots probables selon un contexte. Certes ça dépend d’avec quoi le modèle a été entrainé, mais vu que sont des proba à partir de larges set de données, ça n’aurait pas vraiment de sens.

Quand bien même on arriverait à faire générer des « sources » avec des articles cités qui seraient eux, fiables, ça ne serait en aucun cas une garantie que le texte généré serait bon. Il peu aussi bien dire le contraire de l’article ou quelque chose qui n’aurait rien à voir.

Rien à voir avec un vrai travail de synthèse sérieux, tout au plus une base de départ sur un sujet qu’on ne connait pas à la rigueur ?
Mais pour des spécialistes qui veulent des données précises et fiables sur un sujet précis, je ne suis pas sur que ça ait beaucoup d’intérêt effectivement.

Encore une fois, sans source, ça n’a pas vraiment d’utilité. Un bon point de départ pour une recherche, c’est une page Wikipedia par exemple, avec des sources que tu peux aller consulter, croiser, vérifier. Un bot conversationnel qui débite des faits invériviables, je ne pige pas à quoi ça sert. Et du coup, je ne pige pas pourquoi on empêche pas les LLM de répondre à ce genre de prompts, pendant que les boites derrière les LLM entretiennent sciemment l’illusion que si si, ça peut aussi écrire ta dissertation à ta place.

3 « J'aime »

Faut déjà tomber sur la page wikipedia ! Pour moi ça équivaut un peu à une première recherche google : ça peut te donner des « infos » (des noms, ,dates, lieux, etc.) et ensuite à l’utilisateur d’aller rechercher ces données pour creuser dessus pour vérifier si c’est vrai ou non.
Mais clairement c’est dangereux et pour une personne qui se méfiera vraiment combien prendront pour argent comptant ce qui est écrit :confused: .

Et on est qu’au début, à terme il y a toujours des risques de « bulle » avec des sites qui reprendront des trucs faux qui serviront eux-même de source et serviront à répandre de fausses informations.

Autant directement faire une recherche Google dans ce cas. Au moins, tu auras des sources (indispensables si tu veux justement vérifier leur véracité). :smiley:

Ce qui est clairement en train de se passer autour de moi, chez des gens pas trop « tech savvy ». Ils sont persuadés de parler à une mine de savoir et à un bot capable de raisonnements complexes, c’est flippant. Et bien sûr, tout est fait côté OpenAI et cie pour entretenir ce flou…

4 « J'aime »

C’est parce que tu prends un tournevis pour planter un clou.

Si tu veux un résumé d’un événement historique, tu injectes les documents décrivant cet événement dans ta fenêtre de contexte et tu utilises un LLM pour en faire le résumer (après plein d’étapes intermédiaires). Tu pourra ainsi lui demander un résumé et la liste des doc utilisés.

Y a plein d’outils dans la boites des IA Générative :
LLM → c’est un générateur de token (ou de nombre)
GPT → c’est un générateur de (joli) phrase
RAG → c’est un moteur de recherche dans un corpus
AgentLLM → c’est un ensemble d’instances LLM (GPT, RAG, ou autre) qui collaborent ensemble

A nous de prendre le bon et de pas se faire avoir par le marketing.

1 « J'aime »

Ah mais perso, j’ai fait le choix de ne pas utiliser ces outils dans le cadre de mon taf. Ma crainte est plus liée à l’utilisation massive de gens qui ne savent pas ce qu’ils utilisent et à qui on continue de vendre de la poudre de perlinpinpin.

2 « J'aime »

Ça, c’est dans le monde des gens éclairés et soucieux de bien faire. Dans la vraie vie, 95% des gens (au doigt mouillé) vont faire n’importe quoi (en fait, c’est déjà le cas, je suis stupéfait du nombre d’anecdotes qui me reviennent dans mon entourage de gens qui utilisent ChatGPT et autres pour tout et - surtout - n’importe quoi).

1 « J'aime »

Yep. Ca on est d’accord. Et je pense que les intégrateurs de modèles ne prennent pas assez leurs responsabilités. Faut pas plomber l’outil parce que les vendeurs sont à la recherche de capitaux.

1 « J'aime »

C’est je pense exactement l’inverse, si tu veux faire faire à un LLM un travail de synthèse t’as interet à bien connaitre le sujet pour savoir s’il te raconte des conneries ou pas.
Sur un sujet que je connais pas ou très peu, je ne ferais jamais assez confiance à un truc comme ça, le risque qu’il me sorte une grosse connerie est trop grand.
Sur un sujet que je maitrise bien, il peut me générer une première version, à moi de la relire et de la valider.
Et du coup la pertinence du truc se pose.

J’ai Copilot installé dans mon Visual Studio, c’est bluffant le code qu’il est capable d’écrire et ce code semble correct dans plein de cas, sauf que très souvent y a une petite erreur qui s’est glissée au milieu et que seule une relecture attentive permet de détecter.
(bon dans plein de cas, il génère aussi un gros truc bien merdique).

J’ai pas encore réussi à savoir s’il me fait gagner ou perdre du temps. Mais je penche plus sur: il me fait perdre du temps.
La forme est souvent très ok, mais le fond beaucoup moins, ça me fait penser à du travail d’un consultant junior qui fait de beaux powerpoints mais le fond ne veut rien dire. (désolé pour les juniors consultants :wink: )

2 « J'aime »
2 « J'aime »

Cette bande de guignols sans race OpenAI…

2 « J'aime »

Non mais tout va bien, la compagnie a d’ailleurs réagit (checks notes)… En supprimant immédiatement la voix litigieuse, ce qui semble tout de même indiquer qu’ils ne sont pas super sûr de leur situation juridique.

Merveilleux. Qui eut cru que se sourcer sur Reddit allait poser problème ?

1 « J'aime »