IA, éthique, tout ça

Le RGPD fonctionne (et encore, plus ou moins et pas toujours dans l’esprit initial) justement parce qu’il est Européen.

Pour revenir sur le fond de la proposition de loi, le sujet de l’utilisation d’œuvres protégées pour entraîner des modèles est complexe. Tu parles de l’accès à la connaissance pour les étudiants, et là-dessus, selon moi : les profs et les étudiants devraient avoir un accès facile et gratuit au savoir (j’apprécie d’ailleurs beaucoup que de plus en plus d’universités mettent leurs cours en ligne gratuitement).

Avec ces modèles, on crée des systèmes qu’on veut “intelligents” et qui, tout comme nous, ont besoin d’être abreuvés de la production intellectuelle passée pour apprendre. On ne demande pas à un étudiant qui va lire des centaines de livres gratuitement à la bibliothèque, pour apprendre un style littéraire ou assimiler des connaissances, de verser des droits aux écrivains qu’il a lus lorsqu’il publie ensuite son propre livre. L’inspiration est libre.

Par contre, s’il sort un livre qui est clairement un plagiat d’œuvres existantes, on lui tombera dessus. Pour les modèles d’IA, je vois les choses un peu de la même manière. Si en disant à une IA “récite-moi le livre de X sorti la semaine dernière”, elle te recrachait directement l’ensemble du texte, je comprendrais que les ayants droit soient contrariés. Mais fondamentalement, le modèle va juste s’inspirer de tout ce qu’il a lu pour produire ses propres réponses. (Si on veut être totalement honnête, en jouant avec des versions “uncensored” de certains modèles open source, on peut réussir à leur faire recracher des passages presque parfaits de certains livres. Mais on est déjà un peu dans du “hack” de modèle et ce n’est clairement pas ce genre de contournement qu’a dans son viseur la loi. Et dans tous les cas, si je m’en sers pour produire une oeuvre qui sera clairement un plagiat d’une oeuvre existante on me tombera dessus, que j’ai utilisé un modèle ou pas pour le faire).

Après, je suis bien sûr d’accord avec l’aspect très hypocrite des grosses boîtes qui font ces modèles : elles utilisent des œuvres protégées sans accord pour l’entraînement, mais de leur côté elles protègent leur modèle. (Même s’ils sont de plus en plus nombreux à sortir des versions “open source” et on sait aussi que si Anthropic ou Google mettaient en open source Gemini 3.1 Pro ou Opus 4.6… pratiquement personne n’aurait l’infrastructure pour les faire tourner)

Par exemple une taxe européenne payée par les entreprises qui produisent les modèles et servant à financer un accès libre à la connaissance me paraîtrait pas déconnante.

Quel condensé de mauvaise foi, ce texte.

Pas oublier que ce n’est pas parce que quelqu’un emprunte des trucs gratuitement que les ayant droit ne touchent rien. Un.e auteurice touche des sous à chaque emprunt en bibliothèque.

C’est pas le cas quand une boîte pompe le boulot de millions de créateurices sans autorisation ni rémunération.

5 « J'aime »

Et donc, si on s’inspire de la production d’un service IA, pas besoin de la payer non plus ?

Oui je suis au courant que les bibliothèques rémunèrent les auteurs (pardon pour cette terrible simplification) mais ça ne change rien au fond de l’argument. Cette rémunération couvre l’accès au support, pas l’inspiration. Si ce même étudiant achète le livre d’occasion, le prend dans une boîte à livres, qu’un ami le lui prête ou qu’il lit des milliers de blogs gratuits sur le web, l’auteur ne touche rien. Et pourtant, l’étudiant a le droit d’assimiler ce qu’il a lu, de s’inspirer du style, d’en tirer des concepts et de créer sa propre œuvre.
L’entrainement des modèles fait la même chose : il extrait de l’information, des concepts, des relations à partir d’un immense corpus de donnée pour ensuite pouvoir produire ses propres réponses.
Encore une fois (et c’était mon seul point de départ), je ne dis pas qu’il ne faut rien faire pour réglementer l’IA (et vraiment pas que sur la question de l’utilisation d’oeuvres protégées). Je dis juste que pondre une loi franco-française restrictive ne protégera aucun de nos auteurs contre OpenAI, Google, Anthropic, Alibaba, etc. qui continueront d’aspirer tout ce qu’ils peuvent. Ça va juste interdire à nos propres boîtes de le faire. Et je n’ai pas de solution magique parfaite, je pense juste que la solution proposée n’est clairement pas la bonne.

Je ne sais pas vraiment ce que tu entends par la. En tout cas si tu veux utiliser llama3 ou gemma4 ou qwen3.5 tu n’as effectivement rien à payer. :man_shrugging:

Tu dis que pour entrainer une AI, les ressources produites par les êtres humains devraient être gratuites.

Donc un humain qui s’entraîne avec une IA ne devrait jamais avoir à en payer le coût non plus.

1 « J'aime »

Je ne comprends toujours pas vraiment le point. Quand tu paies pour utiliser un modele tu ne paies pas un “droit d’auteur” pour les “connaissances” produites mais principalement du temps de calcul, de la bande passante et de l’énergie. Et comme dit au dessus tu as des modèles dispo en “open source” que tu peux faire tourner en local gratuitement et qui te produiront de la “connaissance” gratuitement.

Pardon mais si. Si les ayant droit étaient rémunérés et que tout était fait avec leur autorisation, il n’y aurait aucun problème. Ce qui gerce, et le but de la loi, bonne ou pas, c’est précisément ça.

Dans l’article, le gars fait d’ailleurs un énorme homme de paille en omettant ça quand il dit “Considérer qu’un modèle de langage ne peut s’entraîner sur les œuvres existantes équivaut, en réalité, à interdire au jeune artiste de décrypter les toiles de ses aînés ou au musicien en herbe d’écouter des milliers d’heures de répertoires avant de composer.”. C’est jamais le fait de s’entraîner sur des œuvres existantes, le problème. C’est de le faire sans autorisation et sans rémunération.

Ah ben non c’est trop facile. Ça serait oublier que les connaissances pompées par les llm aussi ont des besoins matériels. Les auteurices mangent, ont besoin de terminaux pour travailler, qui ont un coût, pareil pour les editeurices qui ont des locaux, des gens et du matériel à payer. Donc non. Si des boîtes se permettent de pomper illégalement le travail des autres, la moindre des choses, c’est que leurs llm soient gratuits (et sans siphonner / revendre les donnees personnelles).

1 « J'aime »

gratuit, pas forcement, ils ont une infra et le service peut etre payant. Mais ils devraient etre open source (et pas seulement open weight).

Pourquoi pas gratuit? Les créateurices du contenu sur lequel ils s’appuient a aussi des frais et des trucs à payer. On parle de millions de personnes. Je ne vois pas bien ce qui permet de dire que les boîtes de llm pourraient vendre leurs services, mais pas ceux qui créent le contenu.

Je pense qu’on n’arrivera pas à s’entendre sur ce point, parce qu’au fond, je ne trouve pas du tout problématique qu’un jeune ou un étudiant se forme en piratant.

Je suis convaincu que l’accès à la connaissance devrait être gratuit pour tous. Mais ca ne veut pas dire que les auteurs doivent vivre d’amour et d’eau fraiche. Comme je le disais au-dessus, une piste de solution serait peut-être justement la mise en place d’une taxe européenne payée par les fournisseurs de gros modèles. Cela permettrait de financer cet accès libre au savoir pour tout le monde (et donc les auteurs), plutôt que d’essayer de brider la technologie à l’échelle nationale. Et j’ai aussi bien conscience que ca aussi serait tres compliqué à mettre en place. Je ne pretends toujours pas avoir de solution magique.

Par contre faire des lois restrictives franco-françaises a, selon moi, TRÈS peu de chance de résoudre quoi que ce soit, tout en ayant BEAUCOUP de chance d’avoir un impact assez négatif pour les boîtes françaises qui voudraient entraîner des modèles (bon heureusement y en a globalement qu’une seule qui essaie… ).

Et j’avoue que je ne comprends pas trop ce point. Tu réagis comme si le fait que les llm s’entrainent sur des oeuvres protégées faisaient une concurrence directe aux auteurs. Le fait que des modèles aient été entrainée avec les merveilleuses oeuvres de Marc Levy ne va pas faire baisser les ventes de ses bouquins (personne ne lit une IA au lieu de lire le roman d’origine). Le problème se posera peut-être quand on aura des IA qui d’elles meme seront capable en “one shot” de générer un roman de la meme qualité que les meilleurs auteurs mais on en est pas encore là. Et quand ca arrivera il y aura d’autres problèmes à gérer que juste celui de la rémunération des auteurs/artistes… et c’est certainement pas la loi proposée qui aidera.

Je trouve l’argument du manque à gagner aussi discutable (voire plus) que celui des éditeurs de jeux vidéo : ils prennent le nombre de téléchargements pirates et le multiplient directement par le prix du jeu pour calculer leur “perte”. Ils ne prennent absolument pas en compte le fait que 90% des gens qui ont piraté le jeu n’auraient de toute façon jamais eu l’intention ou les moyens de l’acheter.

Ah justement là on est d’accord, j’ai aucun problème avec le fait que n’importe qui fasse appel à Bob quand il a pas les moyens (ou pour plein d’autres raisons).

Mais je peux pas faire d’équivalence entre un étudiant fauché et une grosse boîte capitaliste qui brasse des milliers de milliards.

En passant, il y a des trucs intéressants dans ce que tu dis et j’étais évidemment pas opposé à tout, j’ai juste réagi au point qui à mon sens est central et hyper problématique.

J’ai pas de souci avec l’idée d’une taxe, ou d’une autre piste pour faire payer les boîtes de llm, mais bon, vu que le problème de base c’est que les boîtes de llm veulent pas payer…

Ce que je voulais dire, c’est que ce deux poids deux mesures n’a pas de sens. Si c’est ok pour openai et Al d’utiliser le personnel et les infrastructures nécessaires à la création de contenu pour faire leur produit sans rien en échange, alors c’est aussi ok d’utiliser leurs produits sans rien en échange non plus. Je vois pas ce qui pourrait justifier le fait de faire payer.

3 « J'aime »

C’est plus clair. Mais comme je disais tu peux utiliser leurs modèles “open source” (avec gros guillemets parce que comme dit Ewi ca n’a de vraiment open source que le nom). Tu peux les faire tourner gratuitement sur ta machine sans rien payer à ces boites. Alors ils sortent bien sur ces modèles en partie pour l’image et pouvoir dire “regardez on est gentil on file des modèles gratos” mais n’empêche qu’on peut vraiment les utiliser gratuitement. Ca n’est pas le cas des plus gros modele mais comme je disais au dessus meme si ils les diffusaient librement je ne suis pas sur que ca serait tres rentable de mettre en place soit meme l’infra pour les faire tourner.

Faut payer l’infra, les salaires et le service qui est à dissocier du modèle. Open source hostable + services payant c’est un modèle très répandu :slight_smile:

1 « J'aime »

Ça c’est pas un argument, éliminer le marché pour être là seule alternative c’est dans le livre blanc du capitalisme, sauf qu’encore une fois on parle du monopole du savoir. C’est justement la partie que tu eludes systématiquement : si on tue le marché du savoir et qu’on le met dans les mains des IA on scie la branche sur laquelle on est assis.

Les IA ne sont pas capables de produire du savoir car elles se contentent de le synthétiser : par exemple dans le cadre de la prédiction des capacités mécadimenteuses des molécules, les IA n’ont pas découvert comment on peut prévoir ces capacités elles ont juste compilé les informations et itéré très rapidement sur les données
C’est vital de faire ce genre de choses mais ça ne reste qu’un outil, on ne sortira pas de recherche fondamentale d’une IA…

Et si c’est pour me sortir encore et toujours les promesses d’AGI des multinationales de l’IA, c’est inutile on en a ras la casquette.

En gros ton point de vue qui reste celui de toutes les multinationales de l’IA reste « tkt frère donne nous tout on va en faire un truc génial »…
Pour l’instant les trucs géniaux concrets c’est le profilage de la population, les armes autonomes, les campagnes de désinformation, la disruption de notre société au profit des plus riches, la pollution, les problèmes d’accès à l’eau potable et à l’électricité dans des pays développés. Et concrètement on donne toujours plus de puissance aux puissants et on dévalue la connaissance qui est le moyen privilégié d’émancipation des classes populaires.

Et si tu veux des exemples très concrets du pourquoi on doit garder nos données : le profilage est quelque chose contre lequel on se bat depuis des années dans le domaine de la santé car il sonnerait le glas de l’assurance santé privée ou, tout du moins une détérioration colossale de la qualité de la santé humaine. Donnez les moyens à un assureur santé de caler le coût de ses assurances santé en fonction d’un profilage précis de ses assurés et vous assisterez à une catastrophe.

Bref je vais me désabonner de ce thread, je n’y vois aucun intérêt.

17 « J'aime »

Je ne comprends pas ton message. Tu me prêtes des intentions qui ne sont absolument pas les miennes. À quel moment ai-je dit qu’il fallait tout laisser faire aux grosses boîtes qui entraînent les modèles ? Que ces modèles étaient autre chose que des outils ? Que l’AGI allait tous nous sauver? Qu’on devait faire une confiance aveugle à ces entreprises ?

Mon seul et unique propos depuis le début de cette discussion est beaucoup plus basique : selon moi, faire une loi franco-française restrictive sur le droit d’auteur ne protégera pas nos créateurs face à la captation de la donnée par les géants étrangers. Cela va juste paralyser nos propres acteurs locaux et ne réglera rien des problèmes actuels (et encore moins des problèmes futurs).

Je pense même que c’est un gros cadeau fait aux grosses boîtes américaines ou chinoises, parce que ça rend la création d’un concurrent français (qui serait potentiellement plus aligné avec nos valeurs) encore plus compliquée à mettre en place.

Et franchement, ça serait me prêter beaucoup d’importance de vouloir quitter ce thread à cause de moi. T’inquiètes je vais reprendre une activité normale et laisser un peu ce thread tranquille.

1 « J'aime »

On parle souvent de SkyNet à propos de l’emballement technologique qui pourrait devenir mortifère, s’il n’est pas contrôlé et régulé, mais Deus Ex est pas mal sur le sujet aussi.

Et accessoirement l’étudiant ne tire pas un profit pécunier direct de l’exploitation de ces livres: il bosse, intégré des connaissances, obtient un diplôme, publie ses recherches… sans se faire un euro. Il aura certes accès à un emploi grace à ces études, mais son salaire, il le devra majoritairement au travail qu’il fournira, pas à l’exploitation directe des auteurs de sa bibliothèque.
Les sociétés qui font des IA génératives dépendent directement de l’exploitation des oeuvres que leur modèles engloutissent et digèrent pour sortir leur soupe.

1 « J'aime »