Le deep learning pour les nuls

Ca revient a demander pourquoi les licenses open-source existent et pourquoi tout le monde mets pas tout dans le domaine public a la place… ca change la vie parce que c’est pas la license de distribution que l’auteur a choisi et c’est sa decision pas celle de quelqu’un d’autre. Le fait que ca soit « gratuit » ou payant est pas la seule dimension de la gestion de droits dans l’histoire. L’auteur qui retient d’ailleurs le copyright du code quel que soit le mode de distrib (a moins de le donner explicitement, en general avec une Copyright Assignment Policy que de plus de projet requièrent mais historiquement c’est un bordel sans nom si c’etait pas en place au debut du projet… bref).

Il y a aussi des choses intéressantes faites avec des automates cellulaires :

La pour le coup on est dans du pur deterministique basique dont emerge pourtant de la complexité.

Selon moi si justement ca change les choses. Si un humain vit depuis sa naissance avec des lunettes de realitée augmentée qui applique un style Van Gogh sur absolument tout ce qu il voit (n’essayez pas à la maison). Il y a des grandes chances que si on lui demande de faire une peinture elle ressemble beaucoup à un Van Gogh. A l’inverse pour un humain normal qui a été confronté à tout type d’image on ne pourra pas vraiment prédire à quoi ressemblera la peinture qu’il va faire parce que ses sources d inspiration sont tres variées et donc son espace de génération est énorme. C’est la meme chose pour un modele entrainé sur des millards d images, il va génerer des images qui « piochent » un peu parmis toutes celle qu’il a vu et donc vu la taille du dataset ca sera de l’inspiration plus que de la copie.
Le probleme c’est que ces modeles ont aussi une memoire surhumaine et sont donc capable de reproduire à l’identique le style de quelqu’un si on leur demande (et qu’on n’a pas souhaité l’empêcher pendant l’entrainement) . Mais ca n’empeche pas que les images qui sont produites sont originales dans le sens où aucune image n’existait avant avec ces memes valeurs de pixel (et pas à + ou - 1 parce que justement l’espace de génération de ces modeles est immense). Je ne vois pas pourquoi on doit considerer comme plus orginiale une oeuvre faite à la tablette sous photoshop qu’une image générée avec l’aide d’un modele. Ce qui fait l’interet d’une oeuvre c’est pas la difficulté à la réaliser, c est l’intention qu’il y a derriere. Que cette intention ait été traduite à travers des crayons, des pinceaux, une tablette, un appareil photo ou un prompt, l’image finale est originale.

Je pense que ces modeles mettent en fait assez bien en avant l’idée que dans pas mal de domaine ce qui fait la « valeure » c’est pas vraiment la capacité à réaliser une tache mais la capacité à avoir l"idée que c’est utile ou interressant de réaliser cette tache et ca on est tres loin d’etre capable de l’automatiser.

1 « J'aime »

Tu peux ptet m’expliquer alors pourquoi tu prêtes pas ta voiture a ton voisin ?
Ça change techniquement rien, tu t’en servais pas ce jour la, il pouvait te la prendre sans te demander. Quoi ? C’est une décision qui t’appartient de choisir de prêter ta voiture ou non ?
Ben c’est la même chose. Pourquoi on photocopie pas les livres a ce rythme la ? puisqu’après tout, ils sont déjà écrits. Ça change rien pour l’auteur. Ça dérive vite hein. L’auteur choisi une licence d’utilisation, d’exploitation, je sais pas pour le reste, je suis pas expert en droit de propriété intellectuelle, mais quand même, ca se respecte un choix.

La le souci, c’est aussi que c’était pas du code open source. C’est pas parce que c’est sur github que c’est open source hein. C’était un code privé, potentiellement vendu a des entreprises, qui permettait a l’auteur des trucs comme… manger ? avoir un toit ?
Si jamais ça se retrouve dans un outil qui te génère ça direct a partir du nom de la fonction, pourquoi aller payer ce mec la ? Je vais me payer une licence copilot et rien a faire du reste.

3 « J'aime »

Je pense au contraire que ce que ça met en valeur c’est que ce qui fait une œuvre c’est une série de choix constants dans sa réalisation et que cracher à la chaîne des images d’un algorithme qui a volé son âme en vampirisant des auteur ça n’a absolument aucun intérêt et ça dévalue tout ce qui fait de l’humain un humain avec cette pauvre imitation.

Pour du code ou autre aspects avec un côté utilitariste (en dehors des problèmes de droits), pourquoi pas. Trouver une nouvelle drogue ou plier des protéines, fantastique.

Pour de “l’art”, lol. Y a absolument rien d’artistique. C’est de la soupe sans goûts et sans choix, intrinsèquement sans risques et donc sans intérêt, comme on en sert deja trop en musique ou sur Netflix. L’exemple même du truc qui part design est incapable de sortir quoi que ce soit de révolutionnaire.

4 « J'aime »

Il y a plusieurs types de licences, profondément différentes, voire incompatibles. Pour simplifier :

  • WTFPL : tu fais ce que tu veux avec le code. N’a aucune validité en France, tu ne peux pas abandonner ton copyright/copyleft. Aucune idée de ce que ça fait en France si tu réutilises un tel code.
  • BSD/MIT : tu fais quasiment ce que tu veux avec le code, mais tu dois laisser les infos de copyright. C’est la licence d’OpenSSL
  • GPL : si tu distribues l’appli, sous forme de binaire ou de matériel sur lequel elle tourne, tu dois distribuer le code source complet avec tes modifications. C’est celle de Linux, par exemple
  • AGPL : pareil que la GPL, mais s’applique aussi au SaaS. Si ton service utilise ce code, tu dois libérer le code source de tes modifs éventuelles
  • code ouvert mais non réutilisable. Certains projets ouvrent leur code pour des raisons diverses mais interdisent la réutilisation. De mémoire, c’était le cas de Java il y a quelques années (Java 5 ?).

Comme tu peux voir, ça change pas mal d’une licence à une autre. Même les licence BSD/MIT interdisent de copier du code sans référencer l’auteur et le projet source. Il n’y a que le code sous licence WTFPL qui puisse être réutilisé librement sans restriction, et il est assez minoritaire et en plus, n’est pas garanti d’être utilisable dans tous les pays sans restriction.
À ça tu peux ajouter les brevets logiciels qui peuvent être utilisés dans le code. Ça n’est pas encore applicable en Europe, mais aux USA tu peux prendre très cher.
Concrètement ça veut dire que tu peux te manger un procès en copyright et le perdre, devoir payer et ça peut couler ta boîte ou coûter cher. Quand tu vois le bazar qu’on fichu les procès de la SCO ou Oracle contre Google au sujet des APIs de Java, ou les divers procès autour de la licence GPL. ça donne une idée des problématiques de réutilisations et de licences

1 « J'aime »

Pas sur que ca ne soit psa un peu reducteur ou caricatural comme definition de ce qui fait une oeuvre. Comment se positionne la photographie en tant qu’art avec cette definition ou comment evaluer le travail par exemple de Pollock à travers cette definition? Et puis de la meme maniere que tout le code qui est ecrit tous les jours n’est pas au meme niveau que ce que peut faire John Carmack toutes la production artistique ne consiste pas en chef d oeuvre absolue qui bouscule l’art.

J’essayais de rappeler ce probleme dans la plus part des messages pour expliquer que ca n’est pas lié à une limitation intrinseque de ces modeles mais à des (mauvais) choix fait lors de leur entrainement. On est d’accord que c’est la far west dans les dataset mais ca me parrait dommage de jeter le bebe avec l’eau du bain pour ca.

Parce qu’on nous sert deja trop de merde il faudrait s’assurer que la création artistique soit un processus le plus laborieux possible pour eviter que trop de cons soient tenté de faire de l’ART. Je trouve ca un peu elitiste comme vision et je suis persuadé que des gens talentueux sont capable de produire des images marquantes (esthetiquement ou par leur sujet).

Je vois aucun problème a cette approche pour chacun des deux exemples cités qui sont le résultat de multiples choix délibérés de la part de leurs auteurs. Si on en est a croire que la photographie artistique c’est juste appuyer sur le bouton de l’appareil et avoir du cul… ou faire n’importe quoi sans réfléchir avec de la peinture sur un canvas et dire « c’est fini! », alors ouai en effet on a pas la meme definition de ce qui est artistique. On tourne en rond mais la série de choix qui produit l’oeuvre est centrale a l’approche artistique. Pour ca qu’un monochrome de Yves Klein est de l’art, parce que la peinture vient avec un contexte, des choix, et pas parce que un canvas recouvert de bleu est en lui meme artistique.

Et j’ai pas dit « c’est de l’art parce que l’artiste en chie », si c’est ta lecture de ce que j’ai dit je t’invite a relire.

J’avais cru comprendre que ce qui te derange, entre autre, c’est la facilité avec laquelle on genere des images avec ces modeles. Mais si c’est pas ca alors on devrait etre d’accord que quelqu’un qui reflechit longuement à un prompt et qui passe ensuite du temps à selectionner l’image qu’il prefere parmis celle que le modele a generé, on est bien dans un processus de création artistique.

Tant que on est bien d’accord que c’est l’humain qui fait l’art dans cette situation et pas l’algo qui n’a pas plus de valeur artistique que Photoshop ou Lightroom.

Mais pour aller plus loin et réutiliser l’exemple ci dessus, si tu dis en 2022 « je vais faire comme Klein mais en rouge »… c’est pas de l’art. Ou en étant généreux, c’est de l’art de merde car c’est du resucé et que les choix ne sont plus créatifs dans ce contexte. Un algo qui sait faire que du resucé par definition, ca produit rien de qui fait avancer le status quo/state of the art (artistiquement, commercialement, je suis sur que il y a plein d’opportunites pour faire du pognon en dérivant un truc a la énième sauce, voire faire des trucs de qualité ou fun. J’aime bien un bon mcdo et la seule cuisine acceptable c’est pas devoir aller dans un resto michelin 3 etoiles tous les jours).

1 « J'aime »

C’est pas l’artiste ça, c’est le mécène ou le client. Il donne les consignes et récupère le produit fini. Ça a peut-être été un vrai travail de définir précisément son besoin, mais au final ce n’est pas lui qui est crédité car ce n’est pas lui qui a créé.

2 « J'aime »

Ta comparaison avec une voiture n’a aucun sens. Déjà une voiture ça s’use. Je pense pas qu’un bout de code ira moins bien après avoir été utilisé par 10 000 personnes. Si tu veux comparer ça à l’automobile alors il faudrait que je conçoive de toute pièce une voiture complètement novatrice et que mon voisin me copie l’idée.

On ne photocopie par les livres parce la majorité des auteurs ont fait le choix de la thune et de ne pas les distribuer gratuitement/librement/opensourcement/gnument/creativecommonent/whatever.

J’ai regardé un peu ce repo SuiteSparse et toutes les licences parlent de free software, GNU, LGPL et je n’ai rien vu de commercial. Ce n’est pas du code privé puisque que c’est un repo public… et sur Github en plus.

Ce Tim Davis semble être chercheur et professeur. Donc il mange en grande partie grâce à son salaire payé par l’état et pas grâce aux royalties sur un bout de code de 2004. D’où ma question: qu’est-ce que ça va changer concrètement à sa vie si le code qu’il a choisi de distribuer partout (et créé pendant son boulot à l’unif, pas sur son temps libre) est réutilisé ailleurs sans le citer ? A part une question d’égo ?

Maintenant ce que je ne comprends pas c’est pourquoi Github n’ajoute pas simplement toute les licences automatiquement dès qu’un code est réutilisé. Puisqu’en soit ces gens n’ont rien contre Copilot, ils veulent juste voir leur p***** de licences.

Apres qu’est ce que le libre arbitre, qu’est ce que l’art on a aussi quel est l’interet des licences sur le code.
Une chose est sur ces modeles posent des questions :slight_smile:

Oui ou alors c’est un vrai métier et il faut bien manger…

C’est ce que Amazon Code Whisperer fait:

Je trouve ca bien mieux et heu… c’etait loin d’etre simple a implementer dans une V1. Mais bon c’est pas forcement suffisant pour éliminer toutes les questions liées aux droits.

1 « J'aime »

https://arxiv.org/abs/2212.03860
Un papier qui analyse à quel point les modèles ressortent directement des images venant de leur dataset d’entrainement.
Comme imaginé la taille du dataset joue beaucoup mais aussi sa qualité (plus ou moins d’images identiques dupliquées) et aussi plus un prompt est précis et proche d’une des légendes des images du dataset plus il y a de risque que le modèle ressorte l’image à l’identique.

J’ai créé ce sujet : Les licences open source

1 « J'aime »

C’est davantage une profession de foi qu’autre chose quand on lit son papier, sans parler du fait qu’il vend sa tambouille, c’est-à-dire qu’il est loin d’être neutre, puisque il est PdG d’une boîte d’IA.

En plus titres et intertitres putaclics, sans parler de ses formules pleines d’emphases et exagérations.

Et non ma critique n’a rien à voir avec un adorateur des calèches devant les voitures à moteur thermique, d’abord, même si ce qu’il dit était vrai, ça manque d’argumentations, c’est une profession de foi, et en plus il a l’air de croire que qu’il n’y aurait plus du tout du tout de développement.

2 « J'aime »

Le fait que ça soit la réthorique utilisée montre à quel point il faut calmer les attentes.

On peut effectivement considérer que cet article n’a aucune valeur et qu’il est écrit par quelqu’un qui a une vision totalement biaisée.
Moi je me dis plutôt qu’il est rédigé par quelqu’un qui sait quand même un peu de quoi il parle (son CV ne résume pas à « PDG d’une boîte d ia ») et que son point de vue est peut être pas totalement inintéressant. Ça ne veut pas dire qu il a raison, les prédictions dans la tech sont toujours très hasardeuses, mais rejeter tout ce qu’il dit et ne pas envisager que le dev va peut être beaucoup changer dans les années à venir me paraît un peu étonnant.