OpenAI avait effectivement fait disparaitre les anciennes versions en ne laissant que gpt5 (et ses sous-versions auto, fast et thinking) mais face à la grogne des utilisateurs, GPT40 vient de réapparaitre.
Faut dire qu’il semble dérailler plus que le 4 sur certains sujets (réels, pas de conversations en substitut émotionnels)
J’ai bidouillé tout le week-end avec Claude Sonnet 4.5 dans Copilot, à un point que j’ai dépassé les requêtes de mon abo à 10$ par mois ![]()
Je lui ai demandé de créer une web app de création d’email pour les noobs avec un code html aux petits oignons, upload des images dans un Azure blob storage et création de l’email dans Microsoft Dynamics. Il m’a tout créé : la web app, les Azure functions qui vont bien, la gestion des authentifications, il m’a guidé sur la création de l’app Azure, la configuration dans Dynamics, etc.
Par contre où on voit directement qu’il n’y a aucune intelligence dans une AI : pour une certaine partie de l’API, à sa grande habitude, Microsoft ne fourni pas la moindre documentation et là il galère puisqu’il n’a aucune source dans laquelle chercher.
Bien sur que ces systemes ne sont pas vraiment “intelligent” dans le sens ou ils ne sont pas capable de reassembler des connaissances de bases pour s’en créer de nouvelles et etre donc capable de resoudre des problemes totalement nouveaux. Par contre ton message montre quand meme bien que ces dernieres années le domaine a fait des progrès tres impressionnants. Il y a ne serait ce que 5 ans ton message aurait été totalement de la science fiction.
Quant à dire que le fait qu’un llm est pas capable de se demerder avec une api non documenté est la preuve de leur manque d’intelligence je sais pas si c est vraiment pertinant ou alors je le prends mal parce que moi aussi je galere si je dois bosser sur une api avec zero doc ![]()
c’est bien résumé ! pour aller un peu plus loin et sans vouloir faire le rabat-joie mais plutôt mettre quelques warnings :
- si tu fais pas attention à l’organisation du projet en relisant le code et en étant sûr que ça soit propre au delà de “ça marche”, l’IA va de plus en plus galérer à sortir de nouvelles features au fur et à mesure que ton projet grossi
- plus il y a de fichiers, plus le contexte va devenir important et plus l’IA va consommer des tokens donc chaque feature va coûter de plus en plus cher. c’est de moins en moins vraie car les agents arrivent de mieux en mieux à cibler un context restreint qui correspond au besoin mais parfois on a aussi besoin d’un context très large
- il faut aussi s’attendre à des augmentations de prix pour Claude, apparemment anthropic dépense 100% de ses revenus en crédits AWS (source)
Oui j’ai remarqué que c’est plus lent quand le projet grossi. Mais j’ai l’impression qu’il fait régulièrement des « summarize conversation » pour garder le contexte sans devoir tout reparcourir. Je me demande s’il ne se sert pas aussi de tous les readme qu’il crée.
J’ai l’impression qu’il organise assez bien le code : un script pour mon éditeur, un pour la sauvegarde dans le localStorage, un pour l’envoi vers Azure, un vers Dynamics, un autre pour envoyer des emails de test, etc.
Par contre parfois quand on lui demande un truc il a tendance à en casser un autre qui fonctionnait. Comme un vrai développeur en fait ^^
J’ai appris pal mal de trucs en général sur les api Microsoft et Azure qui m’auraient pris beaucoup plus de temps en fouillant sur Google.
Mon esprit complotiste me dit que parfois, les réponses foireuses des AI sont faites exprès pour nous pousser à payer. Je demande un truc à Claude, ça tourne et le résultat ne fonctionne pas. Je lui redemande de trouver une autre solution sans reformuler le prompt et là, comme par magie, c’est bon ![]()
Je ne serais pas particulièrement surpris…
Non, c’est une illustration du réglage de température dans les LLM. Dans le traitement d’une requête, il y a de l’aléatoire, plus ou moins prononcé suivant le réglage de température. Ça sert à éviter la monotonie dans les réponses, ou avec un vocabulaire anthropomorphisant, à avoir plus de créativité dans les réponses. Cependant, ça peut vite snowball comme beaucoup de choses avec les LLM et on peut basculer d’une réponse moisie à une réponse exacte.
Dans ma boîte on a comme objectif de passer à 50% de PR générées par des agents autonomes et 25% de PR validées de manière autonome (sans regard humain donc) d’ici juillet.
mais bien entendu les humains restent responsables du ce ce qui est mis en prod.
Bon ben go. On verra bien.
Complètement absurde vu l’objectif de 25% de PR non validée par un humain (donc tout simplement non validée).
En tout cas ces KPI sont bien foireux.
Chez nous on commence tout doucement à utiliser Claude, surtout pour des tâches basiques. Mais il est hors de question de laisser le contrôle total à l’IA.
PR ?
Déjà que j’ai vu des bcase foireux à cause de décalage de colonne dans excel, je vois bien venir les prochaines crises de prod liée à l’IA..
Pull Request: une demande de changement dans le code par un dev qui est validée par un autre dev (enfin ça c’était avant) avant d’être mergée dans la branch principale.
Qu’il n’y ai plus de dev ne m’étonne pas plus que ça. Déjà quelque mois que nous discutons avec copilot pour échanger sur ce qu’il y a à faire avant de le laisser implémenter quand tout est bien clair, par contre en terme de gatekeeping il restait la relecture de PR. (pas la partie la plus marrante du boulot mais bon).
Dans un REX que je fais sur des grosses migrations effectuées avec l’aide de l’IA justement je préconise de toujours challenger les décisions prises par l’agent. Il faut croire que je suis à contre courant.
L’absence de planification avec l’agent et l’absence de relecture par un humain sont deux verrous qui viennent de sauter. Il va falloir investir dans des jiras hyper carrés (je pense qu’il va falloir faire les jira avec un agent pour être sûr que tout soit bien clair parce que l’interaction entre l’humain et l’agent va se trouver seulement à ce niveau) et des tests hyper complets à tous les niveaux.
Et puis finalement heureusement que c’est « que » 25%. Et découper les trucs simples à faire en plusieurs PR histoire d’orienter les KPI en notre faveur ![]()
Vu la direction des tarifs des tokens, oubliez pas trop comment ça marchait avant.
Une bonne lecture sur le sujet
Je pense que beaucoup d’entre nous en sont la aussi.
En tout cas, quand je parle a mes collègues, c’est pas un cas isolé.
Bah ça reste quand même beaucoup moins cher qu’un être humain…
On a comme objectif d’être dix fois plus rapides. Si on garde le même rendement on peut donc virer 9 personnes sur dix. On peu supposer qu’on va augmenter le nombre de projets qu’on est capable de traiter mais il serait naïf de croire qu’il va pas y avoir de la casse. On ne peut pas vraiment faire autre chose que de voir ce qui va se passer.
Par contre la question se pose pour les particuliers qui profitaient d’un abonnement à 20 euros pas mois pour produire des petits projets persos en mode agentique. à 100 euros par mois ça commence à faire cher le hobby.
Développer (au sens produire du code) risque de devenir un truc de riche. Un amateur ne pourra pas égaler un pro de même niveau qui se fait aider par ses agents.
On peut déjà avoir une idée.. Et c’est très loin des promesses des éditeurs.
10 x plus vite pour coder, 10 x plus lentement pour maintenir. On se prépare un bon boulot de merde pour plus tard ![]()