Salut, je me demandais si vous commencez aussi à bidouiller avec des AI en local ?
Je découvre le truc, j'ai téléchargé qwen3-coder-30b-a3b-instruct-mlx et je lance via LM Studio en mettant 65000 machins (pas encore testé en ligne de commande avec ollama). Pour l'utiliser je passe par Cline dans VS Code.
Ça a l'air de faire le taf pour mes petits trucs de front-end mais je pense que ce n'est pas adapté s'il doit comprendre un projet complexe avec des tonnes de fichiers. Je me dis que ça peut être pas mal pour le day-to-day et passer à Claude seulement si on fait des trucs plus avancés.
Et vous, vous avez déjà testé ? Des LLM à conseiller pour des usages autres que le code ?
1 « J'aime »
J'utilise régulièrement Qwen3.6-35B-A3B en quantization Q4_K_M (via llama.cpp) pour des besoins "lambda" de chatbot pour la famille : gestion des courses, envois de fichiers, analyse de données ou questions sensibles, etc... le tout accessible sur les apps de messaging via Hermes Agent pour une liste d'utilisateurs restreinte (of course).
Signal/WhatsApp/Telegram... <-> Hermes Agent <-> llama.cpp <-> Qwen3.6
Si ce n'était pour un manque criant de tokens/s en sortie (~15, c'est tolérable) sur mon serveur homelab, ça fait largement le taf en qualité. C'est franchement impressionnant pour la taille du modèle - on parle d'un fichier de seulement 22GB.
Si la courbe de progression continue, je ne serais pas surpris que le middleman du serveur d'inférence remote soit coupé et qu'on ait très vite tout cela directement sur le téléphone pour le quidam lambda.
Vu les derniers moves d'Apple pour iOS 27 qui semble ouvrir la porte aux third-party models, on y va tout droit - un petit process llama.cpp-like embarqué sur le téléphone + un modèle open-weights de quelques GB ou dizaine de GBs et hop, plus besoin de devoir faire confiance à une API aux US pour les demandes un peu sensibles.
Pour du code, dès qu'on dépasse le petit projet perso en taille, j'en reviens pour l'instant encore à appeler les API des frontier models (ou bien Deepseek pour être un peu plus cost-effective).
1 « J'aime »
Ici, j'utilise openClaw avec Ollama et Qwen3.6 aussi avec quelques skill custom comme la génération d'image, fabrique a menu, veille, etc...
ca fait largement le taff pour mon usage.
Vous avez quoi comme machine derrière ça ?
J’ai prévu de me monter un système hybride d’automatisation avec n8n : lui sur un serveur dédié, et le LLM interrogé en local sur mon M1 classique (version 2020) et le tout piloté depuis un telegram.
Il faut que je me motive, vu que le but est de me monter un assistant perso pour automatiser le plus de tâches à la con (et me libérer de la bande passante cérébrale une fois lancé en freelance).
En local toujours, il faudrait que j’explore plus en détail comfyUI pour la encore des workflows hybrides pour certains cas d’usages. Mais pour ça mon M1 ne fait clairement pas l’affaire donc Apple, magnez-vous pour les nouveau Mac Studio.
Un truc indécent avec 64GB 
Je pense que ce serait pas la même chose sur mon pc et son gpu 8GB 
1 « J'aime »
M4 Pro avec beaucoup de RAM.
C'est un peu ce que fait nativement openClaw 
1 « J'aime »
@Stiveun et @Ewi c'est quoi vos use cases de votre llm en local ?
je suis tenté mais pour le coté bricolage, j'ai pas encore trouvé d'utilisation "waf"
- j'ai une base de connaissance perso (genre de wikipedia des trucs qui m’intéresse), c'est openclaw qui ajoute les entrées, fait les backlink & sert d'interface pour interroger
- Corrige mes email / message pour mettre les formes et check l'orthographe ou l'anglais
- me propose une idée de menu pour la semaine basé sur une bdd perso avec upvote / downvote de la famille
- fait une veille des actus sur un domaine ciblé
- RAG dans mes doc (car je sais pas ranger un ordi)
Je pourrai tout faire avec Claude / GPT, y a plus de friction a le faire en local (le temps d’inférence est bien plus important) mais c'est une sorte de contrôle.
3 « J'aime »
Comme @Ewi, j'ai pas mal de notes en markdown sur mon serveur, ça permet de faire un peu d'analyse / rangement à peu de frais, sans souci côté vie privée pour tout ce qui est un peu plus sensible comme les finances ou la santé.
La revue de presse PQR automatisée (l'agent a accès à un browser headless + mes cookies pour accéder aux sites sur lesquels je suis abonné), j'aime beaucoup aussi.
Gestion partagée de liste de courses - mine de rien, moins de friction à envoyer un message "ajoute du dentifrice dans la liste de la pharmacie" que d'ouvrir Google Keep, ouvrir une note partagée, scroller pour trouver la liste et ajouter l'entrée manuellement. Petite amélioration, grosse plus-value personnelle 
Et pour la suite des expérimentations, j'ai quelques idées:
- J'ai une instance Immich qui tourne à la maison et je vais regarder dans quelle mesure je peux créer un skill + fournir une clé API avec des droits read-only à l'agent. Auquel cas de la recherche photo sémantique pourrait être possible et sympa ("Envoie moi une photo de moi et mon pote Marcel en mai 2004")
- Je fais une webapp de gestion des finances familiales pour ma femme et moi, et une fois le parser de relevés bancaire écrit, le plus lourd est de passer du temps à catégoriser les dépenses non-récurrentes à chaque import. Un petit round-trip sur le LLM local pour suggérer des catégories automatiquement à l'import ? Ca se tente.
1 « J'aime »
Justement je l'ai écouté avant hier 
C'est marrant de voir Agar tomber dedans et de bien prendre les pincettes pour pas froisser les anti et pro.
Merci à tout les 2 pour les propositions, j'avoue que la liste des courses et sur le tri de photos ça serait vraiment interressant (j'ai récupéré un ancien disque dur avec des photos, des sauvegardes de ces photos (partiellement) du coup j'ai 30go de photos mais aucune idée de comment les trier/catégoriser (voir remplir l'exif avec la date de création).
Pour le truc des finances, ça peut m'éviter de faire un extrait annuel et de me taper à la main les corrections 
D'ailleur tu fais tu extractions à la mano ?
Je suis dans la même phase de découverte. Côté usage code j'ai constaté que les modèles 30B en Q4 ou Q5 sont vraiment limites dès qu'on quitte un fichier isolé, parce que le contexte file pas vraiment au delà de quelques refactors avant que le modèle perde le fil. Pour des trucs front type CSS ou un petit composant React ça passe très bien, mais sur un projet plus large ça décroche assez vite.
Pour des usages non-code j'ai trouvé que les modèles plus petits dédiés instruct (genre 7B à 14B fine-tunés français) sont étonnamment efficaces sur du résumé de notes ou de la reformulation d'emails, et la latence reste raisonnable même sur GPU modeste. Le critère qui fait la différence à mon avis c'est plus la qualité du dataset de fine-tune que la taille brute du modèle.
LM Studio comme tu fais c'est un bon point de départ pour comparer plusieurs modèles, mais à terme passer en CLI avec llama.cpp donne plus de contrôle sur l'offload des couches et la taille de batch.