Faire tourner une IA en local

Salut, je me demandais si vous commencez aussi à bidouiller avec des AI en local ?

Je découvre le truc, j'ai téléchargé qwen3-coder-30b-a3b-instruct-mlx et je lance via LM Studio en mettant 65000 machins (pas encore testé en ligne de commande avec ollama). Pour l'utiliser je passe par Cline dans VS Code.

Ça a l'air de faire le taf pour mes petits trucs de front-end mais je pense que ce n'est pas adapté s'il doit comprendre un projet complexe avec des tonnes de fichiers. Je me dis que ça peut être pas mal pour le day-to-day et passer à Claude seulement si on fait des trucs plus avancés.

Et vous, vous avez déjà testé ? Des LLM à conseiller pour des usages autres que le code ?

1 « J'aime »

J'utilise régulièrement Qwen3.6-35B-A3B en quantization Q4_K_M (via llama.cpp) pour des besoins "lambda" de chatbot pour la famille : gestion des courses, envois de fichiers, analyse de données ou questions sensibles, etc... le tout accessible sur les apps de messaging via Hermes Agent pour une liste d'utilisateurs restreinte (of course).

Signal/WhatsApp/Telegram... <-> Hermes Agent <-> llama.cpp <-> Qwen3.6

Si ce n'était pour un manque criant de tokens/s en sortie (~15, c'est tolérable) sur mon serveur homelab, ça fait largement le taf en qualité. C'est franchement impressionnant pour la taille du modèle - on parle d'un fichier de seulement 22GB.

Si la courbe de progression continue, je ne serais pas surpris que le middleman du serveur d'inférence remote soit coupé et qu'on ait très vite tout cela directement sur le téléphone pour le quidam lambda.

Vu les derniers moves d'Apple pour iOS 27 qui semble ouvrir la porte aux third-party models, on y va tout droit - un petit process llama.cpp-like embarqué sur le téléphone + un modèle open-weights de quelques GB ou dizaine de GBs et hop, plus besoin de devoir faire confiance à une API aux US pour les demandes un peu sensibles.

Pour du code, dès qu'on dépasse le petit projet perso en taille, j'en reviens pour l'instant encore à appeler les API des frontier models (ou bien Deepseek pour être un peu plus cost-effective).

1 « J'aime »

Ici, j'utilise openClaw avec Ollama et Qwen3.6 aussi avec quelques skill custom comme la génération d'image, fabrique a menu, veille, etc...

ca fait largement le taff pour mon usage.

Vous avez quoi comme machine derrière ça ?

J’ai prévu de me monter un système hybride d’automatisation avec n8n : lui sur un serveur dédié, et le LLM interrogé en local sur mon M1 classique (version 2020) et le tout piloté depuis un telegram.
Il faut que je me motive, vu que le but est de me monter un assistant perso pour automatiser le plus de tâches à la con (et me libérer de la bande passante cérébrale une fois lancé en freelance).
En local toujours, il faudrait que j’explore plus en détail comfyUI pour la encore des workflows hybrides pour certains cas d’usages. Mais pour ça mon M1 ne fait clairement pas l’affaire donc Apple, magnez-vous pour les nouveau Mac Studio.

Un truc indécent avec 64GB :ninja:

Je pense que ce serait pas la même chose sur mon pc et son gpu 8GB :rofl:

1 « J'aime »

M4 Pro avec beaucoup de RAM.

C'est un peu ce que fait nativement openClaw :wink:

1 « J'aime »

@Stiveun et @Ewi c'est quoi vos use cases de votre llm en local ?
je suis tenté mais pour le coté bricolage, j'ai pas encore trouvé d'utilisation "waf"

  • j'ai une base de connaissance perso (genre de wikipedia des trucs qui m’intéresse), c'est openclaw qui ajoute les entrées, fait les backlink & sert d'interface pour interroger
  • Corrige mes email / message pour mettre les formes et check l'orthographe ou l'anglais
  • me propose une idée de menu pour la semaine basé sur une bdd perso avec upvote / downvote de la famille
  • fait une veille des actus sur un domaine ciblé
  • RAG dans mes doc (car je sais pas ranger un ordi)

Je pourrai tout faire avec Claude / GPT, y a plus de friction a le faire en local (le temps d’inférence est bien plus important) mais c'est une sorte de contrôle.

3 « J'aime »
6 « J'aime »

Comme @Ewi, j'ai pas mal de notes en markdown sur mon serveur, ça permet de faire un peu d'analyse / rangement à peu de frais, sans souci côté vie privée pour tout ce qui est un peu plus sensible comme les finances ou la santé.

La revue de presse PQR automatisée (l'agent a accès à un browser headless + mes cookies pour accéder aux sites sur lesquels je suis abonné), j'aime beaucoup aussi.

Gestion partagée de liste de courses - mine de rien, moins de friction à envoyer un message "ajoute du dentifrice dans la liste de la pharmacie" que d'ouvrir Google Keep, ouvrir une note partagée, scroller pour trouver la liste et ajouter l'entrée manuellement. Petite amélioration, grosse plus-value personnelle :smiley:

Et pour la suite des expérimentations, j'ai quelques idées:

  • J'ai une instance Immich qui tourne à la maison et je vais regarder dans quelle mesure je peux créer un skill + fournir une clé API avec des droits read-only à l'agent. Auquel cas de la recherche photo sémantique pourrait être possible et sympa ("Envoie moi une photo de moi et mon pote Marcel en mai 2004")
  • Je fais une webapp de gestion des finances familiales pour ma femme et moi, et une fois le parser de relevés bancaire écrit, le plus lourd est de passer du temps à catégoriser les dépenses non-récurrentes à chaque import. Un petit round-trip sur le LLM local pour suggérer des catégories automatiquement à l'import ? Ca se tente.
1 « J'aime »

Justement je l'ai écouté avant hier :slight_smile:
C'est marrant de voir Agar tomber dedans et de bien prendre les pincettes pour pas froisser les anti et pro.

Merci à tout les 2 pour les propositions, j'avoue que la liste des courses et sur le tri de photos ça serait vraiment interressant (j'ai récupéré un ancien disque dur avec des photos, des sauvegardes de ces photos (partiellement) du coup j'ai 30go de photos mais aucune idée de comment les trier/catégoriser (voir remplir l'exif avec la date de création).

Pour le truc des finances, ça peut m'éviter de faire un extrait annuel et de me taper à la main les corrections :cry:
D'ailleur tu fais tu extractions à la mano ?

Je suis dans la même phase de découverte. Côté usage code j'ai constaté que les modèles 30B en Q4 ou Q5 sont vraiment limites dès qu'on quitte un fichier isolé, parce que le contexte file pas vraiment au delà de quelques refactors avant que le modèle perde le fil. Pour des trucs front type CSS ou un petit composant React ça passe très bien, mais sur un projet plus large ça décroche assez vite.

Pour des usages non-code j'ai trouvé que les modèles plus petits dédiés instruct (genre 7B à 14B fine-tunés français) sont étonnamment efficaces sur du résumé de notes ou de la reformulation d'emails, et la latence reste raisonnable même sur GPU modeste. Le critère qui fait la différence à mon avis c'est plus la qualité du dataset de fine-tune que la taille brute du modèle.

LM Studio comme tu fais c'est un bon point de départ pour comparer plusieurs modèles, mais à terme passer en CLI avec llama.cpp donne plus de contrôle sur l'offload des couches et la taille de batch.

Pour l'analyse de photos, Immich intègre du machine learning local. Ca pourrait être intéressant dans ton cas.

1 « J'aime »

FYI

Perso je fais mumuse sur mes machines mais aucune est perfect.
Mac Studio M2 Max 32 Go
Ryzen 9950X3D 64 Go de useless DDR5 avec une connasse de 5080 et ses 16 Go de chie. :stuck_out_tongue:

Mais bon thread, je peux faire une watchlist des gens à potentiellement ban car susceptibles de perdre trop de neurones OU de faire des posts via IA. Via IA. :thinking: :sweat_smile:

(Discourse propose déjà toute une mécanique antispam / modération via IA btw... qu'on peut pas utiliser avec notre pauvre serveur, obviously :man_facepalming: )

1 « J'aime »

En l'état, pas trop compris en quoi vos cas d'usage ont besoin d'être gérés par IA. C'est plutôt pour tester, j'imagine, non ?

Et de ce que je vois, il faut un matos bien musclé pour y parvenir :open_mouth:

1 « J'aime »

Ouais moi j'étais curieux de voir les perfs. Au final j'ai une stack complète qui tourne pour Obsidian / Zed, accessible de partout (merci Tailscale). Le M2 Max peut faire tourner des modèles OK-tier pour de la correction / grammaire (même si ça me fume que le seul validé soit un truc vieux de deux ans :smiley: ) et tous mes clients Obsidian ou Zed sur les différents ordi peuvent taper dedans.

Mon PC principal peut décider de taper dans ses modèles à lui et faire chauffer la RTX 5080, ça permet de comparer mais bon... 16 Go quoi... Je suis déjà pas impressionné par les trucs online alors en local... Mais c'était un projet rigolo. :slight_smile:

1 « J'aime »

Ce qui est à retenir, pour moi, c'est surtout la différence ténue en qualité entre un truc solide en local avec un couple harness + model qui va bien, et les services payants des frontier models. À part la vitesse qui est sans surprise bien meilleure pour les seconds même avec des cartes consumer qui bastonnent, finalement pour beaucoup de tâches à la con ça marche aussi bien (tant que c'est textuel, s'entend), puis pour les trucs plus compliqués, en fait y'a toujours les mêmes problèmes à un moment où à un autre. Plus ça va, plus le harness est la partie importante, finalement...

4 « J'aime »

Question sur les models en local. On sait tous que les mastodontes de l'IA se font basher car ils pompent tout ce qui est disponible sur le web pour entrainer leurs models.

Ça se passe comment pour un model en local? il faut installer un gros fichier de data qu'on trouve librement?

Yep. Le plus simple si tu veux tester et faire un chauffage d'appoint c'est LM Studio.

L'étape serveur, c'est souvent plus llama en ligne de commande mais depuis janvier, LM Sudio le fait aussi. Perso j'ai llama sur le Mac Studio en serveur avec les modèles les plus intéressants et LM Studio sur le PC pour faire des tests à la con et des benchs vs. le Mac.

T'as un milliard de tutos sur le Net. (les numéros de versions des softs sont bien à la hauteur des résultats IMHO :stuck_out_tongue: )

1 « J'aime »