Génération automatique de sous-titres à partir d'une vidéo

Je possède une vidéo d’une heure au format mp4 d’un court-métrage en polonais et je ne parle pas polonais, malheureusement. Du coup j’ai eu l’idée de chercher un outil ou un site qui permettrait de générer automatiquement les sous-titres en français, avec en prime une synchronisation.

Bon, je galère un peu. J’ai essayé pas mal de trucs et rien ne marche vraiment. Veed.io par exemple ne veut même pas générer le texte. Happyscribe fait bien le job mais la synchro est à l’arrache totale avec de temps en temps des blocs massifs de texte. Avez-vous des solutions (payantes ou pas) qui permettent d’avoir une belle traduction synchronisée ?

A voir si l’extension text to speech d’Adobe Premiere gère le polonais ?

En l’uploadant que youtube ?

Ah mince, j’avais utilisé ce service pour une vidéo (en français) un jour et ça marchait bien

Kdenlive fait les sub automatiques.

J’avais déjà essayé Youtube mais le polonais est pas supporté en automatique. Pour Adobe Premiere j’ai regardé et ça ne gère pas le polonais, dommage.

J’ai installé Kdenlive, réalisé tout le process pour installer Python, récupéré un language pack polonais et lancé la reconnaissance : tout se déroule correctement sans erreur… Mais aucun sous-titres n’apparait sur la piste dédiée aux sous-titres. Aucune idée de pourquoi il n’y a rien. Une idée ?

Ok j’ai fini par trouver. En fait par défaut la piste de sous-titres reconnue n’est que de 3 secondes en début de vidéo, tu m’étonnes qu’il disait que tout c’était bien déroulé ! J’ai donc réussi à récupérer au final un fichier srt en polonais, que j’ai passé sur DeepL… Et c’est pas la joie. Un aperçu de la traduction :

Je pensais que les tartares sur une pause de cent cheveux et vous êtes sur le domaine de stanisław l’enfant de la chaîne de banane

Ou encore :

Je projete tout le monde et notre or lapidera vos oreilles et le sel des troupes voulant m’offenser.

D’habitude DeepL fait des très bonnes traductions donc à mon avis ça vient de plusieurs problèmes. Déjà le fait que le texte est découpé par petits morceaux (normal pour les sous-titres) fait perdre le sens des phrases. Peut-être aussi que la reconnaissance vocale est pas super au top mais ça je peux pas vraiment le vérifier. J’ai l’impression que c’est une situation sans issue, je crois que je vais abandonner ce projet, merci quand même !


Je suis hélas très déçu.

C’est marrant je suis justement sur ChatGTP à essayer des trucs, c’est fascinant ! J’ai d’ailleurs débuté une nouvelle lubie : converser à l’oral en anglais avec une IA pour améliorer mon niveau. Et je trouve rien c’est fou, avec toute l’effervescence autour de ça en ce moment, aucune boite n’a monté une appli de conversation vocal orienté apprentissage des langues ?

Y’a moyen que tu partage le fichier srt généré ?

J’aimerais bien tester quelques trucs, et je demanderai à ma femme si les résultats que j’obtiens ont du sens par rapport au texte polonais (ou même si le texte polonais sorti par la reco vocale a du sens, je vais commencer par là en fait :stuck_out_tongue_closed_eyes:)

Ah oui avec quelqu’un qui parle polonais à la maison, c’est déjà beaucoup plus simple ! Le texte :

Bon ouais c’est mort, rien qu’en lisant le texte en polonais elle faisait une drôle de tête :stuck_out_tongue_closed_eyes:
Il y a beaucoup de trucs sans queue ni tête. En rajoutant le fait que effectivement tout est morcelé, sans ponctuation et aucun moyen de savoir où les phrases commencent et se terminent, c’est mort :grimacing:
Et pour corser le tout ça à l’air d’être un truc historique avec sûrement beaucoup de vocabulaire peu usité et qui serait probablement mal traduit même si on avait des phrases bien délimitées.

J’avoue que j’ai eu un petit espoir. Sinon j’ai vu que si on donne une vidéo à Happyscribe, il y a une option pour créer les sous-titres et les traduire dans la langue voulue… pour 20€ la minute, soit 940€ pour ma vidéo.

J’ai utilisé Happyscribe pour du pro, c’était de très bonne qualité sur le speech to text mais la synchro merdait assez souvent.

Selon l’importance que tu y accordes et vu que les solutions "automatiques ont l’air de montrer leurs limites, tu devrais peut-être regarder vers une solution « manuel » genre les sites de petits services (fiverr ou comeup) ou meme les petits annonces ?

Les prix ont l’air de tourner autour de 120€ pour une heure. Ça serait ptete trop ?

Oui pourquoi pas, c’est toujours moins que 940€. J’avais pas vraiment pensé aux solutions manuelles, notamment sur Fiverr, je vais regarder ça, merci !

1 « J'aime »

Parce qu’aucun autre modèle n’est réellement efficace. Pour le moment c’est l’anglais la langue « officielle » de ces outils de ML. Français, japonais et 2/3 autres langues « fonctionnent » bien mais c’est pas leur focus et vu les ressources nécessaires pour faire des modèles qui fonctionnent, ça va prendre encore un paquet de temps.

Je suis tombé sur ça à l’instant et j’ai pensé à ce thread. L’explication est orientée anime mais ça supporte autre chose que le Japonais en entrée.

Ça se base sur GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision qui supporte le polonais. Mais ça génère de l’anglais.