Real-Time Voice Cloning

FreeOpen Source
Real-Time Voice Cloning

Clona uma voz a partir de poucos segundos de áudio e sintetiza fala em tempo real com ela. É uma implementação open-source do paper SV2TTS (Speaker Verification to Text-To-Speech), combinando três modelos — encoder, synthesizer e vocoder — num pipeline completo. Serve para pesquisadores, devs e entusiastas de áudio que querem explorar síntese de voz sem depender de APIs pagas. O diferencial é a capacidade de generalizar para vozes nunca vistas no treino, usando apenas um clipe curto como referência. Projeto open-source, gratuito, roda localmente.

síntese de vozclonagem de voztext-to-speechdeep learningáudioopen-source

Sobre

O Real-Time Voice Cloning é uma implementação em Python do pipeline SV2TTS, criada por Corentin Jemine como projeto de tese. A ideia é simples e poderosa: dado um clipe de áudio de qualquer pessoa, o sistema aprende a impressão digital da voz e usa isso pra sintetizar qualquer texto com aquela voz — tudo rodando na sua máquina. Com quase 60k stars no GitHub, virou referência na área de TTS com clonagem de locutores.

Ferramentas Relacionadas