Un modelo de TTS entrenado bastaría (
GitHub - rhasspy/piper: A fast, local neural text to speech system)
Teniendo acceso a GPU, con los discursos y su audio tras*crito, no debe ser muy complicado entrenar un modelo
Avisad cuando tengáis listo el archivo onnx
a ver si sale ya el de Franco
PD. es para un heztudio de antisemitismo lgtb, agente