微软新文本语音模型能在 3 秒内复制任何人的声音
2023-1-9 21:27:16 Author: www.solidot.org(查看原文) 阅读量:23 收藏

微软新文本语音模型 VALL-E 只要听 3 秒钟的声音样本就能复制任何人的声音。VALL-E 是一种基于转换器(transformer)的文本语音模型,比之前的模型有显著的改进,旧的模型需要长时间训练才能生成新的声音。此外,在生成的语音中声音的语调、卡里斯马(或魅力)和风格都完全一致。这是文本语音系统朝着更自然的声音迈出的重要一步。

https://valle-demo.github.io/
https://mpost.io/vall-e-microsofts-new-zero-shot-text-to-speech-model-can-duplicate-everyones-voice-in-three-seconds/


文章来源: https://www.solidot.org/story?sid=73846
如有侵权请联系:admin#unsafe.sh