ChatTTS,一个用于对话的生成式语音合成模型。
语音界真的人才辈出,时不时给我们带来大惊喜,从之前的Bert-Sovit,到GPT-Sovits,再到现在一周飙升了 1w+ Star的ChatTTS,这些都说明了大家对声音合成技术的热爱和认可。今天,让我们一起来体验一下ChatTTS的神奇效果吧!
生成的语音已经达到了“以假乱真”的程度。更扯的是,为了限制ChatTTS生成的语音质量,作者在训练过程中添加了少量高频噪音,并压缩了音质,使其更容易分辨。这是为了防止模型被用于诈骗等违法行为。看来效果好到连作者自己都“害怕”了。
除了刚刚听到的短短12秒音频外,ChatTTS还有哪些优势和不足呢?
✅对话式TTS:ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持 多说话人。 ✅细粒度控制:该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。 ✅更好的韵律:ChatTTS在韵律方面超越了大部分开源TTS模型,并提供预训练模型。 ❌模型稳定性:自回归模型存在稳定性不足的问题,可能会出现声音突然变成其他人的声音,或者音质突然变差,可以通过多次尝试来寻找更好的音频效果。 ⭕️ 情感控制:目前发布的模型版本中,情感控制仅限于笑声([laugh])以及一些声音中断([uv_break], [lbreak])。作者计划在未来的版本中开源更多情感控制的功能。
几天前,我们还需要在本地和云端安装环境才能运行ChatTTS,玩法较为复杂。如今,陆续出现了在线网站和本地增强整合包。
数据统计
数据评估
关于ChatTTS特别声明
本站黑马自媒体导航提供的ChatTTS都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由黑马自媒体导航实际控制,在2024年6月15日 16:01收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,黑马自媒体导航不承担任何责任。