亚马逊开发出有史以来最大的文本转语音模型
小狐狸|
TechWeb.com.cn| 2024-02-18
【流媒体网】摘要:这个名为BASE TTS的新模型拥有9.8亿个参数,在同类产品中最大,在规模和能力上都超越了之前的迭代版本。
据外媒报道,亚马逊的一个人工智能研究团队宣布,他们开发出了有史以来最大的文本转语音模型。所谓“最大”,是指拥有最多的参数,使用最大的训练数据集。
外媒报道称,这个名为BASE TTS的新模型拥有9.8亿个参数,在同类产品中最大,在规模和能力上都超越了之前的迭代版本。它使用了10万个小时的录音(来自公共网站)来进行训练,其中大部分为英语语音,但也包括德语、荷兰语和西班牙语,这使它成为自然语音的新标准。
研究人员表示,尽管遇到了文本转语音引擎固有的困难,如发音错误或语调错误,但该模型在处理复杂的语言结构方面表现出了非凡的能力。
研究人员进一步指出,与之前的文本转语音模型相比,该模型提高了单词的发音质量。
外媒称,这一突破标志着文本转语音技术的发展向前迈出了重要的一步,在不久的将来有可能得到广泛的应用。
然而,该团队表示,为了避免滥用,BASE TTS不会向公众发布。相反,他们计划把它作为一种学习应用。
责任编辑:李楠
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!
24小时热文
流 • 视界
专栏文章更多
- 见微知著|海南自贸港2025封关,短剧出海新坐标? 2025-04-23
- 短剧榜单|3月美妆短剧竞逐女神节,电商品牌领跑短剧营销 2025-04-18
- [常话短说] 【破局】异业合作、跨界经营,广电自救新招式?! 2025-04-16
- 见微知著|对话张若波:多年芒果系转身微短剧得与失 2025-04-16
- [常话短说] 【解局】2025具体怎么干?多省广电给出答案! 2025-04-14