字节跳动暂停 Seedance 2.0 的脸部照片转语音功能
好的,我现在需要帮用户总结一下这篇文章的内容。用户的要求是用中文,控制在100字以内,而且不需要以“文章内容总结”或“这篇文章”这样的开头,直接写描述即可。 首先,我仔细阅读了文章。文章主要讲的是字节跳动发布了Seedance 2.0,这是一个AI视频生成工具。它能同时处理四种输入类型:图像、视频、音频和文本。用户可以组合最多12个文件,生成4到15秒(或60秒)的视频,并自动添加音效或音乐。 接下来,文章提到由于潜在的安全风险,Seedance 2.0禁用了人脸转语音的功能。这个功能可以根据面部图像生成高度精确的个人语音。然后,文章引用了新加坡国立大学的研究论文,说明根据脸部照片生成个人声音并不是新技术,并且这种技术可能被用于攻击语音身份验证系统。 现在,我需要将这些信息浓缩到100字以内。首先,点明Seedance 2.0的功能:支持四种输入类型,最多12个文件,生成视频并自动添加音效或音乐。然后提到禁用人脸转语音功能的原因是安全风险,并简要说明相关研究。 需要注意的是,不要使用任何开头语句,直接进入描述。同时要确保语言简洁明了,不遗漏关键信息。 最后的总结应该是:字节跳动发布AI视频生成工具Seedance 2.0,支持图像、视频、音频和文本四种输入类型组合生成4-15秒(或60秒)视频,并自动添加音效或音乐。为避免安全风险,禁用人脸转语音功能。该技术基于面部特征与语音特征的高度关联性。 </think> 字节跳动发布AI视频生成工具Seedance 2.0,支持图像、视频、音频和文本四种输入类型组合生成4-15秒(或60秒)视频,并自动添加音效或音乐。为避免安全风险,禁用人脸转语音功能。该技术基于面部特征与语音特征的高度关联性。 2026-2-11 10:25:37 Author: www.solidot.org(查看原文) 阅读量:3 收藏

字节跳动最近发布了 AI 视频生成工具 Seedance 2.0,它能同时处理多达四种类型的输入:图像、视频、音频和文本。用户能组合九张图像、三个视频和三个音频文件最多十二个文件。生成的视频时长为 4-15 秒(或 60 秒),能自动添加音效或音乐。但由于潜在的安全风险,字节跳动禁用了 Seedance 2.0 的人脸转语音功能。模型展现了能仅仅根据面部图像生成高度精确的个人语音的能力。根据脸部照片生成个人声音不是新研究,早在 2024 年的 USENIX 安全会议上,新加坡国立大学的研究人员就发表论文《Can I Hear Your Face? Pervasive Attack on Voice Authentication Systems with a Single Face Image》,介绍根据人脸生成语音攻击语音身份验证系统,因为人脸特征与语音特征之间存在高度关联。

https://seedance.ai/
https://www.usenix.org/system/files/usenixsecurity24-jiang-nan.pdf


文章来源: https://www.solidot.org/story?sid=83537
如有侵权请联系:admin#unsafe.sh