字节跳动暂停 Seedance 2.0 的脸部照片转语音功能

字节跳动暂停 Seedance 2.0 的脸部照片转语音功能
好的，我现在需要帮用户总结一下这篇文章的内容。用户的要求是用中文，控制在100字以内，而且不需要以“文章内容总结”或“这篇文章”这样的开头，直接写描述即可。首先，我仔细阅读了文章。文章主要讲的是字节跳动发布了Seedance 2.0，这是一个AI视频生成工具。它能同时处理四种输入类型：图像、视频、音频和文本。用户可以组合最多12个文件，生成4到15秒（或60秒）的视频，并自动添加音效或音乐。接下来，文章提到由于潜在的安全风险，Seedance 2.0禁用了人脸转语音的功能。这个功能可以根据面部图像生成高度精确的个人语音。然后，文章引用了新加坡国立大学的研究论文，说明根据脸部照片生成个人声音并不是新技术，并且这种技术可能被用于攻击语音身份验证系统。现在，我需要将这些信息浓缩到100字以内。首先，点明Seedance 2.0的功能：支持四种输入类型，最多12个文件，生成视频并自动添加音效或音乐。然后提到禁用人脸转语音功能的原因是安全风险，并简要说明相关研究。需要注意的是，不要使用任何开头语句，直接进入描述。同时要确保语言简洁明了，不遗漏关键信息。最后的总结应该是：字节跳动发布AI视频生成工具Seedance 2.0，支持图像、视频、音频和文本四种输入类型组合生成4-15秒（或60秒）视频，并自动添加音效或音乐。为避免安全风险，禁用人脸转语音功能。该技术基于面部特征与语音特征的高度关联性。 </think> 字节跳动发布AI视频生成工具Seedance 2.0，支持图像、视频、音频和文本四种输入类型组合生成4-15秒（或60秒）视频，并自动添加音效或音乐。为避免安全风险，禁用人脸转语音功能。该技术基于面部特征与语音特征的高度关联性。 2026-2-11 10:25:37 Author: www.solidot.org(查看原文) 阅读量:3 收藏

字节跳动最近发布了 AI 视频生成工具 Seedance 2.0，它能同时处理多达四种类型的输入：图像、视频、音频和文本。用户能组合九张图像、三个视频和三个音频文件最多十二个文件。生成的视频时长为 4-15 秒（或 60 秒），能自动添加音效或音乐。但由于潜在的安全风险，字节跳动禁用了 Seedance 2.0 的人脸转语音功能。模型展现了能仅仅根据面部图像生成高度精确的个人语音的能力。根据脸部照片生成个人声音不是新研究，早在 2024 年的 USENIX 安全会议上，新加坡国立大学的研究人员就发表论文《Can I Hear Your Face? Pervasive Attack on Voice Authentication Systems with a Single Face Image》，介绍根据人脸生成语音攻击语音身份验证系统，因为人脸特征与语音特征之间存在高度关联。

https://seedance.ai/
https://www.usenix.org/system/files/usenixsecurity24-jiang-nan.pdf

文章来源: https://www.solidot.org/story?sid=83537
如有侵权请联系:admin#unsafe.sh