来源:腾讯研究院
2022 年,从引爆 AI 作画领域的 DALL-E 2、Stable Diffusion 等 AI 模型,到以 ChatGPT 为代表的接近人类水平的对话机器人,AIGC 不断刷爆网络,其强大的内容生成能力给人们带来了巨大的震撼。学术界和产业界也都形成共识:AIGC 绝非昙花一现,其底层技术和产业生态已经形成了新的格局。
就内容生产而言,AIGC 作为新的生产力引擎,让我们从过去的 PGC、UGC,已经不可避免地进入 AIGC 时代。AIGC 代表着 AI 技术从感知、理解世界到生成、创造世界的跃迁,正推动人工智能迎来下一个时代。
经过了 2022 年的预热,2023 年 AIGC 领域将迎来更大发展。AIGC 生成内容的类型不断丰富、质量不断提升,也将有更多的企业积极拥抱 AIGC。在这个背景下,腾讯研究院正式发布《AIGC 发展趋势报告 2023:迎接人工智能的下一个时代》。报告从技术发展和产业生态、应用趋势、治理挑战等维度,对 AIGC 的发展趋势进行了深入思考。
本文为报告核心内容摘要(文末附下载):
AIGC 的大爆发不仅有赖于 AI 技术的突破创新,还离不开产业生态快速发展的支撑。在技术创新方面,生成算法、预训练模型、多模态技术等 AI 技术汇聚发展,为 AIGC 的爆发提供了肥沃的技术土壤。
第一,基础的生成算法模型不断突破创新。比如为人熟知的 GAN、Transformer、扩散模型等,这些模型的性能、稳定性、生成内容质量等不断提升。得益于生成算法的进步,AIGC 现在已经能够生成文字、代码、图像、语音、视频、3D 物体等各种类型的内容和数据。
第二,预训练模型,也即基础模型、大模型,引发了 AIGC 技术能力的质变。虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。而预训练模型能够适用于多任务、多场景、多功能需求,能够解决以上诸多痛点。预训练模型技术也显著提升了 AIGC 模型的通用化能力和工业化水平,同一个 AIGC 模型可以高质量地完成多种多样的内容输出任务,让 AIGC 模型成为自动化内容生产的“工厂”和“流水线”。正因如此,谷歌、微软、OpenAI 等企业纷纷抢占先机,推动人工智能进入预训练模型时代。
第三,多模态技术推动了 AIGC 的内容多样性,进一步增强了 AIGC 模型的通用化能力。多模态技术使得语言文字、图像、音视频等多种类型数据可以互相转化和生成。比如 CLIP 模型,它能够将文字和图像进行关联,如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。这为后续文生图、文生视频类的 AIGC 应用的爆发奠定了基础。
未来,算法的进步将带来更多激动人心的应用,语言模型会得到进一步发展,可以自我持续学习的多模态 AI 将日益成为主流,这些因素会进一步推动 AIGC 领域的蓬勃发展。
在产业生态方面,AIGC 领域正在加速形成三层产业生态并持续创新发展,正走向模型即服务(MaaS)的未来。
目前,AIGC 产业生态体系的雏形已现,呈现为上中下三层架构。
第一层是基础层,以预训练模型为基础搭建的 AIGC 技术基础设施层。在国外,以 OpenAI、Stability.ai 为代表,通过受控 API、开源等方式输出模型能力。
第二层是中间层,是在预训练模型基础上,通过专门的调试和训练,快速抽取形成垂直化、场景化、定制化的小模型和应用工具层,可以实现工业流水线式部署,同时兼具按需使用、高效经济的优势。比如,知名的二次元画风生成模型 Novel-AI,以及各种风格的角色生成器等,就是基于 Stable Diffusion 开源进行的二次开发。随着 AIGC 模型加速成为新的技术平台,模型即服务(Model-as-a-Service,MaaS)开始成为现实,预计将对商业领域产生巨大影响。
第三层是应用层,依托底层模型和中间层的垂直模型,各厂商进一步开放面向 C 端和 B 端用户的各种各样的 AIGC 产品和服务,满足海量用户的内容创建和消费需求。例如群聊机器人、文本生成软件、头像生成软件等 AIGC 消费工具。
目前,从提供预训练的 AI 大模型的基础设施层公司到专注打造垂直领域内 AIGC 工具的中间层公司、再到直接面对消费者和终端用户提供产品和服务的应用层公司,美国围绕 AIGC 生长出繁荣的生态,技术创新引发的应用创新浪潮迭起;中国也有望凭借领先的 AIGC 技术赋能千行百业。
AIGC 领域目前呈现 AIGC 的内容类型不断丰富、内容质量不断提升、技术的通用性和工业化水平越来越强等趋势,这使得 AIGC 在消费互联网领域日趋主流化,涌现了写作助手、AI 绘画、对话机器人、数字人等爆款级应用,支撑着传媒、电商、娱乐、影视等领域的内容需求。目前 AIGC 也正在向产业互联网、社会价值领域扩张应用。
在消费互联网领域,AIGC 牵引数字内容领域的全新变革。目前 AIGC 的爆发点主要是在内容消费领域,已经呈现百花齐放之势。AIGC 生成的内容种类越来越丰富,而且内容质量也在显著提升,产业生态日益丰富。这其中有三个值得关注的趋势:
第一,AIGC 有望成为新型的内容生产基础设施,塑造数字内容生产与交互新范式,持续推进数字文化产业创新。过去 AI 在内容消费领域的作用主要体现在推荐算法成为了新型的传播基础设施。推荐算法对数字内容传播,短视频为主的数字内容新业态发展,起到了颠覆式的变革作用。而现在,随着 AIGC 生成的内容种类越来越丰富,内容的质量不断提升,AIGC 将作为新型的内容生产基础设施对既有的内容生成模式产生变革影响。
第二,AIGC 的商业化应用将快速成熟,市场规模会迅速壮大。当前 AIGC 已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大发展,市场潜力逐渐显现。比如,在广告领域,腾讯混元 AI 大模型能够支持广告智能制作,即利用 AIGC 将广告文案自动生成为广告视频,大大降低了广告视频制作成本。巨大的应用前景将带来市场规模的快速增长,根据 6pen 预测,未来五年 10%-30%的图片内容由 AI 参与生成,有望创造超过 600 亿以上市场规模。也有国外商业咨询机构预测,2030 年 AIGC 市场规模将达到 1100 亿美元。
第三,AIGC 还将作为生产力工具,不断推动聊天机器人、数字人、元宇宙等领域发展。AIGC 技术让聊天机器人接近人类水平日益成为现实,当前以 ChatGPT 为代表的聊天机器人已经在刺激搜索引擎产业的神经,未来人们获取信息是否会更多通过聊天机器人而非搜索引擎?这已经使谷歌等公司面临的巨大压力。AIGC 也在大大提升数字人的制作效能,并且使其更神似人。比如腾讯 AI LAB 的虚拟歌手 AI 艾灵,能够基于 AIGC 实现作词和歌曲演唱。在元宇宙领域,AIGC 在构建沉浸式空间环境、提供个性化内容体验、打造智能用户交互等方面发挥重要作用。比如,扎克伯格在元宇宙的岛屿上,可以通过发出语音命令生成创造海滩、变换天气,添加不同的场景等。只有借助 AGIC,元宇宙才可能以低成本、高效率的方式满足海量用户的不同内容需求。
在产业互联网领域,基于 AIGC 技术的合成数据(synthetic data)迎来重大发展,合成数据将牵引人工智能的未来。MIT 科技评论将 AI 合成数据列为 2022 年 10 大突破性技术之一;Gartner 也预测称,到 2030 年合成数据将彻底取代真实数据,成为训练 AI 的主要数据来源。
合成数据的用途是成为真实世界数据的廉价替代品,用来训练、测试、验证 AI 模型。AIGC 技术的持续创新,让合成数据迎来新的发展契机,开始迸发出更大的产业发展和商业应用活力。这主要体现在以下四个方面:
第一,合成数据为 AI 模型训练开发提供强大助推器,推动实现 AI 2.0。过去用真实世界数据训练 AI 模型,存在数据采集和标注的成本高昂,数据质量较难保障、数据多样化不足、隐私保护挑战等多方面问题。而合成数据可以很好的解决这些问题。使用合成数据不仅能更高效地训练 AI 模型,而且可以让 AI 在合成数据构建的虚拟仿真世界中自我学习、进化,极大扩展 AI 的应用可能性。从某种意义上也可以说合成数据让 AI 模型训练从 1.0 阶段发展到 2.0 阶段。
第二,合成数据助力破解 AI“深水区”的数据难题,持续拓展产业互联网应用空间。目前,合成数据正迅速向交通、金融、医疗、零售、工业等诸多产业领域拓展应用,帮助破解产业互联网应用中的数据难题。比如,腾讯自动驾驶团队研发的仿真系统 TAD SIM 可以自动生成各种交通场景数据,助力自动驾驶系统测试、开发。在医疗领域,美国国立卫生研究院和合成数据服务商合作,基于其 COVID-19 病人病历数据库,合成了不具有可识别性的替代数据,可供世界范围内的研究人员自由分享和使用。
第三,正是由于合成数据对人工智能未来发展的巨大价值,合成数据正加速成为一个新产业赛道,科技大厂和创新企业纷纷抢先布局。目前,全球合成数据创业企业也已经达到 100 家,英伟达、亚马逊、微软等头部科技企业也在加速布局,涌现了合成数据即服务(SDaaS,synthetic data as a service)这一全新商业模式。
第四,合成数据加速构建 AI 赋能、数实融合的大型虚拟世界。合成数据指向的终极应用形态是借助游戏引擎、3D 图形、AIGC 技术构建的数实融合的大型虚拟世界。基于合成数据构建的大型虚拟世界,为测试、开发新的人工智能应用,提供了一个安全、可靠、高效以及最重要的是——低成本的、可重复利用的环境,将成为 AI 数实融合的关键载体,包括为 AI 开发提供数据和场景、试验田等。比如腾讯开悟的 AI 开放研究环境,已经吸引了国内外众多决策智能领域的研究团队使用。
在社会价值领域,AIGC 也在助力可持续社会价值的实现。比如,在医疗健康方面,AI 语音生成帮助病人“开口说话”。语音合成软件制造商 Lyrebird 为渐冻症患者设计的语音合成系统实现“声音克隆”,帮助患者重新获得“自己的声音”。AI 数字人也能帮助老年痴呆症患者与他们可能记得的年轻面孔或者逝去的亲人互动。此外,AIGC 也可以用于文物修复,助力文物保护传承。腾讯公司利用 360 度沉浸式展示技术、智能音视频技术、人工智能等技术手段,对敦煌古壁画进行数字化分析与修复。在国外,DeepMind 合作开发的深度神经网络模型 Ithaca 可以修复残缺的历史碑文。
总之,随着 AIGC 模型的通用化水平和工业化能力的持续提升,AIGC 的根本影响在于,将极大降低内容生产和交互的门槛和成本,有望带来一场自动化内容生产与交互变革,引起社会的成本结构的重大改变,进而在各行各业引发巨震。未来,“AIGC+”将持续大放异彩,深度赋能各行各业高质量发展。
发展总是与挑战并生,AIGC 的发展也面临许多科技治理问题的挑战。目前,主要是知识产权、安全、伦理和环境四个方面的挑战。
首先,AIGC 引发的新型版权侵权风险,已经成为整个行业发展所面临的紧迫问题。因版权争议,国外艺术作品平台 ArtStation 上的画师们掀起了抵制 AIGC 生成图像的活动。其次,安全问题始终存在于科技发展应用之中。在 AIGC 中,主要表现为信息内容安全、AIGC 滥用引发诈骗等新型违法犯罪行为,以及 AIGC 的内生安全等。较为著名的案例是,诈骗团队利用 AIGC 换脸伪造埃隆·马斯克的视频,半年诈骗价值超过 2 亿人民币的数字货币。再次,算法歧视等伦理问题依然存在。比如,DALL·E 2 具有显著的种族和性别刻板印象。最后是环境影响,AIGC 模型训练消耗大量算力,碳排放量惊人。此前就有研究表明,单一机器学习模型训练所产生的碳排放,相当于普通汽车寿命期内碳排放量的 5 倍。
图:腾讯优图实验室推出 FaceIn 人脸防伪产品,能够自动检测精准识别视频、图像中是否应用人脸伪造技术
为了应对以上挑战,面向人工智能的下一个时代,人们需要更加负责任地、以人为本地发展应用 AIGC 技术,打造可信 AIGC 生态。面对 AIGC 技术应用可能带来的风险挑战,社会各界需要协同参与、共同应对,通过法律、伦理、技术等方面的多元措施支持构建可信 AI 生态。在立法方面,网信办等三部门出台的《互联网信息服务深度合成管理规定》针对深度合成技术服务提出的要求和管理措施,诸如禁止性要求、标识要求、安全评估等,亦适用于 AIGC。接下来,需要着重从以下方面持续推进 AIGC 的政策和治理。
其一,政府部门需要结合 AIGC 技术的发展应用情况,制定并明晰 AIGC 的知识产权与数据权益保护规则。目前,AIGC 的知识产权与数据权益保护规则的不明确,在某种程度上导致甚至加剧了 AI 领域的乱象。
其二,研发应用 AIGC 技术的主体需要积极探索自律管理措施,例如,秉持不作恶、科技向善等目的,制定适宜的政策(消极要求和积极要求),采取控制和安全措施保障 AIGC 的安全可控应用,采取内容识别、内容溯源等技术确保 AIGC 的可靠来源。
其三,打造安全可信的 AIGC 应用,需要深入推进 AI 伦理治理。例如,行业组织可以制定可信 AIGC 的伦理指南,更好地支持 AIGC 健康可持续发展;AIGC 领域的创新主体需要考虑通过伦理委员会等方式,推进落实 AI 风险管理、伦理审查评估等,在 AIGC 应用中实现“伦理嵌入设计”(ethics by design)。
其四,社会各界需要携手应对 AIGC 领域的能源消耗问题,推行绿色 AI 的发展理念,致力于打造绿色可持续、环境友好型的 AI 模型,实现智能化与低碳化融合发展。
未来已来,让我们拥抱 AIGC,拥抱人工智能的下一个时代,打造更美好的未来。
在后台回复:AIGC2023
即可获取完整版报告