微软开源 Visual ChatGPT
2023-3-21 18:2:56 Author: www.solidot.org(查看原文) 阅读量:35 收藏

  • 文章
  • 皮肤

开源 人工智能

Wilson (42865)发表于 2023年03月21日 18时02分 星期二
来自霸主的影子

OpenAI 的 ChatGPT(GPT 3 版本)是基于大语言模型,专门训练以文本形式的对话与用户互动。它不是基于多模态模型,不支持图像或语音的输入输出。如果我们想要构建一个类似 ChatGPT 的支持图像理解和生成的系统,那么可能需要使用一个多模态会话模型进行训练。但此类的训练需要消耗大量的数据和算力资源。与此从头开始构建一个全新的系统,不如站在巨人的肩膀上。微软亚洲研究院的研究人员在预印本网站 arxiv 上发表论文《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》,提出在 ChatGPT 和多个 Visual Foundation Models 基础上构建 Visual ChatGPT。源代码托管在 GitHub 上。

https://arxiv.org/pdf/2303.04671.pdf
https://github.com/microsoft/visual-chatgpt




文章来源: https://www.solidot.org/story?sid=74450
如有侵权请联系:admin#unsafe.sh