OpenGVLab团队建立光标指令的多模态交互系统让C

来源：未知编辑：天选资讯时间：2023-05-16

　　天选团队还在打字和ChatGPT聊天吗，如何精准告诉它我想达到的图片编辑效果？不用学习提示工程的八大技巧，试试用鼠标点一点，让AI帮你做7种视觉任务。

　　视觉任务中，常常需要在复杂的画面上进行物体编辑，AI如何能够精准感知用户的意图尤为重要。

　　为了进一步降低人与AI的沟通成本，OpenGVLab团队建立了光标指令的多模态交互系统InternGPT，用户无须输入语言，通过操作鼠标就可以与系统进行交互。有了InternGPT，鼠标点一点，直接在图片上和ChatGPT互动！点击葫芦娃，输入 remove it，轻松完成抠图！

　　通用视觉团队（OpenGVLab）做了一次大胆的尝试，我们建立了光标指令的多模态交互系统InternGPT。不同于 Visual ChatGPT、MM-REACT、HuggingGPT 等仅支持语言指令的传统多模态交互系统，InternGPT在基于语言的交互方式的基础上进一步引入了基于光标的交互方式，使得用户可以通过点击、框选、拖动等方式与系统进行交互，结合了诸多当下一线API，例如Stable Diffusion，miniGPT4，LLaVA，Husky等等，实现一键抠图，一键识别图中文字进行问答，一句话P图等七大功能，InternGPT具有丰富的对话和生成能力，把人机互动模式创新性的提高到了新的水平，让AI视觉功能不再高深，成为万千大众都能使用的日常工具。

　　InternGPT集成了七大功能，鼠标点一点，随手画一画，视觉问答、一键抠图、物体替换、风格迁移、图像生成、图片上的文字交互，视频截取文案撰写都能做！

　　示例图片中有狗，椅子，电扇，远处似乎还有山和水系，有点复杂，交给InternGPT来看图：

　　VQA采用了OpenGVLab全新独立研发的Husky，无需复杂的prompt设定，即可完成多轮对话。LLM部分基于llama，使用alpaca_gpt4_data以及sharegpt数据进行了指令微调。多模态框架为blip2, 支持图片描述，多轮对话，复杂推理等功能，相关代码已开源到。

　　参考LLaVA的评测方案，我们调用ChatGPT-turbo对Husky的输出和GPT-4的输出分别进行打分，然后计算Husky得分与GPT-4得分的比值发现，Husky仅通过7B的参数量便取得了GPT-4的93.89%的性能，其中复杂推理能力甚至略优于GPT-4，而在对话和图像描述任务上，Husky也分别达到了GPT-4的96.13%和83.87%的性能。

　　我们随手拍了一张工位的照片，让目前的我们的Husky模型、LLaVA和MiniGPT4给出答案，可以明显看出Husky的输出更加贴切。

　　把打篮球的男孩图片P成奥特曼，只要拖拽奥特曼素材到相应位置，就可以生成图片并且下载了。再换个风格：背带裤，平底锅（指令：An Ultraman wear in overalls is holding a pan in his hand ），虽然离谱但正是我们想要的（误）。

　　再也不担心妈妈出国旅游看不懂菜单了，上传菜单图片，点一点菜名查看解释，还可以输入要求，问问InternGPT 的点菜建议。

　　在白板功能上随手画一座山、树、太阳，点击save，然后告诉chatgpt你想生成什么，就可以得到一张大片级别的山川瀑布图了。

　　上传一个男生打篮球的片段，输入“剪辑出运球的画面”，即生成可下载的视频片段，并自动配解说“注意看，这个帅气的男孩叫小帅，他不但是一个很好的舞者，还是一个很棒的篮球运动员”。

　　在本次体验中，我们对比了我们的InternGPT和使用键盘交互的agent。

　　物体编辑的任务时，但以往都是使用键盘交互的agent，Visual ChatGPT是在这个领域中很有代表性的一个工作，但这种方式未必能够精准感知用户的意图。它和InternGPT一样，任务是接收用户的指令，根据指令编辑给定的图片，如添加、删除和替换物体等等，但是在用户测试的特定的情况下，InternGPT表现得更出色。

　　在单个物体的场景中，InternGPT和Visual ChatGPT都可以非常准确地识别并抹去图片中的狗。然而，在更复杂的场景中，InternGPT似乎更善于掌握现有物体的特征，以及准确地完成更换物体的操作，替换的内容能够维持现有的。在两个物体的图片上，移除物体时，Visual ChatGPT需要更长的指令来明确指定要删除的物体，而InternGPT仅需轻点一下就能完成。在更多物体的图片中，InternGPT的优势更加明显。例如，InternGPT可以精确地修改多辆车中的某一辆，或者修改指定的杯子，而Visual ChatGPT则会将图中的所有物体都抹去。

　　尽管在更复杂的场景中，InternGPT也会面临一些挑战，但它仍能够正确分割和移除对应的物体。然而，Visual Chat GPT似乎无法在此类场景中都正常运行；在难度较高的复杂图上，Visual ChatGPT无法准确地识别出指令。

　　综上所述，虽然在物体编辑任务中，InternGPT和Visual Chat GPT都表现得非常出色，但在复杂场景中，InternGPT的表现更佳。这说明了InternGPT在处理更复杂的用户交互时的能力。

　　InternGPT主要由三个模块构成：作为控制器的大型语言模型，作为光标指令感知单元的视觉基础模型以及作为后端的其他视觉基础模型和工具。下图展示了InternGPT的整体工作流程。

　　具体而言，用户在对话开始时传入一张图片。随后在每一轮的对话过程中，用户可以传入点击、框选和拖动等光标形式的指令和语言形式的指令。针对光标形式的指令，InternGPT通过SAM模型对物体进行分割提取，通过OCR模型对选中区域的文本内容进行提取。对于生成任务，还会将用户的光标指令作为笔画输入给后端的AIGC模型。针对语言形式的指令，由大型语言模型对进行语义理解和任务拆分。随后系统根据拆分得到的各个子任务来调度后端模型，将用户上传的图片和光标信号感知单元的解析结果作为输入，逐个完成全部子任务后，将结果响应给用户。

　　在实践的过程中，我们注意到尽管大型语言模型具有很强的任务拆分能力，但是模型的输出是自然语言的形式，难以解析成格式化的形式，这就对后续的API调度造成了困难。

　　为了解决这一问题，本文提出了“辅助控制”的调度方案。具体而言，在执行API前，InternGPT首先从大型语言模型的输出中提取出所有的动词和名词，从而判断需要调用的API，然后从过去的对话历史中去抽取当前API所需要的参数，最后基于这些参数来调用API。

　　InternGPT一次创新性的尝试，希望能够将人工智能视觉任务的使用门槛不断降低，让所有人都可以通过点击等简单操作，轻松完成视觉问答、抠图、物体替换、风格迁移生成、文字识别交互、视频编辑等等多种传统复杂任务。人工智能作为全民生产工具的时代已经到来，欢迎大家试用，或者来到github社区，和我们一起创造更有想象力的工作吧！

　　TechBeat是由将门创投建立的AI学习社区（）。社区上线+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

　　我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

　　或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

　　将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

　　将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

　　如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

　　天选

　　特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。

　　人手AutoGPT！让ChatGPT自选10万+AI模型，HuggingFace官方出品

　　ChatGPT死活不认27能被3整除，网友：不是说AI要统治世界了吗？

　　Prompt Engineering全面自动化：LeCun看了沉默，ChatGPT直呼内行

　　近日，四川，橘猫在自家院子被外面黑猫欺负，“白橘”从天而降霸气冲出，网友：“白橘”能处，有事真上

　　俄国防部首次宣布：击落一枚英国援乌风暴阴影导弹

上一篇：图与代码不一致Transformer论文被发现错误
下一篇：正式上线GitHub向所有用户开放全新代码搜索引擎