中国的研究人员开发出了一种用于AI模型的幻觉校正引擎

中国研究人员开发出新型AI模型幻觉校正引擎

中国科学技术大学和腾讯游图实验室的科学家团队开发了一种工具来对抗人工智能模型中的“幻觉”。

幻觉是指人工智能模型生成的输出具有高度的自信度,但这些输出并没有基于其训练数据中存在的信息。这个问题在大型语言模型(LLM)研究中普遍存在,可以在OpenAI的ChatGPT和Anthropic的Claude等模型中看到其影响。

中国科大/腾讯团队开发了一个名为“Woodpecker”的工具,他们声称它能够纠正多模式大型语言模型(MLLMs)中的幻觉。

这种人工智能的子集涉及模型,比如GPT-4(尤其是其视觉变体GPT-4V)以及将视觉和/或其他处理与基于文本的语言建模融合在一起的其他系统。

根据团队的预印研究论文,Woodpecker使用除了正在纠正幻觉的MLLM之外的三个单独的人工智能模型来执行幻觉纠正。

这些模型包括GPT-3.5 turbo,Grounding DINO和BLIP-2-FlanT5。这些模型一起作为评估器,以识别幻觉并指示正在纠正的模型根据其数据重新生成其输出。

在上述示例中,LLM对提示(蓝色背景)产生错误答案幻觉(绿色背景)。修正后的“Woodpecker”响应以红色背景显示。(图片来源:Yin等,2023)

为了纠正幻觉,“Woodpecker”使用一个五阶段的过程,包括“关键概念提取、问题制定、视觉知识验证、视觉主张生成和幻觉纠正”。

研究人员声称这些技术提供了额外的透明度,并且与基于MiniGPT-4/mPLUG-Owl的基线相比,在精确度上提高了30.66% / 24.33%。他们使用自己的方法评估了许多即插即用的MLLM,并得出结论Woodpecker可以“轻松地集成到其他MLLM中”。

相关:人类和人工智能往往更喜欢谄媚的聊天机器人回答而不是真相——研究

Woodpecker的评估版本可以在Gradio Live上获取,任何感兴趣的人都可以查看工具的操作。