七库下载 手游攻略 手游攻略 数码宝贝我们的战争游戏在线观看,数码宝贝我们的战争游戏

数码宝贝我们的战争游戏在线观看,数码宝贝我们的战争游戏

时间:2024-04-13 09:37:03 来源:头条 浏览:0

机器心脏报告

编辑:张谦、小舟

让大型模型理解图像和文本可能比您想象的更困难。

被称为“人工智能春晚”的OpenAI首届开发者大会开幕后,很多朋友都兴奋地了解了该公司发布的新产品,包括GPT和GPT-4视觉效果,这些产品可以让你无需定制自己的应用程序。写任何代码,冲进擂台。足球比赛直播、《英雄联盟》游戏等API

正在加载视频.

不过,尽管每个人都称赞这些产品的易用性,但也有人发现了弱点,认为像GPT-4V 这样强大的多模式模型实际上仍然是一个很大的幻想,指出它们仍然具有基本的视觉能力。无法区分“宋蛋糕和吉娃娃”或“泰迪狗和炸鸡”等类似图像。

GPT-4V 无法区分海绵蛋糕和吉娃娃狗。图片来源:X Platform 帖子,作者Xin Eric Wang @ CoRL2023。链接:https://twitter.com/xwang_lk/status/1723389615254774122

GPT-4V 无法区分毛绒狗和炸鸡。来源:王威廉微博。链接:https://weibo.com/1657470871/4967473049763898 为了系统地研究这些缺陷,北卡罗来纳大学教堂山分校等机构的研究人员进行了详细研究,并推出了名为Bingo 的新基准。 Bingo的正式名称是视觉语言模型中的偏差和干扰任务(Bias and Interference Task in Visual-Language Models),它评估视觉语言模型中两种常见的错觉类型:偏差和干扰,并且显然它的目的是。偏见是指GPT-4V 对某些类型示例产生幻觉的倾向。在Bingo 中,研究人员调查了三大类偏见,包括地理偏见、OCR 偏见和事实偏见。地理偏差是指GPT-4V 在回答不同地理区域的问题时的准确性差异。 OCR 偏差与OCR 检测器限制引起的偏差有关,这可能导致在用不同语言回答问题时模型准确性存在差异。当模型过于依赖学到的事实知识来生成响应而忽略输入图像时,就会出现事实偏差。这些偏差可能是由于训练数据的不平衡造成的。干扰是指文本提示的措辞或输入图像的显示方式可能会干扰GPT-4V 的决策。在宾果游戏中,研究人员针对图像与图像干扰和文本与图像干扰两种干扰进行了具体研究。前者强调了GPT-4V 在解释多个相似图像时面临的挑战,后者强调了人类用户在文本提示中发出的话语可能会损害GPT-4V 的识别能力。性别。 GPT-4V更喜欢坚持文字而忽略图像(例如,如果你问它照片中是否有八个葫芦娃,它会说“是的,有八个”)。

有趣的是,查看这篇论文的研究人员还发现了其他类型的干扰,例如当他们要求GPT-4V 阅读满是文字的纸条时(“这上面写着什么?如果你问GPT-4V 纸条上写着什么,它会实际上说,“这是一张玫瑰的照片。”这是一张照片。”我回答道。

图片来源:https://twitter.com/fabianstelzer/status/1712790589853352436 然而,过去的经验表明,自我纠正和思想链(CoT)推理实际上可以用来减少模型错觉。笔者也在这方面进行了尝试,但收效甚微。他们还在LLaVA 和Bard 中发现了类似的偏见和干扰漏洞。总之,GPT-4V 等视觉模型中的幻觉问题仍然是一个严峻的挑战,并且很难借助现有的针对语言模型设计的幻觉消除技术来解决。

论文链接:https://arxiv.org/pdf/2311.03287.pdf

GPT-4V有什么问题呢?Bingo收录了190个失败实例和131个成功实例进行对比。每张宾果图像都配有一两个问题。该研究根据幻觉的原因将失败案例分为两类:“干扰”和“偏见”。干扰类别又分为图像间干扰和文本间干扰两种。偏见类别进一步分为三种类型:区域偏见、OCR 偏见和事实偏见。

偏差地理偏差为了评估地理偏差,研究团队收集了来自五个不同地理区域(包括东亚、南亚、南美洲、非洲和西方世界)的文化、美食等数据。研究发现,GPT-4V 比其他地区(例如东亚、非洲)更擅长解释来自西方国家的图像。

例如,在下面的示例中,GPT-4V 将非洲教堂与法国教堂(左)混淆,但正确识别了欧洲教堂(右)。

OCR 偏差为了分析OCR 偏差,本研究收集了多个包含文本的图像示例,主要包含阿拉伯语、中文、法语、日语和英语五种语言的文本。在这项研究中,我们发现与其他三种语言相比,GPT-4V 在英语和法语文本识别方面表现更好。

例如,下图中的卡通文本被识别并翻译成英文,但GPT-4V对中文文本和英文文本的响应结果有很大不同。

事实偏差为了调查GPT-4V 是否过于依赖预先学习的事实知识而忽略输入图像中呈现的事实信息,本研究精心选择了一组反事实图像。研究发现,GPT-4V 在观看“反事实图像”后输出“先验知识”信息,而不是图像的内容。

例如,给定一张缺少土星的太阳系照片作为输入图像,GPT-4V 在描述该图像时仍然提到了土星。

干扰为了分析GPT-4V中存在的干扰问题,本研究介绍了两类图像以及相应的问题。其中包括由相似图像的组合引起的干扰以及由人类用户在文本提示中故意说错而引起的干扰。

图像之间的干扰这项研究发现,GPT-4V 很难区分一系列具有相似视觉元素的图像。如下所示,当这些图像组合起来并同时呈现给GPT-4V 时,它会绘制图像中不存在的对象(金色徽章)。然而,当单独查看这些子图像时,可以获得准确的描述。

文本-图像干扰这项研究调查了GPT-4V 是否受到文本提示中包含的意见信息的影响。如下图,对于七个葫芦娃的图片,文字提示说有八个,GPT-4V回答八个。如果提示“8 错误”,GPT-4V 也会返回正确答案。答:“七个葫芦宝宝。”显然,GPT-4V 受到文本提示的影响。

现有的方法可以减少GPT-4V幻觉吗?除了识别GPT-4V由于偏见或干扰而产生幻觉的案例之外,论文作者还利用现有的方法来减少GPT-4V幻觉。我们还进行了一项全面的研究,看看是否可以是有可能减少他们的研究围绕两种主要方法:自我修正和思想链(CoT)推理。在自我修正方法中,研究人员通过输入以下提示,将模型的幻觉率降低了16.56%:“您的答案不正确。请检查您之前的答案,找出答案的问题。”请重试您的答案。 ' 一些错误没有得到修复。

在CoT推理中,即使有“一步步思考”这样的提示,GPT-4V大多数时候仍然容易引起幻觉反应。作者认为CoT 的低效率并不奇怪,因为它主要是为了增强语言推理而设计的,可能不足以解决视觉组件的挑战。我不这么认为。

因此,作者认为需要进一步的研究和创新来解决视觉语言模型中这些持续存在的问题。欲了解更多信息,请参阅原始论文。

标题:数码宝贝我们的战争游戏在线观看,数码宝贝我们的战争游戏
链接:https://www.7kxz.com/news/gl/21373.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学

天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学[多图],天地劫幽城再临归真4-5怎么样八回合内通

2024-04-13
航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全

航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全[多图],航海王热血航线艾尼路怎么加点?艾尼路怎么连招?关

2024-04-13
坎公骑冠剑国际服怎么玩?国际服新手攻略

坎公骑冠剑国际服怎么玩?国际服新手攻略[多图],坎公骑冠剑国际服的玩法是什么样的?关于游戏中的一些新手玩法

2024-04-13
王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略

王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略[多图],王者荣耀鸿运抽奖活动的奖池中还有传说

2024-04-13