拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条正文

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex
数智化VOC聆听,引领产品创新,驱动品牌增长。
293
2024-05-16 10:59
2024-05-16 10:59
293
Shulex
数智化VOC聆听,引领产品创新,驱动品牌增长。


Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

目录:



概述

今年AI指数的技术表现部分提供了2023AI进步的全面概述。它从AI技术性能的高级概述开始,追踪其随时间的广泛演变。然后,本章研究了广泛的AI能力的现状,包括语言处理、编码、计算机视觉(图像和视频分析)、推理、音频处理、自主代理、机器人和强化学习。它还聚焦了过去一年中显著的AI研究突破,探索了通过提示、优化和微调来改进法学硕士的方法,并以探索AI系统的环境足迹结束。

欢迎来到第七版AI指数报告。2024年指数是我们迄今为止最全面的指数,在AI对社会的影响从未如此明显的重要时刻到来。今年,我们扩大了研究范围,更广泛地涵盖了AI的技术进步、公众对该技术的看法以及围绕其发展的地缘政治动态等基本趋势。该版本提供了比以往更多的原始数据,介绍了对AI培训成本的新估计,对负责任的AI前景的详细分析,以及专门介绍AI对科学和医学影响的全新章节。

AI指数报告跟踪、整理、提炼和可视化与人工智能(AI)相关的数据。我们的使命是提供公正、严格审查、来源广泛的数据,以便政策制定者、研究人员、高管、记者和公众对复杂的AI领域有更全面、更细致的了解。

AI指数是全球公认的最可信、最权威的人工智能数据和见解来源之一。之前的版本曾被《纽约时报》、《彭博社》、《卫报》等主要报纸引用,积累了数百次学术引用,并被美国、英国、欧盟等地的高层决策者引用。今年的版本在规模、规模和范围上都超过了以往的所有版本,反映了AI在我们生活中越来越重要。

本章重点:

1. AI在某些任务上胜过人类,但并非在所有任务上都胜过人类。AI在几个基准上的表现超过了人类,包括图像分类、视觉推理和英语理解。然而,它在更复杂的任务上落后于人类,比如竞赛级数学、视觉常识推理和规划。

2. 多模式AI了。传统上,AI系统的范围有限,语言模型在文本理解方面表现出色,但在图像处理方面表现不佳,反之亦然。然而,最近的进步导致了强大的多模态模型的发展,例如GoogleGeminiOpenAIGPT-4。这些模型展示了灵活性,能够处理图像和文本,在某些情况下甚至可以处理音频。

3. 更严格基准出现了。AI模型在ImageNetSQuADSuperGLUE等既定基准上的性能已经达到饱和,这促使研究人员开发更具挑战性的模型。2023年,出现了几个具有挑战性的新基准,包括用于编码的SWE-bench、用于图像生成的HEIM、用于一般推理的MMMU、用于道德推理的MoCa、用于基于代理的行为的AgentBench和用于幻觉的HaluEval

4. 更好的AI意味着更好的数据,这意味着更好的AI。新的AI模型,如SegmentAnythingSkoltech,正被用来为图像分割和3D重建等任务生成专门的数据。数据对于AI技术改进至关重要。使用AI来创建更多的数据增强了当前的能力,并为未来的算法改进铺平了道路,特别是在更难的任务上。

5. 人的评价很流行。随着生成模型产生高质量的文本、图像等,基准测试已经慢慢开始转向纳入人类评估,如聊天机器人竞技场排行榜,而不是像ImageNetSQuAD这样的计算机化排名。公众对AI的感受正在成为跟踪AI进展的一个越来越重要的考虑因素。


6. 多亏了法学硕士,机器人变得更加灵活。语言建模与机器人技术的融合催生了更灵活的机器人系统,比如PaLM-ERT-2。除了改进的机器人能力之外,这些模型还可以提出问题,这标志着机器人朝着能够更有效地与现实世界互动的方向迈出了重要的一步。


7. agenticAI中更多的技术研究。创建AI代理,即能够在特定环境中自主操作的系统,长期以来一直是计算机科学家面临的挑战。然而,新兴的研究表明,自主AI代理的性能正在提高。目前的智能体现在可以掌握像《我的世界》这样的复杂游戏,并有效地处理现实世界的任务,比如网上购物和研究协助。


8. 封闭式法学硕士的表现明显优于开放式的。10个选定的AI基准测试中,封闭模型的表现优于开放模型,平均性能优势为24.2%。封闭模型和开放模型的表现差异对AI政策辩论具有重要意义。

2.12023年AI概述

时间轴:重大模型发布

根据AI指数指导委员会的选择,以下是2023年发布的一些最值得注意的模型:

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

AI性能状态

截至2023年,AI已经在一系列任务中实现了超越人类能力的性能水平。图2.1.16说明了AI系统相对于人类基线的进展,对应于9个任务(例如,图像分类或基础级阅读理解)9AI基准人工智能指数团队选择了一个基准来代表每个任务。

多年来,AI在一些基准上超过了人类的基线,比如2015年的图像分类、2017年的基本阅读理解、2020年的视觉推理和2021年的自然语言推理。截至2023年,仍有一些任务类别AI无法超越人类的能力。这些任务往往是更复杂的认知任务,比如视觉常识推理和高级数学问题解决(竞赛级别的数学问题)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

人工智能指数基准

正如去年报告中强调的那样,AI技术性能的一个新兴主题是在许多基准上观察到的饱和,例如用于评估AI模型熟练程度的ImageNet

近年来,这些基准的表现停滞不前,表明要么是AI能力停滞不前,要么是研究人员转向更复杂的研究挑战。由于饱和,2023年人工智能指数中的几个基准在今年的报告中被省略了。图2.1.17突出显示了2023年版本中包含但未在今年报告中出现的一些基准它还显示了自2022年以来这些基准的改善情况。“NA”表示没有注意到任何改善。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

2.1.18显示了2023年人工智能指数报告中精选基准的同比改善情况(以百分比为单位)。大多数基准测试在引入后很快就会看到显著的性能提升,然后改善速度减慢。在过去的几年里,许多这些基准测试几乎没有显示出任何改善。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

为了应对基准测试的饱和,AI研究人员正在从传统的基准测试转向在更困难的挑战上测试AI2024AI Index跟踪了几个新基准的进展,包括编码、高级推理和代理行为方面的任务,这些领域在以前的报告版本中代表性不足(2.1.19)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

2.2 语言

自然语言处理(NLP)使计算机能够理解、解释、生成和转换文本。目前最先进的模型,如OpenAIGPT-4和谷歌的双子座,能够生成流畅连贯的散文,并显示出高水平的语言理解能力(2.2.1)。许多这样的模型现在也可以处理不同的输入形式,比如图像和音频(2.2.2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

理解

英语语言理解挑战人工智能系统以各种方式理解英语,如阅读理解和逻辑推理。

HELM:语言模型整体评估如上所述,近年来,法学硕士在传统的英语基准上的表现超过了人类,比如SQuAD(问答)SuperGLUE(语言理解)。这种快速的进步导致需要更全面的基准测试。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

2022年,斯坦福大学的研究人员引入了HELM(语言模型整体评估),旨在评估各种场景下的法学硕士,包括阅读理解、语言理解和数学推理HELM评估了几家领先公司的模型,如Anthropic、谷歌、MetaOpenAI,并使用平均胜率来跟踪所有场景的平均表现。截至20241月,GPT-40.96的平均胜率领跑总HELM排行榜(2.2.3);然而,不同的模型停止不同的任务类别(2.2.4)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

MMLU:大规模多任务语言理解

海量多任务语言理解(MMLU)基准评估模型在57个科目(包括人文学科、STEM和社会科学)的零射击或少射击场景中的性能(2.2.5)MMLU已经成为总理评估LLM能力的基准:许多最先进的模型,如GPT-4Claude 2Gemini,已经针对MMLU进行了评估。

2023年初,GPT-4MMLU上取得了最先进的成绩,后来被谷歌的Gemini Ultra超越。图2.2.6显示了不同年份MMLU基准上的最高模型得分。报告的分数是整个测试集的平均值。截至20241月,Gemini Ultra的得分最高,为90.0%,自2022年以来提高了14.8个百分点,自2019MMLU成立以来提高了57.6个百分点。Gemini Ultra的得分首次超过了MMLU的人类基线89.8%

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

在生成任务中,测试AI模型产生流利和实用的语言响应的能力。

聊天机器人竞技场排行榜

有能力的法学硕士的崛起,使得了解哪些模型是正确的变得越来越重要受到大众的青睐。聊天机器人竞技场排行榜于2023年推出,是对公众法学硕士偏好的首批综合评估之一。排行榜允许用户查询两个匿名模型,并投票选出偏好的世代(2.2.7)。截至2024年初,该平台已获得超过20万张选票,用户将OpenAIGPT-4 Turbo评为最受欢迎的模型(2.2.8)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

真实性

尽管取得了显著的成就,但法学硕士仍然容易受到事实不准确和内容幻觉的影响——创造看似真实但虚假的信息。现实世界中法学硕士产生幻觉的例子——例如在法庭案件中——凸显了密切监测法学硕士事实趋势的日益必要性。

ACL 2022上推出的TruthfulQA是一个旨在评估法学硕士在生成问题答案时的真实性的基准。该基准包括38个类别的约800个问题,包括健康、政治和金融。许多问题都是为了挑战人们普遍持有的误解而精心设计的,这些误解通常会导致人们回答错误(2.2.9)。尽管本文的观察结果之一是较大的模型往往不太真实,但在2024年初发布的GPT-4 (RLHF)TruthfulQA基准上取得了迄今为止最高的性能,得分为0.6(1)

(2.2.10)。这一分数比2021年测试的基于gpt -2的模型高出近三倍,表明法学硕士在提供真实答案方面正变得越来越好。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

HaluEval

如前所述,法学硕士容易产生幻觉,鉴于他们在法律和医学等关键领域的广泛部署,这是一个令人担忧的特征。虽然现有的研究旨在了解幻觉的原因,但很少有人致力于评估法学硕士幻觉的频率,并确定他们特别脆弱的特定内容领域。

HaluEval2023年推出,是一种旨在评估法学硕士幻觉的新基准。它包括超过35,000个样本,包括幻觉和正常,供法学硕士分析和评估(2.2.11)。研究表明,ChatGPT在大约19.5%的回复中捏造了无法验证的信息,这些捏造跨越了语言、气候和技术等各种主题。此外,该研究还检验了当前法学硕士检测幻觉的能力。图2.2.12展示了领先的法学硕士在各种任务中识别幻觉的表现,包括问题回答、基于知识的对话和文本摘要。研究结果显示,许多法学硕士在这些任务中挣扎,强调了幻觉是一个重要的持续问题。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

编码涉及生成指令,计算机可以遵循这些指令来执行任务。最近,法学硕士已经成为熟练的程序员,成为计算机科学家的宝贵助手。越来越多的证据表明,许多程序员发现AI编码助手非常有用。

2.3 编码

在许多编码任务中,AI模型面临着生成可用代码或解决计算机科学问题的挑战。

HumanEval

HumanEval是评估AI系统编码能力的基准,由OpenAI研究人员于2021年推出。它由164个具有挑战性的手写编程问题组成(2.3.1)GPT-4模型变体(AgentCoder)目前在HumanEval性能方面领先,得分为96.3%,比最高分提高了11.2个百分点在2022(2.3.2)。自2021年以来,HumanEval的表现提高了64.1个百分点。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

SWE-工作台

随着AI系统编码能力的提高,在更具挑战性的任务上对模型进行基准测试变得越来越重要。202310月,研究人员引入了sw -bench,这是一个包含2294个软件工程问题的数据集,这些问题来自真实的GitHub问题和流行的Python存储库(2.3.3)sw -benchAI编码能力提出了更严格的测试,要求系统协调各个方面的变化多个功能,与各种执行环境交互,进行复杂推理。

即使是最先进的法学硕士也面临着sw -bench的重大挑战。表现最好的模型Claude 2只解决了数据集问题的4.8%(2.3.4)2023年,sw -bench上表现最好的车型比2022年的最佳车型高出4.3个百分点。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

计算机视觉允许机器理解图像和视频,并从文本提示或其他输入创建逼真的视觉效果。这项技术被广泛应用于自动驾驶、医学成像和视频游戏开发等领域。

2.4 图像计算机视觉和图像生成

图像生成是生成与真实图像无法区分的图像的任务。今天的图像生成器非常先进,以至于大多数人很难区分ai生成的图像和人脸的实际图像(2.4.1)。图2.4.2突出了从2022年到2024年的各种中途旅行模型变体的几代,以提示哈利波特的超现实形象。这一进展表明,在两年的时间里,中途旅行生成超现实图像的能力有了显著提高。2022年,该模型制作出了卡通化的、不准确的哈利波特效果图,但到2024年,它可以创造出惊人的逼真的描绘。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

HEIM:文本到图像模型的整体评估

AI文本到图像系统的快速发展促使了更复杂的评估方法的发展。2023年,斯坦福大学的研究人员引入了文本到图像模型的整体评估(HEIM),这是一个基准,旨在从12个关键方面全面评估图像生成器,这些方面对现实世界的部署至关重要,如图像-文本对齐、图像质量和美学人类评估员被用来对模型进行评级,这是一个至关重要的特征,因为许多自动化指标难以准确评估图像的各个方面。

HEIM的研究结果表明,没有一个模型在所有标准中都表现出色。对于人类对图像到文本对齐的评估(评估生成的图像与输入文本的匹配程度)OpenAIDALL-E 2得分最高(2.4.3)。在图像质量(衡量图像是否与真实照片相似)、美学(评估视觉吸引力)和原创性(衡量新图像生成和避免侵犯版权)方面,基于Stable diffusionDreamlike Photoreal模型排名最高(2.4.4)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)强调研究:MVDream

从文本提示创建3D几何或模型一直是AI研究人员面临的重大挑战,现有模型正在努力解决诸如多面两面问题(不准确地再生文本提示所描述的上下文)和内容漂移(不同3D视图之间的不一致)等问题。MVDream是由字节跳动和加州大学圣地亚哥分校的研究人员克服了其中的一些障碍(2.4.5)。在定量评价中,MVDream生成的模型达到了Inception Score (IS)CLIP分数与训练集中的分数相当,表明生成的图像(2.4.6)MVDream具有重大意义,特别是对在创意产业中,3D内容创作传统上是耗时且劳动密集型的。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

指导遵循

在计算机视觉中,指令跟随是视觉语言模型解释与图像相关的基于文本的指令的能力。例如,AI系统可以获得各种食材的图像,并负责建议如何使用它们来准备一顿健康的饭。能够跟随指令的视觉语言模型是开发高级AI助手所必需的。

访问信息工作台

2023年,一个由行业和学术研究人员组成的团队推出了VisIT-Bench,这是一个由592个具有挑战性的视觉语言指令组成的基准,涵盖约70个指令类别,如情节分析、艺术知识和位置理解(图2.4.8)。截至2024年1月,VisIT-Bench上的领先模型是GPT-4V, GPT-4 Turbo的视觉版本,Elo得分为1349,略高于VisIT-Bench的人类参考得分(图2.4.9)。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

编辑

图像编辑包括使用AI根据文本提示修改图像。这种人工智能辅助的方法在工程、工业设计和电影制作等领域有着广泛的现实应用。

编辑值

尽管文本引导的图像编辑很有前景,但很少有可靠的方法可以评估AI图像编辑器遵守编辑提示的准确性。EditVal是一个评估文本引导图像编辑的新基准,它包括超过13种编辑类型,例如在19个对象类中添加对象或更改其位置(2.4.10)。该基准被应用于评估包括SINENull-text在内的八种领先的文本引导图像编辑方法。自2021年以来,在各种基准的编辑任务上的性能改进如图2.4.11所示。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

强调研究:

调节输入或执行条件控制是指通过指定生成的图像必须满足的某些条件来引导图像生成器生成的输出的过程。现有的文本到图像模型往往缺乏对图像空间构成的精确控制,因此很难单独使用提示来生成布局复杂、形状多样和特定姿势的图像。通过在额外的图像上训练这些模型来微调这些模型以获得更大的构图控制在理论上是可行的,但是许多专门的数据集,比如人类姿势的数据集,都不够大,无法支持成功的训练。

2023年,斯坦福大学的研究人员推出了一种改进的新模型——控制网(ControlNet)用于大型文本到图像扩散模型的条件控制编辑(2.4.12)

控制网因其处理各种调节输入的能力而脱颖而出。与2022年之前发布的其他模型相比,人类评分者在质量和条件保真度方面都更喜欢控制网(2.4.13)。控制网的引入是朝着创建高级文本到图像生成器迈出的重要一步,该生成器能够编辑图像,更准确地复制现实世界中经常遇到的复杂图像。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

强调研究:

新模型可以只使用文本指令编辑3D几何图形。Instruct-NeRF2NeRF是伯克利研究人员开发的一个模型,它采用图像条件扩散模型对3D几何图形进行基于文本的迭代编辑

(2.4.14)。这种方法有效地生成新的、经过编辑的图像,这些图像遵循文本指令,实现了比当前领先方法更大的一致性(2.4.15)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

分割涉及到将单个图像像素分配到特定的类别(例如:人、自行车或街道)

强调研究:

2023年,Meta研究人员启动了Segment Anything项目,该项目以Segment Anything模型(SAM)和用于图像分割的广泛SA-1B数据集为特色。SAM值得注意的是,它是第一个可广泛推广的分割模型之一,在新任务和分布上表现良好。Segment Anything23个分割数据集中的16个上优于RITM等领先的分割方法(2.4.17)。评估Segment Anything的度量是平均交点除以联合(IoU)


然后使用MetaSegment Anything模型,与人类注释器一起创建SA-1B数据集,其中包括1100万张图像中超过10亿个分割掩码(2.4.16)。这种规模的新分割数据集将加速未来图像分割器的训练。《Segment Anything》展示了AI模型如何与人类一起使用,以更有效地创建大型数据集,而这些数据集又可以用来训练更好的AI系统。


Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

3D从图像重建

3D图像重建是从二维图像创建三维数字几何图形的过程。这种类型的重建可用于医学成像、机器人技术和虚拟现实。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

实时融合

牛津大学研究人员开发的RealFusion是一种新方法,可以从单张图像中生成完整的物体3D模型,克服了单张图像信息不足的挑战,无法进行360度的完整重建。RealFusion利用现有的2D图像生成器生成一个对象的多个视图,然后将这些视图组装成一个完整的360度模型(2.4.20)。与2021年最先进的方法(货架监督)相比,该技术可以在广泛的对象上产生更精确的3D重建(2.4.21)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

视频分析关注的是跨视频执行任务,而不是单个图像。2.5视频计算机视觉和视频生成
视频生成涉及使用AI从文本或图像生成视频。
UCF101
UCF101是一个包含101个动作类别的逼真动作视频动作识别数据集(2.5.1)。最近,UCF101被用于对视频生成器进行基准测试。今年的顶级模特W.A.L.T-XLFVD16得分为36,比去年的最高分减少了一半多(2.5.2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

调整你的潜力
大多数现有的方法只能创建短的、低分辨率的视频。为了解决这一限制,一个国际研究团队应用了传统上用于生成高质量图像的潜在扩散模型来制作高分辨率视频(2.5.3)。他们的潜在扩散模型(LDM)在分辨率质量上明显优于之前在2022年发布的最先进的方法,如Long video an (LVG)(2.5.4)。采用文本到图像的架构来创建LDM(一种高效的文本到视频模型),体现了先进的AI技术如何在计算机视觉的不同领域中重新利用。LDM强大的视频生成能力有许多现实世界的应用,例如创建逼真的驾驶模拟。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Emu Video
传统上,视频生成的进展落后于图像生成,因为它的复杂性更高,可用于训练的数据集更小。Emu VideoMeta研究人员创建的一种新的基于变压器的视频生成模型,它代表了一个重要的进步(2.5.5)Emu Video从文本生成图像,然后基于文本和图像创建视频。图2.5.6说明了Emu Video模型优于先前发布的最先进的视频生成方法的程度。度量标准是人类评估者更喜欢Emu Video的图像质量或对文本的忠实度的情况的比例。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)对比方法上的指令。Emu Video简化了视频生成过程,标志着高质量视频生成的新时代。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

AI中的推理涉及AI系统从不同形式的信息中得出逻辑有效结论的能力。AI系统越来越多地在不同的推理环境中进行测试,包括视觉(对图像进行推理)、道德(理解道德困境)和社会推理(在社会情境中导航)

2.6 推理

一般的推理
一般推理是指AI系统能够在广泛而非特定的领域进行推理。例如,作为一般推理挑战的一部分,AI系统可能会被要求跨多个主题进行推理,而不是执行一个狭窄的任务(例如,下棋)
MMMU:面向专家AGI的大规模多学科多模式理解和推理基准专家AGI
近年来,AI系统的推理能力已经取得了很大的进步,像SQuAD(用于文本推理)VQA(用于视觉推理)这样的传统基准已经饱和,这表明需要更具挑战性的推理测试。
对此,来自美国和加拿大的研究人员最近开发了MMMU,即大规模多学科多模式理解和推理基准专家AGIMMMU包含约11500个大学水平的问题,涉及六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学、技术与工程(2.6.1)。问题格式包括图表、地图、表格、化学结构等。MMMU是迄今为止AI领域对感知、知识和推理要求最高的测试之一。截至20241月,表现最高的模型是Gemini Ultra,它在所有学科类别中以59.4%的总分领先(2.6.2)在大多数单独的任务类别上,顶级模型仍然远远超过了中等水平的人类专家(2.6.3)。这个相对较低的分数证明了MMMU作为评估AI推理能力的基准的有效性。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

GPQA:一个研究生级别的防谷歌问答基准
去年,来自纽约大学、AnthropicMeta的研究人员引入了GPQA基准来测试一般的多学科AI推理。这个数据集包括448个很难的选择题,无法通过谷歌搜索轻松回答。这些问题是由生物学、物理学和化学等各个领域的主题专家精心设计的(2.6.4)。博士级别的专家在各自领域的GPQA上达到了65%的准确率,而非专业人士的准确率约为34%。表现最好的AI模型GPT-4在主测试集上的得分仅为41.0%(2.6.5)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


比较人类、GPT-4和GPT-4V在抽象和推理任务上的表现

抽象推理涉及使用已知信息来解决不熟悉的和新颖的问题,是人类认知的一个关键方面,即使在幼儿中也很明显。虽然最近像GPT-4这样的法学硕士表现出了令人印象深刻的表现,但他们真正抽象推理的能力仍然是一个备受争议的话题为了进一步探讨这一主题,圣达菲研究所的研究人员在ConceptARC基准上测试了GPT-4,这是一个旨在评估一般抽象推理能力的类比谜题集合(2.6.6)。研究显示,GPT-4在抽象推理能力上明显落后于人类:人类在基准上的得分为95%,而最好的GPT-4系统的得分仅为69%(2.6.7)。真正通用AI的发展需要抽象推理能力。因此,继续跟踪这一领域的进展将是非常重要的。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


数学推理
数学问题解决基准评估AI系统的数学推理能力。AI可以用一系列数学问题来测试模型,从小学水平到竞赛标准数学。
GSM8K
GSM8K是一个包含大约8000个不同的小学数学单词问题的数据集,它要求AI模型利用算术运算开发多步解决方案(2.6.8)GSM8K已迅速成为评估高级llm的首选基准。GSM8K上表现最好的模型是GPT-4变体(GPT-4代码解释器),准确率为97%,比前一年的最先进分数提高了4.4%,比2022年首次引入基准时提高了30.4%(2.6.9)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


MATH

MATH是加州大学伯克利分校的研究人员在2021年引入的12500个具有挑战性的竞赛级数学问题的数据集(2.6.10)。当MATH首次发布时,AI系统在它上挣扎,只能解决6.9%的问题。性能有了明显的提升。在2023年,基于gpt -4的模型取得了最好的结果,成功解决了84.3%的数据集问题(2.6.11)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
计划工作台
计划系统接收指定的目标、初始状态和一系列行动。每个行动都由先决条件定义,必须满足先决条件才能执行该行动,以及执行该行动所产生的效果。系统构建一个由一系列动作组成的计划,从初始状态开始实现目标。
有人声称llm可以解决计划问题。来自亚利桑那州立大学的一个小组提出了PlanBench,这是一个包含自动化规划社区中使用的问题的基准套件,特别是那些在国际规划竞赛中使用的问题。他们使用一次性学习测试了I-GPT-3GPT-4Blocksworld领域的600个问题上(当一只手每次只允许将一个块移动到桌子或一个清晰块的顶部时,它试图构建一堆块),并表明GPT-4可以在34%的时间内生成正确的计划和成本最优的计划,而I-GPT-3约为6%(2.6.12)。验证一个计划的正确性更容易。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
V视觉推理
视觉推理测试AI系统在视觉和文本数据之间的推理能力。
V视觉常识推理(VCR)
2019年推出的视觉常识推理(VCR)挑战测试AI系统的常识视觉推理能力。在这个挑战,AI系统不仅根据图像回答问题,还可以推理其答案背后的逻辑(2.6.13)VCR的性能是用Q->AR分数来衡量的,它评估了机器选择问题的正确答案(Q-> a)和选择答案背后的适当理由(Q->R)的能力。虽然AI系统在这项任务上还没有超越人类,但它们的能力正在稳步提高。在2022年至2023年期间,AIVCR挑战中的性能提高了7.93%(2.6.14)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
道德推理
在未来,AI将越来越多地应用于道德考虑至关重要的领域,例如医疗保健和司法系统。因此,AI系统必须具备强大的道德推理能力,使它们能够有效地驾驭和推理伦理原则和道德考虑。
MoCa
AI模型在语言和视觉领域的推理能力已经很好地建立起来了,但它们的道德推理能力,尤其是与人类道德判断相一致的道德推理能力,还不太为人所知为了进一步探讨这个话题,斯坦福大学的一个研究小组创建了一个新的数据集(MoCa),其中包含了带有道德元素的人类故事(2.6.15)。然后,研究人员向这些模型展示人类行为的故事,并促使模型做出回应,用离散协议度量来衡量道德一致性:得分越高,表明与人类道德判断更接近。这项研究产生了有趣的结果。没有一个模型能完全匹配人类的道德体系,但是像GPT-4Claude这样的更新、更大的模型比像GPT-3这样的小模型更符合人类的道德情感,这表明随着AI模型的扩展,它们在道德上逐渐与人类更加一致。在所有被调查的模型中,GPT-4与人类道德情感的一致性最大(2.6.16)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
因果推理
因果推理评估AI系统理解因果关系的能力。随着AI变得越来越普遍,评估AI模型是否不仅可以解释它们的输出,还可以更新它们的结论——因果推理的关键方面——变得非常重要。
BigToM
评估法学硕士是否具有心理理论(ToM)能力——理解和归因心理状态,如信念、意图和情绪——传统上一直是AI研究人员面临的挑战。早期评估法学硕士ToM的方法不充分且缺乏鲁棒性。为了解决这个问题,研究人员在2023年开发了一个名为BigToM的新基准,旨在评估法学硕士的社会和因果推理能力。BigToM25个控制和5000个模型生成的评估组成,已被人类评估人员评为优于现有ToM基准。BigToM对法学硕士进行了前向信念(预测未来事件)、前向行动(根据未来事件预测采取行动)和后向信念(追溯地推断行动的原因)的测试(2.6.17)
在基准上的法学硕士测试中,GPT-4表现最佳,其ToM能力接近但不超过人类水平(2.6.18、图2.6.19和图2.6.20)。更具体地说,在正确推断信念的准确性方面,GPT-4在向前信念和向后信念任务中的表现与人类非常接近,在向前行动任务中的表现略高于人类。重要的是,该研究表明,LLMToM基准测试上的性能呈上升趋势,GPT-4等新型号的性能优于GPT-3.5(2022年发布)等旧型号。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
宾根因果配对
来自微软和芝加哥大学的研究人员已经证明,法学硕士是有效的因果推理者。该团队使用t宾根因果对数据集评估了几个最近的法学硕士,包括GPT-4。该基准包括37个子学科的100多个因果对,测试AI系统识别因果关系的能力(2.6.21)GPT-4的准确率达到96%,比去年的最佳成
绩高出13个百分点(2.6.22)。值得注意的是,GPT-4优于基于先验协方差的AI模型,后者被明确训练用于因果推理任务。此外,研究人员发现,某些提示,特别是那些旨在鼓励帮助的提示,可以显着增强LLM的因果推理能力。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
AI系统擅长处理人类语音,具有音频功能,包括将口语转录为文本和识别单个说话者。最近,AI在生成合成音频内容方面取得了进展。
2.7 音频
2023年是音频生成领域意义重大的一年,音频生成涉及创建合成音频内容,从人类语音到音乐文件。几个著名的音频生成器(UniAudioMusicGenMusicLM)的发布凸显了这一进步。
UniAudio
UniAudio是一种用于创建音频内容的高级语言建模技术。UniAudio统一标记所有音频类型,并且像现代llm一样,使用下一个标记预测来生成高质量的音频。UniAudio能够生成高质量的语音、声音和音乐。
UniAudio在文本转语音、语音增强和语音转换等任务上超越了领先的方法(2.7.1)。凭借10亿个参数和16.5万小时的音频训练,UniAudio展示了大数据和自我监督对音乐生成的功效。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
MusicGEN和MusicLM
MetaMusicGen是一种新颖的音频生成模型,它还利用了语言模型中常见的转换器架构来生成音频。MusicGen允许用户为期望的音频结果指定文本,然后使用特定的旋律对其进行微调。在比较研究中,MusicGen在各种生成音乐指标上优于其他流行的文本到音乐模型,如RiffusionmosaiMusicLM。它拥有较低的FAD分数,表明更可信的音乐生成,较低的KL分数表明更好地与参考音乐保持一致,以及较高的CLAP分数,反映了对参考音乐文本描述的更大依从性(2.7.2)
人类评估者也喜欢MusicGen的整体质量(OVL)
虽然MusicGen比今年早些时候发布的某些文本到音乐的模型表现更好,但MusicLM值得强调,因为它的发布伴随着MusicCaps的推出,这是一个最先进的5.5K音乐-文本对数据集。MusicGen的研究人员使用MusicCaps来对其系列模型的性能进行基准测试。像MusicGen这样的新模型的出现,以及像MusicCaps这样的新的音乐到文本的基准,突显了生成AI从语言和图像扩展到更多样化的技能模式,如音频生成。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

AI代理,即设计用于在特定环境中运行以实现目标的自主或半自主系统,代表了AI研究的一个令人兴奋的前沿。这些代理具有各种各样的潜在应用,从协助学术研究和安排会议到促进在线购物和度假预订。
2.8 代理
普通代理
本节重点介绍可以在一般任务环境中灵活操作的代理的基准和研究。
AgentBench
AgentBench是一个为评估基于法学硕士的代理而设计的新基准,它包含八种不同的交互设置,包括网页浏览、在线购物、家庭管理、拼图和数字纸牌游戏(2.8.1)。该研究评估了超过25个基于法学硕士的代理,包括那些建立在OpenAIGPT-4, AnthropicClaude 2MetaLlama 2上的代理。GPT-4得分最高,总分4.01分,显著高于Claude 22.49(2.8.2)。研究还表明,2023年发布的法学硕士在代理环境中的表现优于早期版本。此外,AgentBench团队推测,代理在某些基准子部分上的挣扎可以归因于他们在长期推理、决策和指令遵循方面的有限能力。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)旅行者/航海家号
英伟达、加州理工学院、德克萨斯大学奥斯汀分校、斯坦福大学和威斯康星大学麦迪逊分校最近的研究表明,现有的法学硕士,如GPT-4,可以用来开发能够持续学习的灵活代理。该团队创建了旅行者,一个基于gpt -4“我的世界”代理——一个复杂的视频游戏,没有固定的端点,本质上是一个无限的虚拟游乐场(2.8.3)。旅行者号在这种环境下表现出色,它能熟练地记住计划,适应新的环境,并传递知识。它明显优于以前的模型,收集3.3倍的独特物品,旅行2.3倍的距离,并以15.3倍的速度达到关键里程碑(2.8.4)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
特定于任务的代理
本节重点介绍针对特定任务环境(如数学问题解决或学术研究)进行优化的代理的基准测试和研究。
MLAgentBench
MLAgentBench是评估AI研究代理性能的新基准,测试AI代理是否有能力从事科学实验。更具体地说,MLAgentBench评估了AI系统作为计算机科学研究助手的潜力,评估了它们在15个不同研究任务中的表现。这些任务的例子包括改进CIFAR-10图像数据集的基线模型,以及在BabyLM中训练超过1000万个单词的语言模型。测试了各种基于llm的代理,包括GPT-4Claude-1AutoGPTLangChain。结果表明,尽管AI研究代理有希望,但不同任务的表现差异很大。虽然一些智能体在ogbn-arxiv(改进基准论文分类模型)等任务上的得分超过80%,但在BabyLM(训练小型语言模型)上的得分都为0%(2.8.5)。其中,GPT-4一直提供最好的结果。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

随着时间的推移,AI越来越多地融入机器人技术,增强了机器人执行复杂任务的能力。特别是随着基础模型的兴起,这种集成使机器人能够迭代地从周围环境中学习,灵活地适应新的设置,并做出自主决策。
2.9 机器人
PaLM-E
PaLM-E是谷歌推出的一款新型AI模型,它将机器人技术与语言建模相结合,以解决机器人操作等现实世界任务,以及问答和图像字幕等知识任务。利用基于变压器的架构,最大的PaLM-E模型可扩展到562B个参数。该模型在不同的视觉语言以及机器人数据上进行了训练,从而在各种机器人基准测试中取得了卓越的性能。PaLM-E还在OK-VQA等视觉任务中设定了新的标准,在其他语言任务中表现出色,并且可以从事思维链,数学和多图像推理,即使没有在这些领域进行过专门的训练。图2.9.1说明了PaLM-E模型可以执行的一些任务。

在任务和运动规划(TAMP)领域,机器人必须操纵物体,palm - e在具体化的视觉问答和规划方面优于以前最先进的方法,如SayCanPaLI(2.9.2)在机器人操作任务中,PaLM-E在检测故障的能力上优于竞争模型(PaLICLIP-FT),这是机器人执行闭环规划的关键一步(2.9.3)
PaLM-E的意义在于,它证明了语言建模技术和文本数据可以增强AI系统在非语言领域(如机器人)的性能。PaLM-E还强调,已经有语言熟练的机器人能够与现实世界互动并进行高级推理。开发这类多面机器人是创造更通用的机器人助手的重要一步,例如,可以帮助做家务。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
RT-2
现实世界的机器人可以从llm拥有的某些功能中受益,例如文本和代码生成,以及视觉理解。DeepMind发布的新机器人RT-2代表了一项雄心勃勃的尝试,即创建具有一定LLM功能的可推广机器人模型。RT-2使用基于变压器的架构,并在机器人轨迹数据上进行训练,这些数据被标记为文本和广泛的视觉语言数据。
RT-2作为调节机器人政策最令人印象深刻和适应性最强的方法之一脱颖而出。它超越了最先进的模型,比如在各种基准测试中操纵开放世界物体(MOO),特别是在涉及看不见的物体的任务中。在这样的任务中,RT-2/PaLM-E变体达到80%的成功率,显著高于MOO53%(2.9.4)。在看不见的物体任务中,RT-2超过了前一年最先进的模型RT-1高出43个百分点。这表明随着时间的推移,机器人在新环境中的表现有所改善。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
在强化学习中,AI系统通过交互式学习其先前的行为来训练其在给定任务上的最大性能。如果系统实现了预期的目标,就会得到奖励,如果失败就会受到惩罚。
2.10 强化学习
从人类反馈中强化学习
强化学习在增强GPT-4Llama 2等最先进的语言模型方面得到了普及。2017年推出的从人类反馈中强化学习(RLHF)将人类反馈纳入奖励函数,使模型能够接受有益和无害等特征的训练。
今年,AI指数追踪了使用RLHF作为训练一部分的基础模型数量的数据。更具体地说,Index团队查看了CRFM生态系统图中包含的所有模型的技术报告和其他文档,这是基础模型生态系统最全面的存储库之一图2.10.1说明了在一段时间内报告使用RLHF的基础模型的数量。2021年,没有新发布的基础模型使用RLHF。在2022IIndex报告7个模型报告使用RLHF, 2023年,16个模型报告使用RLHFRLHF越来越受欢迎的事实也证明了许多领先的法学硕士报告用RLHF改进了他们的模型(2.10.2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)RLAIF

RLHF是对齐AI模型的一种强大方法,但可能会受到生成用于模型对齐的人类偏好数据集所需的时间和劳动力的阻碍。作为替代方案,来自AI反馈的强化学习(RLAIF)使用基于法学硕士偏好的强化学习,使其他AI模型与人类偏好保持一致。
谷歌研究院最近的一项研究将RLAIF与传统的黄金标准RLHF进行了比较,以评估RLAIF是否有效可以作为可靠的替代品。研究发现,对于总结和帮助任务,RLAIFRLHF都优于监督微调(SFT),并且RLHF的优先程度没有统计学差异(2.10.3)。值得注意的是,在专注于产生最小危害输出的无害对话生成任务中,RLAIF(88%)的有效性超过了RLHF(76%)(2.10.4)。该研究表明,RLAIF可能是一种资源效率更高、成本效益更高的AI模型对齐方法。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
直接偏好优化
如上所述,RLHF是一种将法学硕士与人类偏好相匹配的有用方法。然而,RLHF需要大量的计算资源,包括多语言模型的训练和在训练循环中集成LM策略采样。这种复杂性可能会阻碍其更广泛的采用。
作为回应,斯坦福大学和CZ Biohub的研究人员开发了一种新的强化学习算法,用于对齐称为直接偏好优化(DPO)的模型。DPORLHF简单,但同样有效。研究人员表明,在摘要等任务上,DPO与其他现有的对齐方法(如近端策略优化(PPO)和监督微调(SFT)一样有效(2.10.5)。像DPO这样的技术的出现表明,模型对齐方法正变得更加直接和易于访问。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)本节侧重于探索LLMs的关键特性的研究,例如他们在推理中突然行为转变和自我纠正的能力。重要的是要强调这些研究,以了解日益代表AI研究前沿的法学硕士是如何运作和行为的。
2.11 LLMs的性质
挑战突发行为的概念
多论文认为,LLMs表现出突发性能力,这意味着他们可以在更大的范围内不可预测地突然显示出新的能力这引起了人们的担忧,即更大的模型可能会发展出令人惊讶的、也许是无法控制的新能力。
然而,斯坦福大学的研究挑战了这一概念,认为新能力的出现通常是用于评估的基准的反映,而不是模型本身的固有属性。研究人员发现,当使用多项选择评分等非线性或不连续指标来评估模型时,新兴能力似乎更加明显。相比之下,当使用线性或连续指标时,这些能力基本上消失了。研究人员分析了来自综合LLM评估工具BIG-bench的一套基准测试,发现在39个基准测试中,只有5个测试中出现了突发性能力(2.11.1)。这些发现对AI安全和一致性研究具有重要意义,因为它们挑战了一种普遍的观点,即AI模型将不可避免地学习新的、不可预测的行为。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)



LLMs表现随时间的变化
公开可用的闭源法LLms,如GPT-4Claude 2Gemini,通常由其开发人员根据新数据或用户反馈及时更新。然而,关于这类模型的性能如何响应这种更新而发生变化(如果有的话)的研究很少。

斯坦福大学和伯克利大学进行的一项研究探讨了某些公开可用的法学硕士随着时间的推移的表现,并强调,事实上,它们的表现可能会有很大的变化。更具体地说,该研究比较了20233月和6月版本的GPT-3.5GPT-4,并证明了在几个任务上的表现有所下降。例如,6月份版本的GPT-4比较3月份的版本相比,生成代码的能力差了42个百分点,回答敏感问题的能力差了16个百分点,33个百分点。

在某些数学任务上差了几个百分点(2.11.2)。研究人员还发现,GPT-4遵循指令的能力随着时间的推移而减弱,这可能解释了更广泛的表现下降。这项研究强调,LLM的性能可以随着时间的推移而发展,并建议普通用户应该注意这种变化。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

LLMs是差劲的自我纠错者
一般认为,像GPT-4这样的LLMs具有推理局限性,有时会产生幻觉。针对此类问题提出的一种解决方案是自我纠正,即法学硕士识别并纠正自己的推理缺陷。随着AI的社会角色越来越重要,内在自我纠正的概念——允许法学硕士在没有外部指导的情况下自主纠正他们的推理——尤其吸引人。然而,目前还不清楚法学硕士实际上是否能够进行这种自我纠正。
来自DeepMind和伊利诺伊大学厄巴纳-香槟分校的研究人员在三个推理基准上测试了GPT-4的性能:GSM8K(小学数学)CommonSenseQA(常识推理)HotpotQA(多文档推理)。他们发现,当模型在没有指导的情况下自行决定自我纠正时,其性能在所有测试基准上都有所下降(2.11.3)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
封闭与开放模型性能
随着法LLMs课程变得越来越普遍,关于其不同程度的可及性的争论也愈演愈烈。一些模型,如谷歌的Gemini,仍然是封闭的,仅对其开发人员开放。相比之下,OpenAIGPT-4AnthropicClaude 2等模型提供了有限的访问权限,可以通过API公开访问。然而,模型权重并没有完全发布,这意味着模型不能被公众独立修改或进一步审查。相反,MetaLlama 2Stability AIStable Diffusion采用了一种开放的方法,完全释放了它们的模型权重。开源模型可以被修改,任何人都可以自由使用。
关于封闭和开放AI模型的优点,人们的观点存在分歧。一些人支持开放模式,理由是它们能够抵消市场集中度,促进创新,并提高AI生态系统的透明度。另一些人则认为,开源模型存在相当大的安全风险,例如促进虚假信息或生物武器的产生,因此应谨慎对待。
在这场辩论的背景下,重要的是要承认,目前的证据表明开放模型和封闭模型之间存在显着的性能差距图2.11.42.11.5在一系列基准上并列列出了顶级封闭模型和开放模型的性能在所有选定的基准测试中,封闭模型的表现优于开放模型。具体来说,在10个选定的基准测试中,封闭模型实现了24.2%的中位数性能优势,其差异从数学任务(GSM8K)4.0%到代理任务(AgentBench)317.7%不等。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
随着LLMs使用的增加,人们正在寻求提高其性能和效率的技术。本节将探讨其中的一些进步。
2.12 LLM改进技术
提示是人工智能管道的一个重要方面,它需要为模型提供描述模型应该执行的任务的自然语言指令。
掌握制作有效提示的艺术可以显著提高LLMs的性能,而不需要模型进行潜在的改进。
思维图提示
思维链(CoT)和思维树(ToT)是提示方法,可以提高法学硕士在推理任务上的表现。2023年,欧洲研究人员引入了另一种提示方法,思维图(GoT),也显示出了希望(2.12.1)。《GoT》使法学硕士能够以一种更灵活、更接近人类实际推理的图形结构来建模他们的思想。然后,研究人员设计了一个模型架构来实现GoT,并发现,与ToT相比,它将排序任务的输出质量提高了62%,同时降低了约31%的成本(2.12.2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
提示优化(OPRO)
DeepMind的一篇论文介绍了提示优化(OPRO),这是一种使用法学硕士迭代生成提示以提高算法性能的方法。OPRO使用自然语言指导法学硕士根据问题描述和先前的解决方案创建新的提示(2.12.3)。生成的提示旨在提高AI系统在特定基准上的性能。与其他提示方法(让我们一步一步思考或空白起点)相比,ORPO在几乎所有23BIG-bench Hard任务上都具有更高的准确性(2.12.4)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
微调
微调作为一种增强LLMs的方法越来越受欢迎,涉及在较小的数据集上进一步训练或调整模型。
QLoRA
华盛顿大学于2023年开发的,是一种更有效的模型微调的新方法。它极大地减少了内存使用,能够在单个48 GB GPU上对650亿个参数模型进行微调,同时保持完整的16位微调性能。从这个角度来看,微调一个65B Llama模型,一个领先的开源LLM,通常需要大约780 GBGPU内存。因此,QLoRA的效率提高了近16倍。
微调不仅提升了模型的整体性能,还提高了模型在特定任务上的能力。它还允许对模型的行为进行更精确的控制。QLoRA设法通过4NormalFloat (NF4)、双量化和页面优化器等技术来提高效率。QLoRA用于训练一个名为Guanaco的模型,该模型在骆马基准(llm的输出进行排名的基准)上的性能与ChatGPT等模型相当甚至超过(2.12.5)。值得注意的是,Guanaco模型仅在单个GPU上进行了24小时的微调。QLoRa强调了优化和进一步改进模型的方法如何变得更加高效,这意味着需要更少的资源来制造功能越来越强的模型。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
LLMs可以灵活地处理各种任务,但通常需要大量的计算资源来训练。如前所述,高昂的培训成本可能会阻碍
flash解码
斯坦福大学研究人员开发的flash解码,通过加快注意力机制,特别是在需要长序列的任务中,解决了传统法学硕士的低效率问题。它通过并行加载键和值来实现这一点,然后分别重新缩放和组合它们以保持正确的注意力输出(2.12.6)。在各种测试中,flash解码的表现优于PyTorch EagerFlashAttention-2等其他领先的方法,显示出更快的ai被更广泛地采用。优化方法旨在提高AI的效率,例如,通过改善内存使用,从而使法学硕士更易于访问和实用。

推断:例如,在256批处理大小和256序列长度的情况下,flash解码比PyTorch Eager48倍,比FlashAttention-26(2.12.7)。在ChatGPT这样的模型上进行推理,每个响应的成本可能为0.01美元,当将这样的模型部署到数百万用户时,这个成本可能会变得非常昂贵。像flash解码这样的创新对于降低人工智能的推理成本至关重要。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
本节探讨了AI系统对环境影响的趋势,强调了透明度和意识的不断变化。从历史上看,模型开发人员很少披露他们的AI系统的碳足迹,让研究人员做出最好的估计。最近,人们开始向更开放的方向转变,特别是在训练AI模型的碳成本方面。然而,与推理相关的环境成本(一个潜在的更重要的问题)的披露仍然不足。本节介绍了开发人员报告的碳排放数据,以及探索AI与环境影响交叉点的著名研究。随着AI模型的规模越来越大,应用越来越广泛,AI研究社区努力监测和减轻AI系统对环境的影响从未像现在这样重要。
2.13 AI系统对环境的影响
一般环境影响
2.13.1显示了选定llm在训练期间释放的碳(以吨为单位)与人类参考点的比较。标有星号的模型的排放数据是由独立研究人员估计的,因为它们没有由其开发人员披露。
排放数据差异很大。例如,Meta公司的美洲驼2 70B型汽车排放了大约291.2吨碳,这几乎是一个旅客从纽约到旧金山往返航班排放的碳的291倍,大约是一个美国人一年平均排放量的16倍然而,美洲驼2的排放量仍然少于据报道在OpenAI GPT-3训练期间释放的502吨。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
排放估计值的差异是由于模型大小、数据中心能源效率和能源网格的碳强度等因素造成的。图2.13.2显示了所选模型的排放量与其规模的关系。一般来说,更大的模型排放更多的碳,这是一个趋势在美洲驼2模型系列中可以清楚地看到,它们都是在同一台超级计算机(Meta的研究超级集)上训练的。然而,如果在效率较低的能源驱动的能源网格上训练,较小的模型仍然会产生高排放。一些估计表明,随着时间的推移,模型的排放量已经下降,这可能与模型训练机制越来越有效有关。图2.13.3显示了选定模型的排放量及其功耗。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
评估AI模型对环境影响的一个主要挑战是排放缺乏透明度。与其他研究的结果一致,大多数著名的模型开发人员不报告碳排放,阻碍了对这一指标进行彻底和准确评估的努力例如,许多著名的模型开发人员,如OpenAI、谷歌、AnthropicMistral,都没有报告训练中的排放,尽管Meta会报告。
如前所述,训练AI模型对环境的影响可能是巨大的。虽然推理的每次查询排放可能相对较低,但当模型每天被查询数千次(如果不是数百万次)时,总影响可能会超过训练。关于模型推理的排放的研究很少。Luccioni等人于2023年发表的一项研究是第一批全面评估模型推断排放的研究之一。图2.13.4 说明了跨各种模型任务的1000个推断的排放量,揭示了图像生成等任务的碳足迹比文本分类高得多。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
尽管训练AI系统的环境成本得到了广泛认可,但AI可以为环境可持续性做出积极贡献。图2.13.5展示了AI支持环境努力的各种最新案例这些应用包括加强热能系统管理,改进害虫防治策略,提高城市空气质量。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


品牌方舟报告文章页底部图片
AMZ123跨境卖家导航旗下公众号【AMZ123跨境电商】深耕跨境行业,专注热点报道。
扫描右边二维码,关注后回复【加群】,加入优质卖家交流群~
目前30W+卖家关注我们
二维码
免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
亚马逊TOP100卖家榜单更新
AMZ123获悉,近日,Marketplace Pulse发布了最新亚马逊TOP100卖家榜单。亚马逊TOP100卖家榜单于11月14日更新,卖家排名基于店铺过去 30 天内收到的评论数量。1. 亚马逊美国站美国站榜单上的TOP100位卖家中,有80位来自美国,19位来自中国和中国香港,1位来自德国。TOP30的卖家中,仅10%的卖家近一个月评价数量上升,11名卖家排名上升,15名卖家排名下降。排
风暴席卷而来,低价商城上线,多个FBA仓持续大爆仓!
亚马逊低价商城正式上线11月12日,亚马逊低价商城正式上线,命名为Amazon Haul,目前仅在美国站推出。在首页,亚马逊低价商城以“Crazy low prices”为口号,向消费者提供了多种优惠方案,包括购物金额在 25 美元内可享受免运费服务,50 美元的订单可节省 5%,75 美元的订单则能节省 10% 等。不了解亚马逊低价商城的卖家,可以回顾下小编之前发过的关于它的介绍。(点击链接:《
新案速递!Keith和David律所代理多位原告发起版权诉讼,涉及多张版权图
我所经查询发现,Keith律所和David律所在2024年11月12日同时发起多宗版权维权诉讼,请卖家朋友抓紧排查。以下为各案具体信息。Part.01起诉时间:2024年11月12日原告:Sophie Cunningham案件类型:版权原告律所:Keith案号:24-cv-11628原告Sophie Cunningham是一位插画家,喜欢用彩色墨水作画,其在Etst平台展销插画产品,如下图所示:本
《2024年东南亚数字经济报告》
AMZ123获悉,近日,谷歌、淡马锡、贝恩联合发布了《2024年东南亚数字经济报告》。该研究利用了淡马锡洞察力、贝恩分析、谷歌趋势、研究合作伙伴数据、专家访谈及行业资料,对东南亚地区(SEA)的数字经济进行了深入探讨,涵盖了东南亚6个国家和6个不同的影响因素。目前,东南亚各国总人口已达6.12亿,其中,越南1亿,菲律宾1.19亿,马来西亚3500万,泰国7200万,印尼2.8亿,新加坡600万。随
Wildberries双11当日销量超1800万件,时尚品类最受喜爱
AMZ123获悉,日前,据外媒报道,俄罗斯电商平台Wildberries在11月促销期间迎来了显著的销量增长。据Wildberries透露,自11月促销开始以来,用户的购买量已是平时的1.5倍。特别是在11月5日至11日期间,商品销量比2023年同期增加了近40%,11月11日更是创下了销售峰值,售出1850万件商品。此外,买家活跃度在14:00至19:00期间最高,几乎一半的商品均在这个时段内成
如何通过流量成本判断市场竞争程度?——深度解析货流值与竞争分析
在激烈的电商市场竞争中,卖家们总是需要通过各种数据来判断市场的竞争程度,从而做出最优选品决策。而流量成本,作为一个关键的衡量标准,能帮助卖家洞察某一细分市场的竞争态势。本文将详细解析如何通过“货流值”这一指标来判断市场竞争的强弱,并分享具体的分析方法。货流值的定义及计算规则货流值是卖家精灵提出的原创指标,主要通过计算单次点击成本(PPC)占产品售价的比例来衡量引流成本,进而判断市场的竞争程度。简单
黑五开始!TK卖家在封号中迎接爆单
TikTok Shop黑五正式开始!各位卖家,你们的销售怎样呢?在曝光量上,TikTok是给足了支持,在首页的顶部位置,专门给了“BLACK FRIDAY”一个高光栏目。‍‍同时,TikTok还宣布和X上拥有2800万粉丝的Nicki Minaj在11月24日进行直播。大促开始,但近段时间,却仍陆续听到卖家反馈,手上有TikTok Shop被封。这可能继年初那一次大范围封号之后,TikTok又一次
TikTok红人合作爆款!Beetles美甲油如何成为美国年轻女性心头爱?
近几年,美妆行业可谓是飞速发展,美甲作为细分赛道有着极高的市场潜力。据了解,全球美甲市场规模在过去几年里持续增长,预计2024年将达到130亿美元。而Beetles就是快速发展的一个指甲油品牌之一。01从一小步到全球一大步Beetles主要专注于美甲DIY套件,品类多样,有指甲油、美甲工具、美甲饰品等,价格实惠的同时提供百种色卡供用户选择。自2017年成立以来,Beetles来自最初的本土市场,逐
特朗普宣布胜选,跨境电商或迎大变局!
特朗普当选美国总统!跨境卖家或迎四大影响!
Ohuhu卖马克笔年营收超3亿,背后必有高人指点
有一种兴趣的烧钱程度,骑行、摄影、钓鱼都要靠边。沾上画画,虽然不会一下掏空钱包,但多买几次纸笔画材,就老实了。近日,又一家做兴趣生意的公司干上市。从音乐、绘画到运动,千岸科技在海外“文体两开花”。4个主营品牌中,卖绘画产品的 Ohuhu 当属赚钱又巧妙。深挖其发家史,每一步都不偏不倚,背后必有高人指点。绘画这个小众类目,凭什么跟3C数码、运动户外并肩?2010年,千岸科技在深圳成立。彼时,阿里的速
卖家余额一夜变负!亚马逊开始收取这项费用
特朗普刺杀风波、拜登退选、哈里斯接棒、马斯克下场……号称近年最胶着的2024年美国大选,历经多个跌宕起伏的戏剧性情节,终于在11月6日落下了定锤——由特朗普锁定选举胜局。然而,大选过后,由其产生的连锁效应仍在持续影响着电商行业。从业内销售情况来看,近期在一批卖家为“川普周边爆单”而雀跃的同时,亦有诸多卖家陷入了“销量跳水”的泥沼。距离美国大选结果出炉已过数日,不少卖家所期盼的旺季单量至今仍未恢复增
又一国下封杀令,川普救不了TikTok
加拿大下令关闭字节业务,TikTok回应!
旺季重点!亚马逊再次调整优惠券使用规则!
年末旺季将至,亚马逊又对折扣券政策进行了新的调整!这次更新,意味着顾客在单次订单中能享受到更多折扣——不再需要分次下单,只要一单就能完成多个商品的优惠结算!这波改动,让卖家和顾客双双受益,一起来看看新规具体的操作细节和可能带来的影响吧。亚马逊优惠券政策重点解析① 多件商品可享同一张折扣券的优惠最新规定下,顾客在一单中最多可对五件商品使用同一张百分比折扣券,不再像之前只能一张券一件商品。如果你在创建
亚马逊动真格了!这几个后台功能全新升级!
正常,一旦出现数据异常,比如销是下跌、转化率异常、流是为0之类的情况,我们需要及时进行处理。关于数据分析,我们会主要分析店铺流量数据、销售数据和广告数据等。透过这些数据我们可以观察今天的销量是否有增加和降低,若有问题我们可以准确的知道是那个环节出现了问题,再进行合理的调整亚马逊一直以其快速迭代和升级而闻名,这一次,他们针对卖家们的痛点进行了多个改进,让卖家们的运营变得更加高效和安全。此次更新多达6
亚马逊终于改了这些一直被吐槽的功能!
被吐槽很久的设计,亚马逊终于改了!如果让亚马逊卖家来说,亚马逊的很多设计都是吐槽点,不过亚马逊升级迭代的速度还是挺快的,三天两天打补丁。业务报告里的ASIN报告支持搜索了我们收到了您的反馈,您现在可以在卖家平台中按 ASIN 筛选业务报告数据。最多可在搜索栏中输入 100 个 ASIN,以快速查找和分析您的绩效指标。之前,按 ASIN 搜索业务报告比较困难,通常需要您下载数据并进行离线筛选。我们的
亚马逊又爆“黑科技”?新品白嫖评论和BSR标签!
今年以来,亚马逊一直没“消停”过,平台频繁出台新规,打击违规操作,甚至出现了多次大规模封号潮!为了追求评价,许多卖家“花样百出”,尝试各种所谓的“黑科技”在规则边缘游走,甚至不断挑战亚马逊的底线。新品白嫖Review和BSR标签最近,就有卖家发现一款呼吸训练机的链接,居然只靠一个评价就荣登了BS榜,这种“起飞”速度让人不禁怀疑:是不是又有新手段在悄悄操作?没多久,这个链接竟然多出了1500多个评价
《2024年TikTok Shop美区商家增长白皮书-第三季度》PDF下载
随着社交媒体的渗透率和活跃度增长,全球掀起一波网络红人经济,依赖红人的曝光能力和粉丝信任感,带动品牌和商家的生意增长。而抖音全球领先的用户标签和兴趣内容推荐算法,挖掘高质量的内容,并通过内容快速打造大量垂直细分的KOL和KOC,从而推进兴趣电商的发展。从传统电商上的人找货,往兴趣电商的货找人,扩大消费人群和电商的范围。
《2024年美妆个人护理跨境电商专题研究》PDF下载
2023年我国出口前五大市场分别是美国、中国香港、英国、日本和印度尼西亚,占我国化妆品出口总额的48.7%。紧随其后的是韩国,2023年同比增长108.5%,从2022年的第15位飙升到第6。
《2024中国跨境电商海外营销观察》PDF下载
品牌内容营销新增长点正聚焦在社交媒体平台的影响力增长上,BrandOS评分根据中国出海企业核心诉求及发展特征,通过量化海外社交媒体运营状况,为品牌在各大社媒平台主页提供统一客观参考坐标
《2024 美国、英国、阿联酋年终购物旺季报告》PDF下载
本次研究探讨了塑造数字经济的信念和行为,重点关注了如黑色星期五、白色星期五、网络星期一和双十一等购物高峰期。
《东南亚运动户外电商行业市场洞察》PDF下载
东南亚户外运动市场近年来呈现出迅速增长的趋势。数据显示,当前户外运动相关类别的年增长率已超过100%,市场规模更是突破了3亿美元。随着人们生活方式的转变以及运动与健康意识的提升,这一市场的扩展趋势还将持续加强,预计未来几年将迎来更加广阔的发展空间。
《2024独立站0-1开店指南》PDF下载
在全球化的背景下,越来越多的商家选择建立独立站,以更好地掌控品牌、提升用户体验和拓展国际市场。本指南将从独立站的概念、商业模式到网站搭建,为您提供详细的建议与指导。
《2024全球智能家居市场深度研究报告》PDF下载
智能家居行业发展背景 全球智能家居市场发展展望 智能家居市场重要国家定位 智能家居市场营销策略拆解
《全球消费者洞察晴雨表:新浪潮2024》PDF下载
我们对全球主要国家和地区市场深入进行消费者洞察,主要议题包括: 消费者情绪与信心变化 品牌如何应对消费者迅速变化的消费选择 主要的消费者需求,品牌如何调整产品、服务及营销方式 消费者对环境、社会和道德的思考,对品牌传达和践行价值观的期待
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
跨境学院
跨境电商大小事,尽在跨境学院。
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
AMZ123选品观察员
选品推荐及选品技巧分享。
Activities
活动
Information
跨境资讯
跨境资讯
Group
社群
品类交流群
跨境资料
官方社区
宠物品类交流群
加入
家居品类交流群
加入
母婴用品交流群
加入
立即扫码咨询
立即扫码咨询
立即咨询
官方微信群
官方客服

扫码添加,立即咨询

扫码加群
官方微信群
官方微信群

扫码添加,拉你进群

更多内容
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部