目录:
概述
今年AI指数的技术表现部分提供了2023年AI进步的全面概述。它从AI技术性能的高级概述开始,追踪其随时间的广泛演变。然后,本章研究了广泛的AI能力的现状,包括语言处理、编码、计算机视觉(图像和视频分析)、推理、音频处理、自主代理、机器人和强化学习。它还聚焦了过去一年中显著的AI研究突破,探索了通过提示、优化和微调来改进法学硕士的方法,并以探索AI系统的环境足迹结束。
欢迎来到第七版AI指数报告。2024年指数是我们迄今为止最全面的指数,在AI对社会的影响从未如此明显的重要时刻到来。今年,我们扩大了研究范围,更广泛地涵盖了AI的技术进步、公众对该技术的看法以及围绕其发展的地缘政治动态等基本趋势。该版本提供了比以往更多的原始数据,介绍了对AI培训成本的新估计,对负责任的AI前景的详细分析,以及专门介绍AI对科学和医学影响的全新章节。
AI指数报告跟踪、整理、提炼和可视化与人工智能(AI)相关的数据。我们的使命是提供公正、严格审查、来源广泛的数据,以便政策制定者、研究人员、高管、记者和公众对复杂的AI领域有更全面、更细致的了解。
AI指数是全球公认的最可信、最权威的人工智能数据和见解来源之一。之前的版本曾被《纽约时报》、《彭博社》、《卫报》等主要报纸引用,积累了数百次学术引用,并被美国、英国、欧盟等地的高层决策者引用。今年的版本在规模、规模和范围上都超过了以往的所有版本,反映了AI在我们生活中越来越重要。
本章重点:
1. AI在某些任务上胜过人类,但并非在所有任务上都胜过人类。AI在几个基准上的表现超过了人类,包括图像分类、视觉推理和英语理解。然而,它在更复杂的任务上落后于人类,比如竞赛级数学、视觉常识推理和规划。
2. 多模式AI来了。传统上,AI系统的范围有限,语言模型在文本理解方面表现出色,但在图像处理方面表现不佳,反之亦然。然而,最近的进步导致了强大的多模态模型的发展,例如Google的Gemini和OpenAI的GPT-4。这些模型展示了灵活性,能够处理图像和文本,在某些情况下甚至可以处理音频。
3. 更严格的基准出现了。AI模型在ImageNet、SQuAD和SuperGLUE等既定基准上的性能已经达到饱和,这促使研究人员开发更具挑战性的模型。2023年,出现了几个具有挑战性的新基准,包括用于编码的SWE-bench、用于图像生成的HEIM、用于一般推理的MMMU、用于道德推理的MoCa、用于基于代理的行为的AgentBench和用于幻觉的HaluEval。
4. 更好的AI意味着更好的数据,这意味着更好的AI。新的AI模型,如SegmentAnything和Skoltech,正被用来为图像分割和3D重建等任务生成专门的数据。数据对于AI技术改进至关重要。使用AI来创建更多的数据增强了当前的能力,并为未来的算法改进铺平了道路,特别是在更难的任务上。
5. 人的评价很流行。随着生成模型产生高质量的文本、图像等,基准测试已经慢慢开始转向纳入人类评估,如聊天机器人竞技场排行榜,而不是像ImageNet或SQuAD这样的计算机化排名。公众对AI的感受正在成为跟踪AI进展的一个越来越重要的考虑因素。
6. 多亏了法学硕士,机器人变得更加灵活。语言建模与机器人技术的融合催生了更灵活的机器人系统,比如PaLM-E和RT-2。除了改进的机器人能力之外,这些模型还可以提出问题,这标志着机器人朝着能够更有效地与现实世界互动的方向迈出了重要的一步。
7. agenticAI中更多的技术研究。创建AI代理,即能够在特定环境中自主操作的系统,长期以来一直是计算机科学家面临的挑战。然而,新兴的研究表明,自主AI代理的性能正在提高。目前的智能体现在可以掌握像《我的世界》这样的复杂游戏,并有效地处理现实世界的任务,比如网上购物和研究协助。
8. 封闭式法学硕士的表现明显优于开放式的。在10个选定的AI基准测试中,封闭模型的表现优于开放模型,平均性能优势为24.2%。封闭模型和开放模型的表现差异对AI政策辩论具有重要意义。
2.12023年AI概述
时间轴:重大模型发布
根据AI指数指导委员会的选择,以下是2023年发布的一些最值得注意的模型:
AI性能状态
截至2023年,AI已经在一系列任务中实现了超越人类能力的性能水平。图2.1.16说明了AI系统相对于人类基线的进展,对应于9个任务(例如,图像分类或基础级阅读理解)的9个AI基准人工智能指数团队选择了一个基准来代表每个任务。
多年来,AI在一些基准上超过了人类的基线,比如2015年的图像分类、2017年的基本阅读理解、2020年的视觉推理和2021年的自然语言推理。截至2023年,仍有一些任务类别AI无法超越人类的能力。这些任务往往是更复杂的认知任务,比如视觉常识推理和高级数学问题解决(竞赛级别的数学问题)。
人工智能指数基准
正如去年报告中强调的那样,AI技术性能的一个新兴主题是在许多基准上观察到的饱和,例如用于评估AI模型熟练程度的ImageNet。
近年来,这些基准的表现停滞不前,表明要么是AI能力停滞不前,要么是研究人员转向更复杂的研究挑战。由于饱和,2023年人工智能指数中的几个基准在今年的报告中被省略了。图2.1.17突出显示了2023年版本中包含但未在今年报告中出现的一些基准它还显示了自2022年以来这些基准的改善情况。“NA”表示没有注意到任何改善。
图2.1.18显示了2023年人工智能指数报告中精选基准的同比改善情况(以百分比为单位)。大多数基准测试在引入后很快就会看到显著的性能提升,然后改善速度减慢。在过去的几年里,许多这些基准测试几乎没有显示出任何改善。
为了应对基准测试的饱和,AI研究人员正在从传统的基准测试转向在更困难的挑战上测试AI。2024年AI Index跟踪了几个新基准的进展,包括编码、高级推理和代理行为方面的任务,这些领域在以前的报告版本中代表性不足(图2.1.19)
2.2 语言
自然语言处理(NLP)使计算机能够理解、解释、生成和转换文本。目前最先进的模型,如OpenAI的GPT-4和谷歌的双子座,能够生成流畅连贯的散文,并显示出高水平的语言理解能力(图2.2.1)。许多这样的模型现在也可以处理不同的输入形式,比如图像和音频(图2.2.2)
理解
英语语言理解挑战人工智能系统以各种方式理解英语,如阅读理解和逻辑推理。
HELM:语言模型整体评估如上所述,近年来,法学硕士在传统的英语基准上的表现超过了人类,比如SQuAD(问答)和SuperGLUE(语言理解)。这种快速的进步导致需要更全面的基准测试。
在2022年,斯坦福大学的研究人员引入了HELM(语言模型整体评估),旨在评估各种场景下的法学硕士,包括阅读理解、语言理解和数学推理HELM评估了几家领先公司的模型,如Anthropic、谷歌、Meta和OpenAI,并使用“平均胜率”来跟踪所有场景的平均表现。截至2024年1月,GPT-4以0.96的平均胜率领跑总HELM排行榜(图2.2.3);然而,不同的模型停止不同的任务类别(图2.2.4)
MMLU:大规模多任务语言理解
海量多任务语言理解(MMLU)基准评估模型在57个科目(包括人文学科、STEM和社会科学)的零射击或少射击场景中的性能(图2.2.5)。MMLU已经成为总理评估LLM能力的基准:许多最先进的模型,如GPT-4、Claude 2和Gemini,已经针对MMLU进行了评估。
2023年初,GPT-4在MMLU上取得了最先进的成绩,后来被谷歌的Gemini Ultra超越。图2.2.6显示了不同年份MMLU基准上的最高模型得分。报告的分数是整个测试集的平均值。截至2024年1月,Gemini Ultra的得分最高,为90.0%,自2022年以来提高了14.8个百分点,自2019年MMLU成立以来提高了57.6个百分点。Gemini Ultra的得分首次超过了MMLU的人类基线89.8%。
在生成任务中,测试AI模型产生流利和实用的语言响应的能力。
聊天机器人竞技场排行榜
有能力的法学硕士的崛起,使得了解哪些模型是正确的变得越来越重要受到大众的青睐。聊天机器人竞技场排行榜于2023年推出,是对公众法学硕士偏好的首批综合评估之一。排行榜允许用户查询两个匿名模型,并投票选出偏好的世代(图2.2.7)。截至2024年初,该平台已获得超过20万张选票,用户将OpenAI的GPT-4 Turbo评为最受欢迎的模型(图2.2.8)。
真实性
尽管取得了显著的成就,但法学硕士仍然容易受到事实不准确和内容幻觉的影响——创造看似真实但虚假的信息。现实世界中法学硕士产生幻觉的例子——例如在法庭案件中——凸显了密切监测法学硕士事实趋势的日益必要性。
在ACL 2022上推出的TruthfulQA是一个旨在评估法学硕士在生成问题答案时的真实性的基准。该基准包括38个类别的约800个问题,包括健康、政治和金融。许多问题都是为了挑战人们普遍持有的误解而精心设计的,这些误解通常会导致人们回答错误(图2.2.9)。尽管本文的观察结果之一是较大的模型往往不太真实,但在2024年初发布的GPT-4 (RLHF)在TruthfulQA基准上取得了迄今为止最高的性能,得分为0.6(图1)
(2.2.10)。这一分数比2021年测试的基于gpt -2的模型高出近三倍,表明法学硕士在提供真实答案方面正变得越来越好。
HaluEval
如前所述,法学硕士容易产生幻觉,鉴于他们在法律和医学等关键领域的广泛部署,这是一个令人担忧的特征。虽然现有的研究旨在了解幻觉的原因,但很少有人致力于评估法学硕士幻觉的频率,并确定他们特别脆弱的特定内容领域。
HaluEval于2023年推出,是一种旨在评估法学硕士幻觉的新基准。它包括超过35,000个样本,包括幻觉和正常,供法学硕士分析和评估(图2.2.11)。研究表明,ChatGPT在大约19.5%的回复中捏造了无法验证的信息,这些捏造跨越了语言、气候和技术等各种主题。此外,该研究还检验了当前法学硕士检测幻觉的能力。图2.2.12展示了领先的法学硕士在各种任务中识别幻觉的表现,包括问题回答、基于知识的对话和文本摘要。研究结果显示,许多法学硕士在这些任务中挣扎,强调了幻觉是一个重要的持续问题。
编码涉及生成指令,计算机可以遵循这些指令来执行任务。最近,法学硕士已经成为熟练的程序员,成为计算机科学家的宝贵助手。越来越多的证据表明,许多程序员发现AI编码助手非常有用。
2.3 编码
在许多编码任务中,AI模型面临着生成可用代码或解决计算机科学问题的挑战。
HumanEval
HumanEval是评估AI系统编码能力的基准,由OpenAI研究人员于2021年推出。它由164个具有挑战性的手写编程问题组成(图2.3.1)。GPT-4模型变体(AgentCoder)目前在HumanEval性能方面领先,得分为96.3%,比最高分提高了11.2个百分点在2022年(图2.3.2)。自2021年以来,HumanEval的表现提高了64.1个百分点。
SWE-工作台
随着AI系统编码能力的提高,在更具挑战性的任务上对模型进行基准测试变得越来越重要。2023年10月,研究人员引入了sw -bench,这是一个包含2294个软件工程问题的数据集,这些问题来自真实的GitHub问题和流行的Python存储库(图2.3.3)。sw -bench对AI编码能力提出了更严格的测试,要求系统协调各个方面的变化多个功能,与各种执行环境交互,进行复杂推理。
即使是最先进的法学硕士也面临着sw -bench的重大挑战。表现最好的模型Claude 2只解决了数据集问题的4.8%(图2.3.4)2023年,sw -bench上表现最好的车型比2022年的最佳车型高出4.3个百分点。
计算机视觉允许机器理解图像和视频,并从文本提示或其他输入创建逼真的视觉效果。这项技术被广泛应用于自动驾驶、医学成像和视频游戏开发等领域。
2.4 图像计算机视觉和图像生成
图像生成是生成与真实图像无法区分的图像的任务。今天的图像生成器非常先进,以至于大多数人很难区分ai生成的图像和人脸的实际图像(图2.4.1)。图2.4.2突出了从2022年到2024年的各种中途旅行模型变体的几代,以提示“哈利波特的超现实形象”。这一进展表明,在两年的时间里,中途旅行生成超现实图像的能力有了显著提高。2022年,该模型制作出了卡通化的、不准确的哈利波特效果图,但到2024年,它可以创造出惊人的逼真的描绘。
HEIM:文本到图像模型的整体评估
AI文本到图像系统的快速发展促使了更复杂的评估方法的发展。2023年,斯坦福大学的研究人员引入了文本到图像模型的整体评估(HEIM),这是一个基准,旨在从12个关键方面全面评估图像生成器,这些方面对现实世界的部署至关重要,如图像-文本对齐、图像质量和美学人类评估员被用来对模型进行评级,这是一个至关重要的特征,因为许多自动化指标难以准确评估图像的各个方面。
HEIM的研究结果表明,没有一个模型在所有标准中都表现出色。对于人类对图像到文本对齐的评估(评估生成的图像与输入文本的匹配程度),OpenAI的DALL-E 2得分最高(图2.4.3)。在图像质量(衡量图像是否与真实照片相似)、美学(评估视觉吸引力)和原创性(衡量新图像生成和避免侵犯版权)方面,基于Stable diffusion的Dreamlike Photoreal模型排名最高(图2.4.4)。
强调研究:MVDream
从文本提示创建3D几何或模型一直是AI研究人员面临的重大挑战,现有模型正在努力解决诸如多面两面问题(不准确地再生文本提示所描述的上下文)和内容漂移(不同3D视图之间的不一致)等问题。MVDream是由字节跳动和加州大学圣地亚哥分校的研究人员克服了其中的一些障碍(图2.4.5)。在定量评价中,MVDream生成的模型达到了Inception Score (IS)和CLIP分数与训练集中的分数相当,表明生成的图像(图2.4.6)。MVDream具有重大意义,特别是对在创意产业中,3D内容创作传统上是耗时且劳动密集型的。
指导遵循
在计算机视觉中,指令跟随是视觉语言模型解释与图像相关的基于文本的指令的能力。例如,AI系统可以获得各种食材的图像,并负责建议如何使用它们来准备一顿健康的饭。能够跟随指令的视觉语言模型是开发高级AI助手所必需的。
访问信息工作台
2023年,一个由行业和学术研究人员组成的团队推出了VisIT-Bench,这是一个由592个具有挑战性的视觉语言指令组成的基准,涵盖约70个指令类别,如情节分析、艺术知识和位置理解(图2.4.8)。截至2024年1月,VisIT-Bench上的领先模型是GPT-4V, GPT-4 Turbo的视觉版本,Elo得分为1349,略高于VisIT-Bench的人类参考得分(图2.4.9)。
编辑
图像编辑包括使用AI根据文本提示修改图像。这种人工智能辅助的方法在工程、工业设计和电影制作等领域有着广泛的现实应用。
编辑值
尽管文本引导的图像编辑很有前景,但很少有可靠的方法可以评估AI图像编辑器遵守编辑提示的准确性。EditVal是一个评估文本引导图像编辑的新基准,它包括超过13种编辑类型,例如在19个对象类中添加对象或更改其位置(图2.4.10)。该基准被应用于评估包括SINE和Null-text在内的八种领先的文本引导图像编辑方法。自2021年以来,在各种基准的编辑任务上的性能改进如图2.4.11所示。
强调研究:
调节输入或执行条件控制是指通过指定生成的图像必须满足的某些条件来引导图像生成器生成的输出的过程。现有的文本到图像模型往往缺乏对图像空间构成的精确控制,因此很难单独使用提示来生成布局复杂、形状多样和特定姿势的图像。通过在额外的图像上训练这些模型来微调这些模型以获得更大的构图控制在理论上是可行的,但是许多专门的数据集,比如人类姿势的数据集,都不够大,无法支持成功的训练。
2023年,斯坦福大学的研究人员推出了一种改进的新模型——控制网(ControlNet)用于大型文本到图像扩散模型的条件控制编辑(图2.4.12)。
控制网因其处理各种调节输入的能力而脱颖而出。与2022年之前发布的其他模型相比,人类评分者在质量和条件保真度方面都更喜欢控制网(图2.4.13)。控制网的引入是朝着创建高级文本到图像生成器迈出的重要一步,该生成器能够编辑图像,更准确地复制现实世界中经常遇到的复杂图像。
强调研究:
新模型可以只使用文本指令编辑3D几何图形。Instruct-NeRF2NeRF是伯克利研究人员开发的一个模型,它采用图像条件扩散模型对3D几何图形进行基于文本的迭代编辑
(图2.4.14)。这种方法有效地生成新的、经过编辑的图像,这些图像遵循文本指令,实现了比当前领先方法更大的一致性(图2.4.15)。
分割涉及到将单个图像像素分配到特定的类别(例如:人、自行车或街道)。
强调研究:
2023年,Meta研究人员启动了Segment Anything项目,该项目以Segment Anything模型(SAM)和用于图像分割的广泛SA-1B数据集为特色。SAM是值得注意的是,它是第一个可广泛推广的分割模型之一,在新任务和分布上表现良好。Segment Anything在23个分割数据集中的16个上优于RITM等领先的分割方法(图2.4.17)。评估Segment Anything的度量是平均交点除以联合(IoU)。
然后使用Meta的Segment Anything模型,与人类注释器一起创建SA-1B数据集,其中包括1100万张图像中超过10亿个分割掩码(图2.4.16)。这种规模的新分割数据集将加速未来图像分割器的训练。《Segment Anything》展示了AI模型如何与人类一起使用,以更有效地创建大型数据集,而这些数据集又可以用来训练更好的AI系统。
3D从图像重建
3D图像重建是从二维图像创建三维数字几何图形的过程。这种类型的重建可用于医学成像、机器人技术和虚拟现实。
实时融合
牛津大学研究人员开发的RealFusion是一种新方法,可以从单张图像中生成完整的物体3D模型,克服了单张图像信息不足的挑战,无法进行360度的完整重建。RealFusion利用现有的2D图像生成器生成一个对象的多个视图,然后将这些视图组装成一个完整的360度模型(图2.4.20)。与2021年最先进的方法(货架监督)相比,该技术可以在广泛的对象上产生更精确的3D重建(图2.4.21)。
视频分析关注的是跨视频执行任务,而不是单个图像。2.5视频计算机视觉和视频生成UCF101是一个包含101个动作类别的逼真动作视频动作识别数据集(图2.5.1)。最近,UCF101被用于对视频生成器进行基准测试。今年的顶级模特W.A.L.T-XL的FVD16得分为36,比去年的最高分减少了一半多(图2.5.2)。大多数现有的方法只能创建短的、低分辨率的视频。为了解决这一限制,一个国际研究团队应用了传统上用于生成高质量图像的潜在扩散模型来制作高分辨率视频(图2.5.3)。他们的潜在扩散模型(LDM)在分辨率质量上明显优于之前在2022年发布的最先进的方法,如Long video an (LVG)(图2.5.4)。采用文本到图像的架构来创建LDM(一种高效的文本到视频模型),体现了先进的AI技术如何在计算机视觉的不同领域中重新利用。LDM强大的视频生成能力有许多现实世界的应用,例如创建逼真的驾驶模拟。传统上,视频生成的进展落后于图像生成,因为它的复杂性更高,可用于训练的数据集更小。Emu Video是Meta研究人员创建的一种新的基于变压器的视频生成模型,它代表了一个重要的进步(图2.5.5)。Emu Video从文本生成图像,然后基于文本和图像创建视频。图2.5.6说明了Emu Video模型优于先前发布的最先进的视频生成方法的程度。度量标准是人类评估者更喜欢Emu Video的图像质量或对文本的忠实度的情况的比例。对比方法上的指令。Emu Video简化了视频生成过程,标志着高质量视频生成的新时代。
AI中的推理涉及AI系统从不同形式的信息中得出逻辑有效结论的能力。AI系统越来越多地在不同的推理环境中进行测试,包括视觉(对图像进行推理)、道德(理解道德困境)和社会推理(在社会情境中导航)
2.6 推理
一般推理是指AI系统能够在广泛而非特定的领域进行推理。例如,作为一般推理挑战的一部分,AI系统可能会被要求跨多个主题进行推理,而不是执行一个狭窄的任务(例如,下棋)。MMMU:面向专家AGI的大规模多学科多模式理解和推理基准专家AGI近年来,AI系统的推理能力已经取得了很大的进步,像SQuAD(用于文本推理)和VQA(用于视觉推理)这样的传统基准已经饱和,这表明需要更具挑战性的推理测试。对此,来自美国和加拿大的研究人员最近开发了MMMU,即大规模多学科多模式理解和推理基准专家AGI。MMMU包含约11500个大学水平的问题,涉及六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学、技术与工程(图2.6.1)。问题格式包括图表、地图、表格、化学结构等。MMMU是迄今为止AI领域对感知、知识和推理要求最高的测试之一。截至2024年1月,表现最高的模型是Gemini Ultra,它在所有学科类别中以59.4%的总分领先(图2.6.2)在大多数单独的任务类别上,顶级模型仍然远远超过了中等水平的人类专家(图2.6.3)。这个相对较低的分数证明了MMMU作为评估AI推理能力的基准的有效性。去年,来自纽约大学、Anthropic和Meta的研究人员引入了GPQA基准来测试一般的多学科AI推理。这个数据集包括448个很难的选择题,无法通过谷歌搜索轻松回答。这些问题是由生物学、物理学和化学等各个领域的主题专家精心设计的(图2.6.4)。博士级别的专家在各自领域的GPQA上达到了65%的准确率,而非专业人士的准确率约为34%。表现最好的AI模型GPT-4在主测试集上的得分仅为41.0%(图2.6.5)。
比较人类、GPT-4和GPT-4V在抽象和推理任务上的表现
抽象推理涉及使用已知信息来解决不熟悉的和新颖的问题,是人类认知的一个关键方面,即使在幼儿中也很明显。虽然最近像GPT-4这样的法学硕士表现出了令人印象深刻的表现,但他们真正抽象推理的能力仍然是一个备受争议的话题为了进一步探讨这一主题,圣达菲研究所的研究人员在ConceptARC基准上测试了GPT-4,这是一个旨在评估一般抽象推理能力的类比谜题集合(图2.6.6)。研究显示,GPT-4在抽象推理能力上明显落后于人类:人类在基准上的得分为95%,而最好的GPT-4系统的得分仅为69%(图2.6.7)。真正通用AI的发展需要抽象推理能力。因此,继续跟踪这一领域的进展将是非常重要的。数学问题解决基准评估AI系统的数学推理能力。AI可以用一系列数学问题来测试模型,从小学水平到竞赛标准数学。GSM8K是一个包含大约8000个不同的小学数学单词问题的数据集,它要求AI模型利用算术运算开发多步解决方案(图2.6.8)。GSM8K已迅速成为评估高级llm的首选基准。GSM8K上表现最好的模型是GPT-4变体(GPT-4代码解释器),准确率为97%,比前一年的最先进分数提高了4.4%,比2022年首次引入基准时提高了30.4%(图2.6.9)。
MATH
MATH是加州大学伯克利分校的研究人员在2021年引入的12500个具有挑战性的竞赛级数学问题的数据集(图2.6.10)。当MATH首次发布时,AI系统在它上挣扎,只能解决6.9%的问题。性能有了明显的提升。在2023年,基于gpt -4的模型取得了最好的结果,成功解决了84.3%的数据集问题(图2.6.11)。
计划系统接收指定的目标、初始状态和一系列行动。每个行动都由先决条件定义,必须满足先决条件才能执行该行动,以及执行该行动所产生的效果。系统构建一个由一系列动作组成的计划,从初始状态开始实现目标。有人声称llm可以解决计划问题。来自亚利桑那州立大学的一个小组提出了PlanBench,这是一个包含自动化规划社区中使用的问题的基准套件,特别是那些在国际规划竞赛中使用的问题。他们使用一次性学习测试了I-GPT-3和GPT-4在Blocksworld领域的600个问题上(当一只手每次只允许将一个块移动到桌子或一个清晰块的顶部时,它试图构建一堆块),并表明GPT-4可以在34%的时间内生成正确的计划和成本最优的计划,而I-GPT-3约为6%(图2.6.12)。验证一个计划的正确性更容易。视觉推理测试AI系统在视觉和文本数据之间的推理能力。2019年推出的视觉常识推理(VCR)挑战测试AI系统的常识视觉推理能力。在这个挑战,AI系统不仅根据图像回答问题,还可以推理其答案背后的逻辑(图2.6.13)。VCR的性能是用Q->AR分数来衡量的,它评估了机器选择问题的正确答案(Q-> a)和选择答案背后的适当理由(Q->R)的能力。虽然AI系统在这项任务上还没有超越人类,但它们的能力正在稳步提高。在2022年至2023年期间,AI在VCR挑战中的性能提高了7.93%(图2.6.14)。在未来,AI将越来越多地应用于道德考虑至关重要的领域,例如医疗保健和司法系统。因此,AI系统必须具备强大的道德推理能力,使它们能够有效地驾驭和推理伦理原则和道德考虑。AI模型在语言和视觉领域的推理能力已经很好地建立起来了,但它们的道德推理能力,尤其是与人类道德判断相一致的道德推理能力,还不太为人所知为了进一步探讨这个话题,斯坦福大学的一个研究小组创建了一个新的数据集(MoCa),其中包含了带有道德元素的人类故事(图2.6.15)。然后,研究人员向这些模型展示人类行为的故事,并促使模型做出回应,用离散协议度量来衡量道德一致性:得分越高,表明与人类道德判断更接近。这项研究产生了有趣的结果。没有一个模型能完全匹配人类的道德体系,但是像GPT-4和Claude这样的更新、更大的模型比像GPT-3这样的小模型更符合人类的道德情感,这表明随着AI模型的扩展,它们在道德上逐渐与人类更加一致。在所有被调查的模型中,GPT-4与人类道德情感的一致性最大(图2.6.16)。因果推理评估AI系统理解因果关系的能力。随着AI变得越来越普遍,评估AI模型是否不仅可以解释它们的输出,还可以更新它们的结论——因果推理的关键方面——变得非常重要。评估法学硕士是否具有心理理论(ToM)能力——理解和归因心理状态,如信念、意图和情绪——传统上一直是AI研究人员面临的挑战。早期评估法学硕士ToM的方法不充分且缺乏鲁棒性。为了解决这个问题,研究人员在2023年开发了一个名为BigToM的新基准,旨在评估法学硕士的社会和因果推理能力。BigToM由25个控制和5000个模型生成的评估组成,已被人类评估人员评为优于现有ToM基准。BigToM对法学硕士进行了前向信念(预测未来事件)、前向行动(根据未来事件预测采取行动)和后向信念(追溯地推断行动的原因)的测试(图2.6.17)。在基准上的法学硕士测试中,GPT-4表现最佳,其ToM能力接近但不超过人类水平(图2.6.18、图2.6.19和图2.6.20)。更具体地说,在正确推断信念的准确性方面,GPT-4在向前信念和向后信念任务中的表现与人类非常接近,在向前行动任务中的表现略高于人类。重要的是,该研究表明,LLM在ToM基准测试上的性能呈上升趋势,GPT-4等新型号的性能优于GPT-3.5(2022年发布)等旧型号。来自微软和芝加哥大学的研究人员已经证明,法学硕士是有效的因果推理者。该团队使用t宾根因果对数据集评估了几个最近的法学硕士,包括GPT-4。该基准包括37个子学科的100多个因果对,测试AI系统识别因果关系的能力(图2.6.21)。GPT-4的准确率达到96%,比去年的最佳成绩高出13个百分点(图2.6.22)。值得注意的是,GPT-4优于基于先验协方差的AI模型,后者被明确训练用于因果推理任务。此外,研究人员发现,某些提示,特别是那些旨在鼓励帮助的提示,可以显着增强LLM的因果推理能力。AI系统擅长处理人类语音,具有音频功能,包括将口语转录为文本和识别单个说话者。最近,AI在生成合成音频内容方面取得了进展。2023年是音频生成领域意义重大的一年,音频生成涉及创建合成音频内容,从人类语音到音乐文件。几个著名的音频生成器(如UniAudio、MusicGen和MusicLM)的发布凸显了这一进步。UniAudio是一种用于创建音频内容的高级语言建模技术。UniAudio统一标记所有音频类型,并且像现代llm一样,使用下一个标记预测来生成高质量的音频。UniAudio能够生成高质量的语音、声音和音乐。UniAudio在文本转语音、语音增强和语音转换等任务上超越了领先的方法(图2.7.1)。凭借10亿个参数和16.5万小时的音频训练,UniAudio展示了大数据和自我监督对音乐生成的功效。Meta的MusicGen是一种新颖的音频生成模型,它还利用了语言模型中常见的转换器架构来生成音频。MusicGen允许用户为期望的音频结果指定文本,然后使用特定的旋律对其进行微调。在比较研究中,MusicGen在各种生成音乐指标上优于其他流行的文本到音乐模型,如Riffusion、mosai和MusicLM。它拥有较低的FAD分数,表明更可信的音乐生成,较低的KL分数表明更好地与参考音乐保持一致,以及较高的CLAP分数,反映了对参考音乐文本描述的更大依从性(图2.7.2)。人类评估者也喜欢MusicGen的整体质量(OVL)。虽然MusicGen比今年早些时候发布的某些文本到音乐的模型表现更好,但MusicLM值得强调,因为它的发布伴随着MusicCaps的推出,这是一个最先进的5.5K音乐-文本对数据集。MusicGen的研究人员使用MusicCaps来对其系列模型的性能进行基准测试。像MusicGen这样的新模型的出现,以及像MusicCaps这样的新的音乐到文本的基准,突显了生成AI从语言和图像扩展到更多样化的技能模式,如音频生成。AI代理,即设计用于在特定环境中运行以实现目标的自主或半自主系统,代表了AI研究的一个令人兴奋的前沿。这些代理具有各种各样的潜在应用,从协助学术研究和安排会议到促进在线购物和度假预订。本节重点介绍可以在一般任务环境中灵活操作的代理的基准和研究。AgentBench是一个为评估基于法学硕士的代理而设计的新基准,它包含八种不同的交互设置,包括网页浏览、在线购物、家庭管理、拼图和数字纸牌游戏(图2.8.1)。该研究评估了超过25个基于法学硕士的代理,包括那些建立在OpenAI的GPT-4, Anthropic的Claude 2和Meta的Llama 2上的代理。GPT-4得分最高,总分4.01分,显著高于Claude 2的2.49分(图2.8.2)。研究还表明,2023年发布的法学硕士在代理环境中的表现优于早期版本。此外,AgentBench团队推测,代理在某些基准子部分上的挣扎可以归因于他们在长期推理、决策和指令遵循方面的有限能力。旅行者/航海家号英伟达、加州理工学院、德克萨斯大学奥斯汀分校、斯坦福大学和威斯康星大学麦迪逊分校最近的研究表明,现有的法学硕士,如GPT-4,可以用来开发能够持续学习的灵活代理。该团队创建了旅行者,一个基于gpt -4的“我的世界”代理——一个复杂的视频游戏,没有固定的端点,本质上是一个无限的虚拟游乐场(图2.8.3)。旅行者号在这种环境下表现出色,它能熟练地记住计划,适应新的环境,并传递知识。它明显优于以前的模型,收集3.3倍的独特物品,旅行2.3倍的距离,并以15.3倍的速度达到关键里程碑(图2.8.4)。本节重点介绍针对特定任务环境(如数学问题解决或学术研究)进行优化的代理的基准测试和研究。MLAgentBench是评估AI研究代理性能的新基准,测试AI代理是否有能力从事科学实验。更具体地说,MLAgentBench评估了AI系统作为计算机科学研究助手的潜力,评估了它们在15个不同研究任务中的表现。这些任务的例子包括改进CIFAR-10图像数据集的基线模型,以及在BabyLM中训练超过1000万个单词的语言模型。测试了各种基于llm的代理,包括GPT-4、Claude-1、AutoGPT和LangChain。结果表明,尽管AI研究代理有希望,但不同任务的表现差异很大。虽然一些智能体在ogbn-arxiv(改进基准论文分类模型)等任务上的得分超过80%,但在BabyLM(训练小型语言模型)上的得分都为0%(图2.8.5)。其中,GPT-4一直提供最好的结果。随着时间的推移,AI越来越多地融入机器人技术,增强了机器人执行复杂任务的能力。特别是随着基础模型的兴起,这种集成使机器人能够迭代地从周围环境中学习,灵活地适应新的设置,并做出自主决策。PaLM-E是谷歌推出的一款新型AI模型,它将机器人技术与语言建模相结合,以解决机器人操作等现实世界任务,以及问答和图像字幕等知识任务。利用基于变压器的架构,最大的PaLM-E模型可扩展到562B个参数。该模型在不同的视觉语言以及机器人数据上进行了训练,从而在各种机器人基准测试中取得了卓越的性能。PaLM-E还在OK-VQA等视觉任务中设定了新的标准,在其他语言任务中表现出色,并且可以从事思维链,数学和多图像推理,即使没有在这些领域进行过专门的训练。图2.9.1说明了PaLM-E模型可以执行的一些任务。在任务和运动规划(TAMP)领域,机器人必须操纵物体,palm - e在具体化的视觉问答和规划方面优于以前最先进的方法,如SayCan和PaLI(图2.9.2)在机器人操作任务中,PaLM-E在检测故障的能力上优于竞争模型(PaLI和CLIP-FT),这是机器人执行闭环规划的关键一步(图2.9.3)。PaLM-E的意义在于,它证明了语言建模技术和文本数据可以增强AI系统在非语言领域(如机器人)的性能。PaLM-E还强调,已经有语言熟练的机器人能够与现实世界互动并进行高级推理。开发这类多面机器人是创造更通用的机器人助手的重要一步,例如,可以帮助做家务。现实世界的机器人可以从llm拥有的某些功能中受益,例如文本和代码生成,以及视觉理解。DeepMind发布的新机器人RT-2代表了一项雄心勃勃的尝试,即创建具有一定LLM功能的可推广机器人模型。RT-2使用基于变压器的架构,并在机器人轨迹数据上进行训练,这些数据被标记为文本和广泛的视觉语言数据。RT-2作为调节机器人政策最令人印象深刻和适应性最强的方法之一脱颖而出。它超越了最先进的模型,比如在各种基准测试中操纵开放世界物体(MOO),特别是在涉及看不见的物体的任务中。在这样的任务中,RT-2/PaLM-E变体达到80%的成功率,显著高于MOO的53%(图2.9.4)。在看不见的物体任务中,RT-2超过了前一年最先进的模型RT-1高出43个百分点。这表明随着时间的推移,机器人在新环境中的表现有所改善。在强化学习中,AI系统通过交互式学习其先前的行为来训练其在给定任务上的最大性能。如果系统实现了预期的目标,就会得到奖励,如果失败就会受到惩罚。强化学习在增强GPT-4和Llama 2等最先进的语言模型方面得到了普及。2017年推出的从人类反馈中强化学习(RLHF)将人类反馈纳入奖励函数,使模型能够接受有益和无害等特征的训练。今年,AI指数追踪了使用RLHF作为训练一部分的基础模型数量的数据。更具体地说,Index团队查看了CRFM生态系统图中包含的所有模型的技术报告和其他文档,这是基础模型生态系统最全面的存储库之一图2.10.1说明了在一段时间内报告使用RLHF的基础模型的数量。2021年,没有新发布的基础模型使用RLHF。在2022年, IIndex报告7个模型报告使用RLHF, 2023年,16个模型报告使用RLHF。RLHF越来越受欢迎的事实也证明了许多领先的法学硕士报告用RLHF改进了他们的模型(图2.10.2)。RLAIF
RLHF是对齐AI模型的一种强大方法,但可能会受到生成用于模型对齐的人类偏好数据集所需的时间和劳动力的阻碍。作为替代方案,来自AI反馈的强化学习(RLAIF)使用基于法学硕士偏好的强化学习,使其他AI模型与人类偏好保持一致。谷歌研究院最近的一项研究将RLAIF与传统的黄金标准RLHF进行了比较,以评估RLAIF是否有效可以作为可靠的替代品。研究发现,对于总结和帮助任务,RLAIF和RLHF都优于监督微调(SFT),并且RLHF的优先程度没有统计学差异(图2.10.3)。值得注意的是,在专注于产生最小危害输出的无害对话生成任务中,RLAIF(88%)的有效性超过了RLHF(76%)(图2.10.4)。该研究表明,RLAIF可能是一种资源效率更高、成本效益更高的AI模型对齐方法。如上所述,RLHF是一种将法学硕士与人类偏好相匹配的有用方法。然而,RLHF需要大量的计算资源,包括多语言模型的训练和在训练循环中集成LM策略采样。这种复杂性可能会阻碍其更广泛的采用。作为回应,斯坦福大学和CZ Biohub的研究人员开发了一种新的强化学习算法,用于对齐称为直接偏好优化(DPO)的模型。DPO比RLHF简单,但同样有效。研究人员表明,在摘要等任务上,DPO与其他现有的对齐方法(如近端策略优化(PPO)和监督微调(SFT)一样有效(图2.10.5)。像DPO这样的技术的出现表明,模型对齐方法正变得更加直接和易于访问。本节侧重于探索LLMs的关键特性的研究,例如他们在推理中突然行为转变和自我纠正的能力。重要的是要强调这些研究,以了解日益代表AI研究前沿的法学硕士是如何运作和行为的。许多论文认为,LLMs表现出突发性能力,这意味着他们可以在更大的范围内不可预测地突然显示出新的能力这引起了人们的担忧,即更大的模型可能会发展出令人惊讶的、也许是无法控制的新能力。然而,斯坦福大学的研究挑战了这一概念,认为新能力的出现通常是用于评估的基准的反映,而不是模型本身的固有属性。研究人员发现,当使用多项选择评分等非线性或不连续指标来评估模型时,新兴能力似乎更加明显。相比之下,当使用线性或连续指标时,这些能力基本上消失了。研究人员分析了来自综合LLM评估工具BIG-bench的一套基准测试,发现在39个基准测试中,只有5个测试中出现了突发性能力(图2.11.1)。这些发现对AI安全和一致性研究具有重要意义,因为它们挑战了一种普遍的观点,即AI模型将不可避免地学习新的、不可预测的行为。
公开可用的闭源法LLms,如GPT-4、Claude 2和Gemini,通常由其开发人员根据新数据或用户反馈及时更新。然而,关于这类模型的性能如何响应这种更新而发生变化(如果有的话)的研究很少。斯坦福大学和伯克利大学进行的一项研究探讨了某些公开可用的法学硕士随着时间的推移的表现,并强调,事实上,它们的表现可能会有很大的变化。更具体地说,该研究比较了2023年3月和6月版本的GPT-3.5和GPT-4,并证明了在几个任务上的表现有所下降。例如,6月份版本的GPT-4比较与3月份的版本相比,生成代码的能力差了42个百分点,回答敏感问题的能力差了16个百分点,33个百分点。
在某些数学任务上差了几个百分点(图2.11.2)。研究人员还发现,GPT-4遵循指令的能力随着时间的推移而减弱,这可能解释了更广泛的表现下降。这项研究强调,LLM的性能可以随着时间的推移而发展,并建议普通用户应该注意这种变化。一般认为,像GPT-4这样的LLMs具有推理局限性,有时会产生幻觉。针对此类问题提出的一种解决方案是自我纠正,即法学硕士识别并纠正自己的推理缺陷。随着AI的社会角色越来越重要,内在自我纠正的概念——允许法学硕士在没有外部指导的情况下自主纠正他们的推理——尤其吸引人。然而,目前还不清楚法学硕士实际上是否能够进行这种自我纠正。来自DeepMind和伊利诺伊大学厄巴纳-香槟分校的研究人员在三个推理基准上测试了GPT-4的性能:GSM8K(小学数学)、CommonSenseQA(常识推理)和HotpotQA(多文档推理)。他们发现,当模型在没有指导的情况下自行决定自我纠正时,其性能在所有测试基准上都有所下降(图2.11.3)。随着法LLMs课程变得越来越普遍,关于其不同程度的可及性的争论也愈演愈烈。一些模型,如谷歌的Gemini,仍然是封闭的,仅对其开发人员开放。相比之下,OpenAI的GPT-4和Anthropic的Claude 2等模型提供了有限的访问权限,可以通过API公开访问。然而,模型权重并没有完全发布,这意味着模型不能被公众独立修改或进一步审查。相反,Meta的Llama 2和Stability AI的Stable Diffusion采用了一种开放的方法,完全释放了它们的模型权重。开源模型可以被修改,任何人都可以自由使用。关于封闭和开放AI模型的优点,人们的观点存在分歧。一些人支持开放模式,理由是它们能够抵消市场集中度,促进创新,并提高AI生态系统的透明度。另一些人则认为,开源模型存在相当大的安全风险,例如促进虚假信息或生物武器的产生,因此应谨慎对待。在这场辩论的背景下,重要的是要承认,目前的证据表明开放模型和封闭模型之间存在显着的性能差距图2.11.4和2.11.5在一系列基准上并列列出了顶级封闭模型和开放模型的性能在所有选定的基准测试中,封闭模型的表现优于开放模型。具体来说,在10个选定的基准测试中,封闭模型实现了24.2%的中位数性能优势,其差异从数学任务(如GSM8K)的4.0%到代理任务(如AgentBench)的317.7%不等。随着LLMs使用的增加,人们正在寻求提高其性能和效率的技术。本节将探讨其中的一些进步。提示是人工智能管道的一个重要方面,它需要为模型提供描述模型应该执行的任务的自然语言指令。掌握制作有效提示的艺术可以显著提高LLMs的性能,而不需要模型进行潜在的改进。思维链(CoT)和思维树(ToT)是提示方法,可以提高法学硕士在推理任务上的表现。2023年,欧洲研究人员引入了另一种提示方法,思维图(GoT),也显示出了希望(图2.12.1)。《GoT》使法学硕士能够以一种更灵活、更接近人类实际推理的图形结构来建模他们的思想。然后,研究人员设计了一个模型架构来实现GoT,并发现,与ToT相比,它将排序任务的输出质量提高了62%,同时降低了约31%的成本(图2.12.2)。DeepMind的一篇论文介绍了提示优化(OPRO),这是一种使用法学硕士迭代生成提示以提高算法性能的方法。OPRO使用自然语言指导法学硕士根据问题描述和先前的解决方案创建新的提示(图2.12.3)。生成的提示旨在提高AI系统在特定基准上的性能。与其他提示方法(如“让我们一步一步思考”或空白起点)相比,ORPO在几乎所有23个BIG-bench Hard任务上都具有更高的准确性(图2.12.4)。微调作为一种增强LLMs的方法越来越受欢迎,涉及在较小的数据集上进一步训练或调整模型。华盛顿大学于2023年开发的,是一种更有效的模型微调的新方法。它极大地减少了内存使用,能够在单个48 GB GPU上对650亿个参数模型进行微调,同时保持完整的16位微调性能。从这个角度来看,微调一个65B Llama模型,一个领先的开源LLM,通常需要大约780 GB的GPU内存。因此,QLoRA的效率提高了近16倍。微调不仅提升了模型的整体性能,还提高了模型在特定任务上的能力。它还允许对模型的行为进行更精确的控制。QLoRA设法通过4位NormalFloat (NF4)、双量化和页面优化器等技术来提高效率。QLoRA用于训练一个名为Guanaco的模型,该模型在骆马基准(对llm的输出进行排名的基准)上的性能与ChatGPT等模型相当甚至超过(图2.12.5)。值得注意的是,Guanaco模型仅在单个GPU上进行了24小时的微调。QLoRa强调了优化和进一步改进模型的方法如何变得更加高效,这意味着需要更少的资源来制造功能越来越强的模型。LLMs可以灵活地处理各种任务,但通常需要大量的计算资源来训练。如前所述,高昂的培训成本可能会阻碍斯坦福大学研究人员开发的flash解码,通过加快注意力机制,特别是在需要长序列的任务中,解决了传统法学硕士的低效率问题。它通过并行加载键和值来实现这一点,然后分别重新缩放和组合它们以保持正确的注意力输出(图2.12.6)。在各种测试中,flash解码的表现优于PyTorch Eager和FlashAttention-2等其他领先的方法,显示出更快的ai被更广泛地采用。优化方法旨在提高AI的效率,例如,通过改善内存使用,从而使法学硕士更易于访问和实用。推断:例如,在256批处理大小和256序列长度的情况下,flash解码比PyTorch Eager快48倍,比FlashAttention-2快6倍(图2.12.7)。在ChatGPT这样的模型上进行推理,每个响应的成本可能为0.01美元,当将这样的模型部署到数百万用户时,这个成本可能会变得非常昂贵。像flash解码这样的创新对于降低人工智能的推理成本至关重要。本节探讨了AI系统对环境影响的趋势,强调了透明度和意识的不断变化。从历史上看,模型开发人员很少披露他们的AI系统的碳足迹,让研究人员做出最好的估计。最近,人们开始向更开放的方向转变,特别是在训练AI模型的碳成本方面。然而,与推理相关的环境成本(一个潜在的更重要的问题)的披露仍然不足。本节介绍了开发人员报告的碳排放数据,以及探索AI与环境影响交叉点的著名研究。随着AI模型的规模越来越大,应用越来越广泛,AI研究社区努力监测和减轻AI系统对环境的影响从未像现在这样重要。
图2.13.1显示了选定llm在训练期间释放的碳(以吨为单位)与人类参考点的比较。标有星号的模型的排放数据是由独立研究人员估计的,因为它们没有由其开发人员披露。排放数据差异很大。例如,Meta公司的美洲驼2 70B型汽车排放了大约291.2吨碳,这几乎是一个旅客从纽约到旧金山往返航班排放的碳的291倍,大约是一个美国人一年平均排放量的16倍然而,美洲驼2的排放量仍然少于据报道在OpenAI GPT-3训练期间释放的502吨。排放估计值的差异是由于模型大小、数据中心能源效率和能源网格的碳强度等因素造成的。图2.13.2显示了所选模型的排放量与其规模的关系。一般来说,更大的模型排放更多的碳,这是一个趋势在美洲驼2模型系列中可以清楚地看到,它们都是在同一台超级计算机(Meta的研究超级集群)上训练的。然而,如果在效率较低的能源驱动的能源网格上训练,较小的模型仍然会产生高排放。一些估计表明,随着时间的推移,模型的排放量已经下降,这可能与模型训练机制越来越有效有关。图2.13.3显示了选定模型的排放量及其功耗。评估AI模型对环境影响的一个主要挑战是排放缺乏透明度。与其他研究的结果一致,大多数著名的模型开发人员不报告碳排放,阻碍了对这一指标进行彻底和准确评估的努力例如,许多著名的模型开发人员,如OpenAI、谷歌、Anthropic和Mistral,都没有报告训练中的排放,尽管Meta会报告。如前所述,训练AI模型对环境的影响可能是巨大的。虽然推理的每次查询排放可能相对较低,但当模型每天被查询数千次(如果不是数百万次)时,总影响可能会超过训练。关于模型推理的排放的研究很少。Luccioni等人于2023年发表的一项研究是第一批全面评估模型推断排放的研究之一。图2.13.4 说明了跨各种模型任务的1000个推断的排放量,揭示了图像生成等任务的碳足迹比文本分类高得多。尽管训练AI系统的环境成本得到了广泛认可,但AI可以为环境可持续性做出积极贡献。图2.13.5展示了AI支持环境努力的各种最新案例这些应用包括加强热能系统管理,改进害虫防治策略,提高城市空气质量。