人工智能很快就能解决人类需要几个月时间才能完成的项目

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年03月24日 来源：arXiv

编辑推荐：

　　新的指标评估了人工智能在完成长期任务方面的表现，但一些研究人员对长期预测持谨慎态度。

如今的人工智能（AI）系统在完成长时间任务方面还无法超越人类，但它们正在迅速改进，并可能比许多人预期的更早地缩小与人类的差距，根据对领先模型的分析显示。

位于加利福尼亚州伯克利的非营利组织METR创建了近170个涉及编码、网络安全、通用推理和机器学习的实际任务，并通过测量专家程序员完成这些任务所需的时间来建立“人类基线”。

该团队随后开发了一种用于评估AI模型进展的指标，称为“任务完成时间范围”。这是程序员通常完成AI模型在一定成功率下能够完成的任务所需的时间。

在本周发布于arXiv的预印本中，METR报告称，OpenAI于2019年发布的早期大型语言模型（LLM）GPT-2在所有需要人类专家花费超过一分钟的任务上都失败了。而由美国初创公司Anthropic于2024年2月发布的Claude 3.7 Sonnet完成了人类需要花费59分钟的任务中的50%。

论文发现，自2019年以来，13种领先的AI模型的时间范围大约每七个月翻一番。2024年，AI时间范围的指数增长加速，最新模型的时间范围大约每三个月翻一番。这项工作尚未经过正式的同行评审。

根据2019 - 2024年的发展速度，METR预计到2029年，AI模型将能够以50%的可靠性处理人类需要花费大约一个月时间的任务，而且可能会更早。

论文指出，一个月的人类专业知识投入，例如足以创办一家新公司或取得科学发现。

但加拿大安大略省多伦多大学的管理学教授约书亚·甘斯（Joshua Gans）表示，这些预测并没有太大意义。他说：“外推预测虽然诱人，但我们对AI的实际应用仍知之甚少，这些预测很难具有实际意义。”

研究团队选择了50%的成功率，因为这一比例对数据分布的微小变化最为稳健。共同作者劳伦斯·陈（Lawrence Chan）表示：“如果你选择非常低或非常高的阈值，那么移除或添加一个成功的任务或失败的任务，将极大地改变你的估计值。”

将可靠性阈值从50%提高到80%，平均时间范围缩短了五倍——尽管总体的翻倍时间和趋势线相似。

在过去五年中，大型语言模型（LLM）的通用能力的提升主要得益于规模的增加——包括训练数据量、训练时间和模型参数数量的增加。论文将时间范围指标的进步主要归因于AI在逻辑推理、工具使用、错误纠正以及任务执行中的自我意识方面的改进。

METR的“时间范围”方法解决了现有AI基准测试的一些局限性，这些基准测试与实际工作联系较为松散，并且随着模型的改进迅速“饱和”。共同作者本·韦斯特（Ben West）表示，它提供了一个连续且直观的度量，能够更好地捕捉有意义的长期进展。

韦斯特指出，领先的AI模型在许多基准测试中实现了超越人类的表现，但它们的经济影响相对较小。METR的最新研究为这一谜题提供了一个部分答案：最佳模型的时间范围约为40分钟，而人类在这么短的时间内能够完成的经济上有价值的工作并不多。

但总部位于加利福尼亚州旧金山的AI研究员兼企业家安东·特罗尼科夫（Anton Troynikov）表示，如果组织更愿意进行实验并投资于有效利用这些模型，AI将产生更大的经济影响。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号