人工智能很快就能解决人类需要几个月时间才能完成的项目

《arXiv》:AI could soon tackle projects that take humans weeks

【字体: 时间:2025年03月24日 来源:arXiv

编辑推荐:

  新的指标评估了人工智能在完成长期任务方面的表现,但一些研究人员对长期预测持谨慎态度。

  

如今的人工智能AI)系统在完成长时间任务方面还无法超越人类,但它们正在迅速改进,并可能比许多人预期的更早地缩小与人类的差距,根据对领先模型的分析显示。

位于加利福尼亚州伯克利的非营利组织METR创建了近170个涉及编码、网络安全、通用推理和机器学习的实际任务,并通过测量专家程序员完成这些任务所需的时间来建立“人类基线”。

该团队随后开发了一种用于评估AI模型进展的指标,称为“任务完成时间范围”。这是程序员通常完成AI模型在一定成功率下能够完成的任务所需的时间。

在本周发布于arXiv的预印本中,METR报告称,OpenAI于2019年发布的早期大型语言模型(LLM)GPT-2在所有需要人类专家花费超过一分钟的任务上都失败了。而由美国初创公司Anthropic于2024年2月发布的Claude 3.7 Sonnet完成了人类需要花费59分钟的任务中的50%。

论文发现,自2019年以来,13种领先的AI模型的时间范围大约每七个月翻一番。2024年,AI时间范围的指数增长加速,最新模型的时间范围大约每三个月翻一番。这项工作尚未经过正式的同行评审。

根据2019 - 2024年的发展速度,METR预计到2029年,AI模型将能够以50%的可靠性处理人类需要花费大约一个月时间的任务,而且可能会更早。

论文指出,一个月的人类专业知识投入,例如足以创办一家新公司或取得科学发现。

但加拿大安大略省多伦多大学的管理学教授约书亚·甘斯(Joshua Gans)表示,这些预测并没有太大意义。他说:“外推预测虽然诱人,但我们对AI的实际应用仍知之甚少,这些预测很难具有实际意义。”

研究团队选择了50%的成功率,因为这一比例对数据分布的微小变化最为稳健。共同作者劳伦斯·陈(Lawrence Chan)表示:“如果你选择非常低或非常高的阈值,那么移除或添加一个成功的任务或失败的任务,将极大地改变你的估计值。”

将可靠性阈值从50%提高到80%,平均时间范围缩短了五倍——尽管总体的翻倍时间和趋势线相似。

在过去五年中,大型语言模型(LLM)的通用能力的提升主要得益于规模的增加——包括训练数据量、训练时间和模型参数数量的增加。论文将时间范围指标的进步主要归因于AI在逻辑推理工具使用错误纠正以及任务执行中的自我意识方面的改进。

METR的“时间范围”方法解决了现有AI基准测试的一些局限性,这些基准测试与实际工作联系较为松散,并且随着模型的改进迅速“饱和”。共同作者本·韦斯特(Ben West)表示,它提供了一个连续且直观的度量,能够更好地捕捉有意义的长期进展。

韦斯特指出,领先的AI模型在许多基准测试中实现了超越人类的表现,但它们的经济影响相对较小。METR的最新研究为这一谜题提供了一个部分答案:最佳模型的时间范围约为40分钟,而人类在这么短的时间内能够完成的经济上有价值的工作并不多。

但总部位于加利福尼亚州旧金山的AI研究员兼企业家安东·特罗尼科夫(Anton Troynikov)表示,如果组织更愿意进行实验并投资于有效利用这些模型,AI将产生更大的经济影响。

婵炴垶鎸搁鍫澝归崶鈹惧亾閻熼偊妲圭€规挸瀛╃€靛ジ鏁傞悙顒佹瘎闁诲孩绋掗崝鎺楀礉閻旂厧违濠电姴娲犻崑鎾愁潩瀹曞洨鐣虹紓鍌欑濡粓宕曢鍛浄闁挎繂鐗撳Ο瀣煙濞茶骞橀柕鍥ㄥ哺瀵剟骞嶉鐣屾殸闂佽偐鐡旈崹铏櫠閸ф顥堥柛鎾茬娴狀垶鏌曢崱妤婂剱閻㈩垱澹嗗Σ鎰板閻欌偓濞层倕霉閿濆棙绀嬮柍褜鍓氭穱铏规崲閸愨晝顩烽柨婵嗙墦濡鏌涢幒鎴烆棡闁诲氦濮ょ粚閬嶅礃椤撶姷顔掗梺璇″枔閸斿骸鈻撻幋锔藉殥妞ゆ牗绮岄埛鏍煕濞嗘劕鐏╂鐐叉喘閹秹寮崒妤佹櫃

10x Genomics闂佸搫鍊瑰姗€骞栭—娓媠ium HD 閻庢鍠掗崑鎾绘煕濮樼厧鐏犵€规洜鍠撶槐鎺楀幢濮橆剙濮冮梺鍛婂笒濡粍銇旈幖浣瑰仢闁搞儮鏅滈悾閬嶆煕韫囧濮€婵炴潙妫滈妵鎰板即閻樼數鐓佺紓浣告湰濡炶棄螞閸ф绀嗛柛鈩冡缚閳ь兛绮欓弫宥夋晸閿燂拷

濠电偛妫庨崹鑲╂崲鐎n偆鈻旈悗锝庡幗缁佺櫉wist闂侀潧妫楅敃锝囩箔婢舵劕妫樻い鎾跺仜缂嶄線鏌涢弽銊у⒈婵炲牊鍘ISPR缂備焦绋掗惄顖炲焵椤掆偓椤︿即鎮ч崫銉ゆ勃闁逞屽墴婵″鈧綆鍓氶弳鈺呮倵濞戞瑥濮冮柛鏃撴嫹

闂佸憡顨嗗ú婊呭垝韫囨稒鍤勯柣鎰嚟閵堟挳骞栭弶鎴犵闁告瑥妫濆濠氬Ω閵夛絼娴烽柣鐘辩劍瑜板啴鎮ラ敓锟� - 濠电儑绲藉畷顒勫矗閸℃ḿ顩查柛鈩冾嚧閹烘挾顩烽幖杈剧秵閸庢垵鈽夐幘顖氫壕婵炴垶鎼╂禍婊冪暦閻旇櫣纾奸柛鈩冭壘閸旀帡鎮楅崷顓炰槐闁绘稒鐟ч幏瀣箲閹伴潧鎮侀梺鍛婂笧婢ф寮抽悢鐓庣妞ゆ柨鐏濈粣娑㈡煙鐠ㄥ鍊婚悷銏ゆ煕濞嗘ê鐏ユい顐㈩儔瀹曠娀寮介顐e浮瀵悂鏁撻敓锟�

婵炴垶鎸搁鍫澝归崶顒€违濠电姴瀚惌搴ㄦ煠瀹曞洤浠滈柛鐐存尦閹藉倻鈧綆鍓氶銈夋偣閹扳晛濡虹紒銊у閹峰懎饪伴崘銊р偓濠氭煛鐎n偄濮堥柡宀€鍠庨埢鏃堝即閻樿櫕姣勯柣搴㈢⊕閸旀帡宕濋悢鐓幬ラ柨鐕傛嫹

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号