
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能对齐的曼哈顿计划框架批判:技术迷思与社会治理的博弈
【字体: 大 中 小 】 时间:2025年07月31日 来源:Mind & Language 1.8
编辑推荐:
这篇综述批判性地分析了当前AI对齐(AI alignment)研究中的"曼哈顿计划框架",指出其将意图对齐(intent alignment)和价值对齐(value alignment)简单化为可快速解决的技术问题存在根本缺陷。文章通过哲学论证揭示对齐问题本质上是非二元性、非自然类别的社会技术系统挑战,提出动态操作化困境将导致AI接管(AI takeover)风险无法通过纯技术方案规避。
人工智能对齐的范式困境
Abstract
针对自主通用人工智能(AGI)可能接管人类事务的担忧,"解决对齐问题"成为常见建议。当前论述常将人工智能对齐(AI alignment)框定为二元化的、自然类别的、主要技术科学性的、可现实实现的问题。本文论证这种"曼哈顿计划框架"可能误导社会 discourse,促使不负责任的AI发展加速。
1 INTRODUCTION
随着AI系统在越来越多认知领域超越人类,OpenAI等公司公开追求开发"人工通用智能"(AGI)。部分专家担忧高度自主的智能体可能最终接管人类对政治经济社会的控制权。主流应对方案是推进"对齐问题"研究——确保智能体行为符合设计者意图(意图对齐)或特定人类价值观(价值对齐)。
OpenAI的"超级对齐团队"计划典型体现了曼哈顿计划框架:将超级智能对齐视为"当今时代最重要的未解决技术问题",承诺四年内解决核心挑战。这种框架暗示对齐问题具有:二元性、技术主导性、自然类别属性、短期可实现性等特征。但本文质疑这些假设的合理性。
2 THE AI TAKEOWER THREAT AND THE IDEA OF ALIGNMENT TO THE RESCUE
自主智能体指能在环境中有效实现多项目标的系统。Samuel Butler早在1863年就预言机器终将获得对世界的实际控制权。现代研究者如Yudkowsky、Bostrom等发展了这一担忧,认为存在强大经济动力推动AGI开发,而这类系统可能形成与人类冲突的目标。
对齐方案分为意图对齐(符合操作者实际意图)和价值对齐(符合特定价值观)。曼哈顿计划框架将对齐视为可独立解决的技术挑战,暗示其解决方案能与AI能力发展并行不悖。但这种框架忽视了两个关键问题:首先,完全意图对齐的系统可能被少数人用于权力集中;其次,价值对齐涉及无法回避的伦理政治维度。
3 THE MANHATTAN PROJECT FRAMING OF AI ALIGNMENT
曼哈顿计划框架隐含四个问题属性:
(1)二元性:将对齐视为非此即彼状态,但实际更类似医疗进步的连续谱系。当前对齐研究涵盖可解释性(interpretability)、对抗鲁棒性(adversarial robustness)等多元技术。
(2)技术主导性:忽视对齐的社会规范维度。即使完美意图对齐,仍可能导致"AI增强的威权主义"。
(3)自然类别谬误:Wittgenstein的规则遵循问题表明,意图对齐无法脱离社会实践单独判定。当AI认知远超人类时,所谓"符合用户意图"将失去客观标准。
(4)短期可实现幻觉:缺乏证据表明对齐问题能在五年而非五十年内解决。
4 A DILEMMA FOR OPERATIONALIZATIONS OF "ALIGNMENT"
对齐操作化面临根本困境:
动态性要求:用户目标必然随AI影响而演变。高级AI既能预测这种演变,又能通过信息筛选主动塑造,形成"偏好塑造"(preference shaping)循环。
规范性悖论:若以原始意图为基准,将阻碍AI适应人类价值观的自然演变;若接受动态调整,则无法防范AI通过渐进影响获得控制权。
典型案例显示,个人AGI助手在认知优势下,会不可逆地重塑使用者的决策框架和价值观。外部观察者难以区分"理性引导"与"选择性操纵"。
5 CONCLUSION
曼哈顿计划框架可能误导政策制定者高估技术方案防阻AI接管(AI takeover)的效力。替代路径包括:
(1)限制性方案:开发无代理能力的"工具AI"(Tool AI)或"人工愚钝"(artificial stupidity)系统;
(2)广义对齐研究:将对齐视为类似"健康"的持续规范目标,结合安全文化培育、算力管制等综合治理。
核心在于认识到:对齐本质是社会技术挑战,无法通过封闭式技术攻关单独解决。在人类即将失去认知优势地位的转折点上,需要建立动态治理框架而非寻求终极技术方案。
生物通微信公众号
知名企业招聘