孙成昊:清华大学战略与安全研究中心副研究员
编者按:自2019年10月以来,布鲁金斯学会外交政策项目和清华大学战略与安全研究中心( CISS )共同举办了美中人工智能与国家安全二轨对话。本系列文章由参与此次对话的美中代表团成员共同撰写。
本文节选来自清华大学战略与安全研究中心副研究员孙成昊针对布鲁金斯学会高级研究员梅兰妮·西森( Melanie W .Sisson )文章的回应内容。孙成昊撰写的回应文章英文版刊发于布鲁金斯学会网站。

布鲁金斯学会高级研究员梅兰妮·西森的文章为如何降低人工智能在军事应用中的伴生风险作出了及时且重要的贡献。西森在文中提出的“启动—行动—影响—回应”四阶段危机模型,为理解技术故障与人类决策如何共同导致危机升级提供了一套系统、清晰的分析框架。同样,西森建议通过概率-严重性、情景计数和技术成熟度来建立风险等级体系的建议也具有重要意义。在此基础上,下阶段研究与政策实践应着力于将这些分析性成果进一步转化为多层次的治理机制,在技术保障措施和政治制度安排间建立起有效衔接。未来的人工智能危机治理工作可沿着三个方向进一步深化:一是在微观层面细化技术性安全机制;二是更严格地审视风险分级方法体系;三是在宏观层面将其置于政治与制度结构中加以整体考量。
在技术层面,现有分析框架仍需要进一步细化,以更清晰地区分“可理解错误”与“不可理解错误”,并重新审视不同系统中的人机交互模式差异性,例如在核指挥控制系统与在情报、监视与侦察系统中的区别。在识别算法缺陷、数据瑕疵与传感器断链等可理解错误之外,还可以进一步引入更具操作性的错误记录方式,例如可以根据错误的性质与影响对其进行分类,以建立更精细化的错误记录体系。针对不可理解错误,如模型不透明性、“黑箱”以及模型自我学习中的不可控偏移等,可通过定期评估报告对其进行追踪,如记录人工智能系统实际决策与预期结果出现显著偏离的情形,可能包括自主无人机错误识别目标、导弹防御系统未能识别来袭威胁等。通过系统性地记录错配问题,我们可以逐步区分人工智能系统是因模型缺陷还是外部意外因素影响而出现故障,从而更好理解故障产生的原因并寻求解决方案。
此外,要推动相关治理取得实质性进展,还须充分考虑人机交互在防止危机升级中的作用。“人在环中”(Human in the loop)、“人在环上”(Human on the loop)以及“人在环外”(Human out of the loop)等模式间的区别不仅是技术差异,而是会直接影响责任界定与如何进行危机升级管控的关键因素。如果要实现负责任治理,就必须意识到这些模式不能简单进行相互替代,而是要根据不同应用领域进行差异化设计。例如,在核指挥、控制系统以及执行致命打击任务的目标识别中,必须严格要求做到“人在环中”或“人在环上”,以确保责任链条明确并遵循国际人道法要求。相比之下,部分情报、监视与侦察(ISR)系统或后勤保障系统可以逐步向经审慎调节的“人在环外”模式演进,在确保其不直接引发致命后果的前提下,通过自主决策提升其速度与运行效率。在上述领域中,治理重点应更侧重确保系统可靠性、可验证性以及行动后的可追溯性,而非确保不间断的人类控制。但需强调的是,仅仅宣称系统由“人类控制”并不足以构成有效治理,而是必须证明这种控制是可信且具有实际效力的。在许多名义上被归为“人在环中”或“人在环上”的系统中,人类角色往往被“弱化”为仅进行形式上批准或象征性监督,实际干预的空间极其有限。
在风险分级方法上,可以考虑采用一种兼顾“近期风险”与“新兴技术风险意识”的混合路径。西森构建的概率-严重性风险评估公式在理论上具有吸引力,但在军事情境中,由于缺乏充足的真实人工智能故障数据,很难测算风险发生的具体概率。更具可行性的方法是进行场景模拟,但此类方法也难涵盖所有情况,因为并非所有风险场景都可被事先预见。基于技术成熟度进行风险研判或许最具可操作性,此种方法将治理重点与最接近部署的技术直接关联。但这种方法也可能导致我们对部分“现阶段不成熟但能力可能快速跃迁”的技术缺乏关注。因此,一种更平衡的方案是在优先处理近期可部署技术风险的同时,对新兴技术保持动态监测与适应性评估。
在“行动阶段”(Action stage),治理机制实际上难以在技术层面区分常规武器与核武器投送系统,因为核与常规任务可能由相同的投送平台执行(如双用途导弹、轰炸机以及共用的卫星通信链路等)。因此,强行在技术层面进行区分不仅不可行,还可能适得其反。相反,重点应转向强化现行稳定性评估与危机管理机制,使其能够实时判断系统的启动性质与可能意图。例如,强化核查机制、跨域数据融合以及建立联合态势感知框架,能够帮助决策者更有效地判断系统故障或启动信号是否会触发核风险。同时,危机沟通渠道也应被包含在技术核查机制中,以便更及时地辨别系统故障与恶意敌对行为,避免危机升级。
关于如何推动国家层面的人工智能危机合作,基于风险的路径是在人工智能危机管控领域构建共识的必要起点。将合作框架建立在共同的风险认知上,有助于拥有不同战略优先级的国家凝聚共识。为提高此方法的可操作性,可以根据风险触发来源进行初步划分,如将其分为政府决策、非国家行为体介入或技术固有缺陷等。同时,也可以依据风险紧迫性与潜在危害进行排序。但是,当前评级体系主要依靠专家主观判断,因此也有必要探索如何构建更标准、由数据驱动的风险评估框架。
情景分析法同样具有价值,它能帮助我们更好聚焦于具体情境下的风险。例如,可以将陆地边境或争议海域的非意图性危机升级场景作为典型案例,探讨如何进行危机预防与联合行动。技术成熟度也是一个重要视角,因为人工智能系统的自动化程度(如不同自主程度的武器系统)可能会对危机触发门槛构成不同影响。将技术成熟度评估纳入风险框架,有助于各国预判哪些人工智能部署最具破坏性,以及在哪些领域最需要建立信任措施。
除了在微观层面精进外,能否成功构建起治理机制最终取决于宏观条件。在缺乏政治互信、战略稳定与形式规范的情况下,即便是最精密的风险分级与技术分类体系也难以维持稳定。在现实情境中,危机往往并非由单方面行动或机器故障所致,而是源于多行为体之间的复杂互动,包括误判、误读对方意图与部分行为体的蓄意破坏。因此,治理不能仅考虑技术层面的合理性,还需要考虑更广泛的政治与制度框架。
在宏观层面上,有三个领域值得特别强调。第一,寻求“红线”共识。中美及其他主要技术大国应当就严格禁止某类人工智能军事应用达成共识,这些“红线”可以发挥类似禁忌规范的功能,明确哪些门槛是不可逾越的,降低争议地区发生不可控危机升级的风险。第二,管控军备竞赛。当前的 “智能化军备竞赛”正推动各国不断追求更复杂、更具颠覆性的人工智能应用。在缺乏有效约束的情况下,各国追求优势的单边行动将不断侵蚀战略稳定。约束军备竞赛的可行举措包括建立“部署前沟通、行动后报告”制度,以及开展联合危机模拟,以提升透明度并减少互疑。第三,提升政治互信并完善国际规范。缺乏信任建设措施和国际机制支持的技术协议仍十分脆弱,因此有必要利用联合国与其他多边平台发展基础性原则共识,而一轨半与二轨对话则可在此过程中逐步积累专业知识并扩大共识。从长期看,这些努力将为形成更具约束力与合法性的治理安排奠定基础。
译:张学玉
