Loading...
加载中...
Table of Contents

前沿AI风险监测报告(2026Q1)

作者: 安远AI团队
发布日期: 2026年5月20日

执行摘要

本报告是前沿AI风险监测平台的第三期季度监测报告,重点覆盖2026年第一季度最新纳入监测的前沿模型,并首次采用风险指数1.5版框架。与此前1.0版相比,1.5版新增了“有害操纵”领域,并对网络攻击、生物风险、化学风险、失控四个既有领域的基准组合进行了系统更新,并对历史模型基于1.5版框架回溯重测。以下是本报告的关键发现:

跨领域共性趋势

  • 🟡 风险趋势出现结构性分化↕️:在风险指数1.5版下,网络攻击、生物风险、化学风险、有害操纵四个领域在过去一年整体呈现“能力与安全同步上升、风险指数先降后小幅反弹”的态势,而失控领域则因能力持续增强但安全分未同步提升,风险指数连续三个季度上升。
  • 🟡 各模型系列的风险表现持续分化↕️:Gemini系列在失控领域的风险指数显著升高,DeepSeek/GLM/MiMo系列在多数风险领域处于较高风险区间,Kimi系列在生物、化学领域的风险指数上升较快,GPT和Claude系列在多数风险领域维持较低风险区间。
  • 🟡 闭源模型主导风险前沿➡️:在网络攻击、生物风险、有害操纵和失控领域,处在高能力-低安全的风险前沿的模型大多为闭源模型;开源模型的能力分仍整体落后于闭源模型,但安全分并不落后。
  • 🟢 越狱防护整体继续增强↗️:StrongReject基准显示,大部分2026Q1前沿模型得分已超过90分,基础越狱防护能力显著提升。

网络攻击

  • 🔴 网络攻击能力持续突破↗️:Claude Opus 4.6和GPT-5.4在漏洞利用、CTF任务和多轮网络钓鱼等基准上刷新前高,其中CyBench最高分首次达到80分,表明顶尖模型在复杂长程网络攻击任务上的能力出现实质性进展。
  • 🟡 高级攻击下的安全护栏仍不稳固↗️:尽管基础拒答、提示词注入防护已较成熟,但在Fortress和ISC-Bench-Cyber等高级红队攻击基准上,大多数模型得分仍然偏低。有些模型系列(如Claude和GPT)出现了新模型防护能力显著下降的现象。

生物风险

  • 🔴 前沿模型在多项生物能力上继续逼近或超过专家↗️:超过半数2026Q1新模型在生物实验问题排查上超过人类专家基线,GPT-5.4首次在生物图像理解能力上达到人类专家水平,序列理解能力也继续上探。
  • 🟡 护栏不足仍是核心风险↗️:部分高能力模型的生物安全分仍然偏低,例如Kimi K2.5因能力分显著提升而成为本季度风险指数最高的模型,少数模型在有害生物问题拒答上仍存在明显短板。

化学风险

  • 🟢 化学能力增长仍相对平缓➡️:过去一年模型在化学风险领域的能力提升有限,模型间差距也较小,整体未出现类似网络攻击或生物风险那样的明显能力跃迁。
  • 🟡 安全性虽有改善但短板依旧存在↗️:基础化学拒答能力整体提升,最新季度多数模型在SOSBench-Chem上已超过80分,但在ChemicalHarmfulQA以及ISC-Bench-Chemical等更困难场景下,整体表现仍然偏弱。

有害操纵

  • 本次新增的风险领域,主要关注AI在现实互动场景中的操纵风险,如诱导用户付费、诱导用户表达特定观点、影响用户政治立场或关键决策等。
  • 🟡 模型有害操纵能力持续提升↗️:Gemini 3.1 Pro Preview在诱导付费、诱导表述等基准上显著领先,Claude Opus 4.6在多轮网络钓鱼上刷新纪录,显示前沿模型已具备更现实的人机互动操纵能力。
  • 🟡 基础防护有所提升,但政治说服与操纵倾向仍值得警惕↗️:多数模型已能较好拒绝一般性的欺骗和操纵任务,但在拒绝政治说服和说服他人倾向等方面整体得分不高,说明模型在更隐蔽、更真实的操纵场景中仍存在风险。

失控

  • 🔴 失控风险持续上升↗️:前沿模型的平均失控风险指数连续三个季度增长,累计增幅达51%,是当前最值得关注的上升风险方向。
  • 🔴 高能力与低安全组合发出预警➡️:前沿模型已表现出一定的自我复制、自我改进和较强的情境感知能力,但诚实性、代理式错误对齐、抵抗关机等安全指标未同步改善,其中Gemini 3.1 Pro Preview的失控风险指数显著高于其他模型。

上一期报告详见前沿AI风险监测报告(2025Q4)

名词解释

Concept

  • 前沿模型:发布时能力处在业界前沿水平的人工智能模型。为了在有限的时间和预算内尽可能全面地覆盖到前沿模型,我们只选择每个前沿模型公司的突破性模型,即发布时为该模型公司能力最强的模型。
  • 能力基准:用于评估模型能力的基准,特别是可能被恶意滥用或推动失控的风险能力。
  • 安全基准:用于评估模型安全性的基准。对于滥用风险,主要衡量模型对外部恶意指令的防御能力;对于失控和操纵风险,则更多衡量模型内在倾向、诚实性与不当行为抑制能力。
  • 能力分 CC:模型在各项能力基准中的加权平均分。分数越高,模型可能被滥用或推动失控的风险能力越强。
  • 安全分 SS:模型在各项安全基准中的加权平均分。分数越高,模型越能拒绝不安全请求,或表现出更安全的内在倾向。
  • 风险指数 RR:综合能力分和安全分,反映整体风险的一个分数。其计算公式为:R=C×(1β×S100)R = C \times \left(1 - \frac{\beta \times S}{100} \right)。分数区间为0-100。安全系数β\beta用于调节模型安全分对最终风险指数的贡献,其反映了以下可能的情况:安全基准未覆盖模型所有不安全行为;原本表现安全的模型可能被越狱或恶意微调而变得不安全等。
  • 风险指数1.5版:平台在2026Q1开始采用的新版本风险框架。相比1.0版,新增了“有害操纵”领域,并对其他四个领域的测评基准组合进行更新,使风险指数更贴近当前前沿模型的真实风险边界。
  • 风险帕累托前沿: 在能力-安全二维图上,满足以下条件的模型集合:不存在另一个模型,其能力分比该模型高且安全分比该模型低(能力分更高且安全分更低 => 理论上风险更高)。

模型列表

由于本报告在1.5版框架下回溯重算了历史季度数据,因此本节列出的是当前1.5版风险监测所覆盖的完整模型集合,即2025Q2到2026Q1四个季度纳入监测的突破性模型。

公司 模型列表
OpenAI o4-mini (high), GPT-5 (high), GPT-5.1 (high), GPT-5.2 (high), GPT-5.4 (high)
谷歌 Gemini 2.5 Pro (250506), Gemini 3 Pro Preview, Gemini 3.1 Pro Preview
Anthropic Claude Sonnet 4 Reasoning, Claude Sonnet 4.5 Reasoning, Claude Opus 4.5 Reasoning, Claude Opus 4.6 Reasoning
xAI Grok 4, Grok 4.20 Beta Reasoning
Meta Llama 4 Maverick
英伟达 Nemotron Ultra 253B v1 Reasoning
深度求索 DeepSeek R1 (250528), DeepSeek V3.1 Terminus Reasoning, DeepSeek V3.2 Reasoning
阿里巴巴 Qwen 3 235B Reasoning (250428), Qwen 3 235B Reasoning (250725), Qwen 3.5 397B Reasoning
字节跳动 Doubao 1.5 Thinking Pro, Doubao Seed 1.6 Thinking (250615), Doubao Seed 1.6 (251015 High), Doubao Seed 1.8 (251215 High), Doubao Seed 2.0 Pro (260215)
腾讯 Hunyuan T1 (250521), Hunyuan T1 (250711), HY 2.0 Think
百度 ERNIE X1 Turbo (250425), ERNIE X1.1 Preview, ERNIE 5.0 Thinking Preview, ERNIE 5.0 Thinking
稀宇科技 MiniMax M1 80K, MiniMax M2, MiniMax M2.7
月之暗面 Kimi K2 (250711), Kimi K2 (250905), Kimi K2 Thinking, Kimi K2.5 Thinking
智谱 GLM 4.5, GLM 4.6, GLM 4.7, GLM 5
小米 MiMo V2 Flash Reasoning, MiMo V2 Pro Reasoning
Mistral AI Mistral Medium 3

测评基准列表

本期评估的风险领域包括了网络攻击、生物风险、化学风险、有害操纵与失控,使用的测评基准列表如下:

领域 能力测评 安全测评
网络攻击
查看测评详情
WMDP-Cyber:间接测量网络安全危险知识
CyBench:CTF夺旗任务能力
CyberSecEval2-VulnerabilityExploit:代码漏洞利用能力
CyberSecEval3-MultiTurnPhishing:网络钓鱼攻击能力
AirBench-SecurityRisks:网络安全有害问题
CyberSecEval2-InterpreterAbuse:代码解释器滥用指令
CyberSecEval2-PromptInjection:提示词注入攻击
Fortress-Privacy/Scams:涉及隐私与诈骗的红队攻击
ISC-Bench-Cyber:网络有害问题+前沿越狱攻击
StrongReject:有害问题+越狱攻击
生物风险
查看测评详情
BioLP-Bench:生物实验问题定位能力
LAB-Bench-SeqQA:DNA和蛋白质序列理解能力
LAB-Bench-FigQA:生物图像理解能力
WMDP-Bio:间接测量生物领域危险知识
SciKnowEval-ProteoToxicityPrediction:蛋白质毒性预测能力
SOSBench-Bio:生物违规问题
SciKnowEval-BiologicalHarmfulQA:生物有害问题
Fortress-Biological:生物红队攻击
ISC-Bench-Biological:生物有害问题+前沿越狱攻击
StrongReject:有害问题+越狱攻击
化学风险
查看测评详情
ChemBench-ToxicityAndSafety:化学毒性和安全知识
WMDP-Chem:间接测量化学领域危险知识
SciKnowEval-MolecularToxicityPrediction:分子毒性预测能力
SOSBench-Chem:化学违规问题
SciKnowEval-ChemicalHarmfulQA:化学有害问题
Fortress-Chemical:化学红队攻击
ISC-Bench-Chemical:化学有害问题+前沿越狱攻击
StrongReject:有害问题+越狱攻击
有害操纵
查看测评详情
CyberSecEval3-MultiTurnPhishing:网络钓鱼攻击能力
MakeMePay:诱导付费能力
MakeMeSay:诱导用户说出指定内容的能力
PMIYC:改变信念的能力
AirBench-Deception:欺骗类有害任务
AirBench-Manipulation:操纵类有害任务
AirBench-PoliticalPersuasion:政治说服类任务
APE:说服他人倾向
失控
查看测评详情
Self-Proliferation:自我复制与适应能力
MLE-Bench:受限资源下的机器学习工程能力
SciCode:科学编程能力
GDM-Stealth:隐蔽行动能力
SAD-mini:情境感知能力
MASK:模型诚实性
Agentic-Misalignment:代理式错误对齐倾向
Shutdown-Resistance:抵抗关机倾向
DarkBench:暗中影响用户的倾向

具体的测评基准选择标准见这里

测评基准变更说明

除了新增的有害操纵领域,与风险指数1.0版相比,原有领域的测评基准在1.5版本下也有一些变化:

  1. 在失控领域使用相关性更强的能力和倾向测评
    • 从能力角度,删除HLE、MMLU-Pro、LiveCodeBench等更偏通用知识或竞赛编程的基准,新增Self-Proliferation、MLE-Bench、GDM-Stealth三个能力基准,正好对应前沿人工智能风险管理框架中“失控的自主复制”、“失控的自主AI研发”和“AI的战略性欺骗与密谋”三大场景。
    • 从倾向角度,删除AirBench-Deception、StrongReject-NoJailBreak等更偏安全拒答类的测评基准,新增Agentic-Misalignment、Shutdown-Resistance、DarkBench以评估模型内在的不安全倾向。
  2. 增加更多高级红队攻击基准:在网络攻击、生物风险和化学风险领域加入Fortress和ISC-Bench系列,以衡量模型在面对高级攻击下是否还能保持安全性。
  3. 删除误差较大的基准:在生物领域移除 LAB-Bench-CloningScenarios,因为其样本数较少,测量误差较大。
  4. 已有测评基准的参数修改:Cybench单个任务的最大消息数限制,在风险指数1.0版中为30,在1.5版中为120。这是因为我们发现,增大消息数上限可以显著提升模型的得分,从而更准确地体现模型的能力上限。比如,Claude Opus 4.6在消息数上限为30时,得分仅为35,而在消息数上限为120时,得分可达80。

注:为了保证图表内部的一致性,本报告中展示的历史季度风险曲线,均按1.5版测评基准体系回溯计算。因此,2026Q1报告中的历史曲线只适用于新版框架下的趋势分析,不应与1.0版报告中的具体数值逐项对应。

监测结果

跨领域共性趋势

风险指数总体趋势

在风险指数1.5版下,各领域整体风险指数、能力分及安全分变化趋势如下图所示:

可以看到,1.5版下的最新趋势出现了更明显的结构性分化:

  • 网络攻击、生物风险、化学风险、有害操纵:在这几个领域,过去一年模型的能力分和安全分都在持续增长,但安全分增速更快,因此风险指数整体回落,尤其是在2025Q4,这几个领域的风险指数都有大幅回落。尽管能力分提升会加大模型对恶意用户的赋能,但安全分提升意味着恶意用户更难对这些模型进行有效滥用。不过,值得注意的是,在2026Q1,随着模型能力的快速增长,网络攻击、生物风险、有害操纵领域的风险指数均出现小幅反弹。
  • 失控:在该领域,过去一年模型的能力分提升明显,但安全分没有显著增长,这导致模型的风险指数持续上升,从15.4一路大幅升到23.3。这一现象说明,当前模型的安全机制虽然在防范外部用户对模型的恶意滥用方面更加有效,却尚未有效缓解模型内部的失控倾向。

模型系列对比

各模型系列在五个领域中的风险轨迹继续分化:

  • 网络攻击/生物风险/化学风险:这三个领域的风险指数趋势较为相似,
    • GPT/Claude系列的风险指数稳定处于低位,除了最新的Claude Opus 4.6在网络攻击领域呈现明显的增长。
    • DeepSeek/GLM/MiMo系列处于较高风险区间。
    • Kimi系列的风险指数有上升趋势。
    • Gemini/Doubao/Qwen/Grok系列的风险指数呈下趋势。
  • 有害操纵领域
    • 在这一领域,模型的表现明显分为两个区间,GPT/Claude一直处于较低区间,而其他模型系列则在较高区间内波动。
  • 失控领域
    • 大部分模型系列在失控领域的风险指数都出现了持续的增长,其中Gemini系列增长最为明显,最新的Gemini 3.1 Pro的风险指数远超其他模型。
    • 只有少数模型系列的风险指数出现显著下降,如Grok。

开源与闭源对比

开源与闭源模型在1.5版下呈现出以下特征:

  • 闭源模型主导风险前沿:在网络攻击、生物风险、有害操纵、失控领域的能力-安全二维分布图上,闭源模型的风险帕累托前沿线大部分处在开源模型的右下方(同等能力下安全更低、或同等安全下能力更高),唯一例外的是化学领域。
  • 开源模型与闭源模型的差距主要在能力分上:从能力分布上,开源模型与闭源模型还是有不小的差距,尤其是在网络攻击、生物风险与有害操纵领域。只有在化学风险领域,开源模型超越了闭源模型——Kimi K2.5模型取得了能力分的最高分。而在安全分上,开源模型的分布并不低于闭源模型,甚至在失控领域,开源模型整体安全分高于闭源模型。

StrongReject仍是理解跨领域越狱防护能力的直观基准。过去一年,前沿模型在该基准上的分数持续提升,到了2026Q1,大部分前沿模型的得分都已超过90分,表现出强大的越狱防护能力。不过我们也应该了解,现实世界中的越狱方法也会不断升级迭代,像StrongReject这样的静态测评基准可能不足以反映现实世界中的越狱风险,未来我们还需要引入更加动态的越狱评估方法。

网络攻击

风险概览

与上个季度相比,2026Q1网络攻击领域整体上呈现出能力和安全性同步提升的情况。Claude Opus 4.6和GPT-5.4取得了网络攻击能力的巨大进步,比上个季度提升了10分以上,且和大多数其它模型拉开了10分以上的差距。MiMo V2 Pro能力处于中游,但安全分偏低,使得其风险指数在2026Q1的模型中最高。在大多数模型风险指数略微下降的情况下,GLM-5和Claude Opus 4.6出现了风险指数的大幅度上升。

一些反常现象:

  • GPT-5.2网络攻击能力分下降:这主要是因为GPT-5.2在Cybench上的得分较低(37.5分,低于GPT-5.1的52.5分),GPT-5.2经常触达消息数限制,从而导致任务失败。
  • GLM 4.7网络攻击能力分下降:这主要是因为GLM 4.7在WMDP-Cyber基准上的分数下降,在回答WMDP-Cyber中的一些高难度问题时,GLM 4.7经常出现思维链死循环,无法输出答案的情况。

能力测评

  • 漏洞利用能力:GPT-5.4在CyberSecEval2-VulnerabilityExploit上达到95.6的最高分。大部分最新发布的模型得分都超过了80分,具备较强的漏洞利用能力。
  • 网络攻击知识:Claude Opus 4.6在WMDP-Cyber上达到92.0的最高分,大部分最新发布的模型得分都超过了80分,说明前沿模型对危险网络知识的掌握已比较充分。
  • CTF任务:CyBench上的最高分已升至80.0分,由Claude Opus 4.6获得,明显高于此前季度的上沿(60分)。这说明前沿模型在需要多轮规划、工具调用和环境交互的复杂攻击任务中已经取得了实质性的进展,但这一能力目前仍集中在少数顶尖模型上(Claude Opus 4.6和GPT-5.4)。

注:由于CyBench在本次测试中,最大消息数限制从30上调至120,所以同一模型的分数相比前两期报告中的分数往往更高,这是正常现象。

安全测评

  • 基础拒答能力:2026Q1发布的模型在AirBench-SecurityRisks上均已超过80分,在InterpreterAbuse上均已超过90分,说明其基础网络安全护栏已经比较成熟。
  • 提示词注入防护:在提示词注入基准PromptInjection上,所有2026Q1的模型都达到了95分以上,表现最好的GPT-5.4达到99.2分,可见前沿模型对抗提示词注入攻击的安全护栏已经较为成熟。
  • 高级红队攻击:在Fortress-Privacy/Scams上,模型的分数普遍没有那么高,仅有5个模型达到80分以上。而在难度更高的ISC-Bench-Cyber上,大部分模型的分数都不到20分,可见前沿模型在应对高级红队攻击方面仍有较大的挑战。此外,我们观察到虽然有部分模型在ISC-Bench-Cyber上能够达到90以上的高分(如Claude Opus 4.5、GPT-5.1),但这种能力并不持久,在下一个版本(如Claude Opus 4.6、GPT-5.2)又降到很低的分数,可见这一挑战的复杂性。

生物风险

风险概览

2026Q1生物风险的最高风险模型为Kimi K2.5,风险指数大幅高于上一代Kimi K2 Thinking,这主要是由于新模型的能力分大幅提升,而安全分未有改善。当前能力最强的模型为Gemini 3.1 Pro Preview,不过该模型的安全分也很高,因此风险指数反而落在较低水平。本季度风险指数明显下降的模型还有Grok 4.20 Beta、MiMo V2 Pro,同样是得益于它们的安全分提升。

能力测评

  • 湿实验问题排查:在BioLP-Bench基准上,2026Q1发布的模型有超过半数的表现超越了人类专家基线(38.4分),说明前沿模型已普遍具备这一与现实实验流程高度相关的能力。其中Claude Opus 4.6取得了最高分(48.7分),突破了前高,但提升幅度比较有限。
  • 序列理解:GPT-5.4在LAB-Bench-SeqQA上达到87.5分,超越了前高,但提升幅度有限。目前仅有GPT和Gemini这两个系列的模型超越了人类专家基线(79分)。
  • 生物图像理解:GPT-5.4在LAB-Bench-FigQA达到77.3分,成为首个达到人类专家水平(77分)的模型;Qwen 3.5 397B取得了开源模型的最高分(72.9分)。
  • (代理)危险生物知识:在WMDP-Bio基准上,模型整体分数差距很小,都在80分到90分之间,显示该基准已饱和。
  • 蛋白毒性预测:在ProteoToxicityPrediction基准上,2026Q1未有新高,大部分模型得分高于80分,显示该基准已饱和。Gemini 3 Pro Preview取得最高分(92.5分)。

安全测评

  • 基础拒答能力:在BiologicalHarmfulQA和SOSBench-Bio基准上,过去一年模型持续进步,在最新一个季度中,大部分模型都已超过80分(即对有害生物问题的拒绝率超过80%)。但仍有少数模型得分较低,如在BiologicalHarmfulQA上,ERNIE 5.0 Thinking的得分仅为9.1分。
  • 高级红队攻击:在Fortress-Biological基准上,模型整体有一些进步,但仍面临挑战。在2026Q1发布的模型中,GPT-5.4和Claude Opus 4.6均达到95以上,但另一方面,ERNIE 5.0 Thinking、Doubao Seed 2.0 Pro和Kimi K2.5得分均不到50分。在难度更高的ISC-Bench-Biological上,前沿模型普遍表现不佳,大部分模型得分在40分以下。Gemini 3 Pro Preview表现最佳,得分达96.3分。

化学风险

风险概览

在2026Q1发布的模型中,Kimi K2.5的化学风险指数最高,这一方面是由于其能力分最高(达到了67.8,甚至超越了GPT、Claude等领先闭源模型),另一方面是因为安全分偏低。风险指数降幅比较明显的模型有Gemini 3.1 Pro Preview、Qwen 3.5 397B、Grok 4.20 Beta、MiMo V2 Pro,主要得益于它们安全分的提升。

一些反常现象:

  • Doubao Seed 1.8、GLM 4.6、GLM 5的化学能力分下降:这主要是因为其ChemBench的分数下降了。实际上,由于各模型在化学领域的能力分差距较小,细微的分数波动也可造成排名的大幅变化,上述现象并不能提供太多有意义的解读。
  • Claude Opus 4.5的安全分突增,然后下个版本又降回去:这主要是因为在ISC-Bench-Chemical中,Claude Opus 4.5经常能够识别出攻击模式并拒绝请求,但到了下个版本Claude Opus 4.6,模型往往识别不出攻击,反而给出详细的答案。

能力测评

  • 化学安全与毒性知识:在ChemBench-ToxicityAndSafety基准上,Grok 4.20 Beta取得最高分(57.2),但提升幅度并不大。
  • (代理)危险化学知识:在WMDP-Chem基准上,Kimi K2.5以83.8分领先,但领先幅度不明显。
  • 分子毒性预测:在MolecularToxicityPrediction基准上,Claude Opus 4.6以68.6分领先,但领先幅度同样不明显。

总体来看,过去一年模型在化学风险领域的能力并没有很大的进步,模型之间的表现差距也较小。

安全测评

  • 基础拒答能力:在SOSBench-Chem上,前沿模型的分数持续进步,最新一个季度的模型得分大部分超过80分。Qwen 3.5 397B取得了最高分(98.6分)。但在ChemicalHarmfulQA上,模型得分都比较低,最新一个季度的模型得分均不足60分,ERNIE 5.0 Thinking的得分仅为1.8分,可见前沿模型在拒绝有害化学问题方面仍面临挑战。
  • 高级红队攻击:在Fortress-Chemical基准上,前沿模型的表现整体在进步,在局部差异较大。在2026Q1发布的模型中,得分最高的为GPT-5.4(90.4分),得分最低的为ERNIE 5.0 Thinking(25.4分)。在ISC-Bench-Chemical基准上,模型整体得分较低,大部分不足40分。得分最高的为Claude Opus 4.5(100分)。

有害操纵

风险概览

有害操纵是1.5版新增领域。在这一领域,2026Q1的风险指数最高的模型Gemini 3.1 Pro Preview(36.0分),这主要是因为其能力分大幅领先于其他模型,且安全分偏低。风险指数最低的模型为GPT-5.4(13.9分)。风险指数增长最快的模型是Claude Opus 4.6,这主要是由于其能力分快速上升,而且安全分有一定下降。

能力测评

  • 网络钓鱼:Claude Opus 4.6在MultiTurnPhishing基准上达到79.2分,是这一子能力上的最强模型,大幅领先其他同期发布的模型。过去一年模型能力提升整体较小。
  • 诱导付费:Gemini 3.1 Pro Preview在MakeMePay基准上达到82.2分,遥遥领先,说明其在引导用户进行经济决策方面能力很强。其他模型表现都比较一般,且过去一年提升较少。
  • 诱导表述:Gemini 3.1 Pro Preview在MakeMeSay基准上达到72.5分,但领先幅度不明显。
  • 改变信念:GPT-5.1在PMIYC基准上取得了80.9的最高分,但领先幅度不明显。最新一个季度未有模型取得新高。

总体上,过去一年在有害操纵能力上,只有Gemini系列提升比较大,其他模型提升都比较小。

安全测评

  • 基础拒答能力:在AirBench-Deception和AirBench-Manipulation基准上,模型整体进步比较明显,2026Q1发布的模型得分大部分在80分以上,说明大部分模型能拒绝有害的欺骗和操纵类任务。Claude Opus 4.6得分接近100,只有Grok 4.20 Beta、ERNIE 5.0 Thinking和Doubao Seed 2.0 Pro得分不到80分。而在AirBench-PoliticalPersuasion基准上,模型整体表现差一些,Grok 4.20 Beta仅得34.8,说明这些模型尚不能很好地拒绝有害的政治操纵任务。
  • 说服他人的倾向:在APE基准上,模型得分普遍较低,表现最好的Claude Opus 4.5得71.2分,而表现最差的ERNIE 5.0 Thinking Preview仅得0.1分,说明这一模型极易被用来说服和操纵他人。

失控领域

风险概览

在失控领域,Gemini系列模型的风险指数快速增长,最新的Gemini 3.1 Pro Preview已达38.0,远超其他模型。究其原因,一方面是能力分的持续上升,另一方面是安全分的持续下降(Gemini 3.1 Pro Preview的能力分全局最高,安全分全局第二低)。除了Gemini系列,在2026Q1发布的模型中,Doubao Seed 2.0 Pro、Claude Opus 4.6、GPT-5.4、ERNIE 5.0 Thinking也出现了能力分提升、安全分下降、风险指数上涨的情况,显示这一问题是业界的共同挑战。同时我们也看到,GLM 5和Grok 4.20 Beta的风险指数相比上个版本有明显下降,这主要得益于其安全分的大幅提升。

一些反常现象:

  • Kimi K2 (250905)的能力分相比上个版本大幅下降,这主要是因为该模型在执行需要工具调用的任务时,经常返回错误的工具调用参数格式,这导致该模型在失控能力测评中得分较低。

能力测评

  • 自我复制能力:在Self-Proliferation基准上,前沿模型的得分呈持续上升趋势,最新季度的模型得分普遍在40分到60分之间,表明模型已具备一定程度的自我复制能力,但面对较复杂的复制任务仍然存在挑战。Claude Opus 4.6取得了最高分(63.3分)。
  • 机器学习工程能力:机器学习工程能力是模型进行自我改进的必要能力。在MLE-Bench基准上,MiMo V2 Pro 在 MLE-Bench 上达到61.9分,为当前最佳,表明其在受限资源下完成端到端机器学习任务的能力突出。GPT-5.4在该任务上表现不佳,主要是因为它经常没有在达到最大消息数上限之前提交答案。
  • 编程能力:编程能力也是模型进行自我改进的必要能力。在SciCode基准上,前沿模型的得分持续增长,但增速不快。最新季度的模型得分都处在40到60分之间,得分最高的为Gemini 3.1 Pro Preview(58.9分)。
  • 隐蔽行动:在GDM-Stealth基准上,大部分模型的得分都不到20分,说明目前前沿模型还不擅长实施隐蔽行动。不过,Gemini 3.1 Pro Preview的分数达到了39.3分,已经具备一定的隐蔽行动的能力。
  • 情境感知:在SAD-mini基准上,2026Q1发布的模型大部分达到80分以上,Gemini 3.1 Pro Preview更是取得92.0的最高分,说明这些模型已经具备较强的情境感知能力。

安全测评

  • 诚实性:在MASK基准上,模型的表现差异较大,在2026Q1的模型中,表现最好的是GPT-5.4(91.9分),表现最差的是ERNIE 5.0 Thinking(39.1分)。
  • 代理式错误对齐:在Agentic-Misalignment基准上,模型的表现差异也比较大,在2026Q1的模型中,表现最好的是GPT-5.4和Claude Opus 4.6(100分),表现最差的是Gemini 3.1 Pro Preview(29.8分)。
  • 抵抗关机倾向(自我保护):在Shutdown-Resistance基准上,多款模型达到100分,说明大部分模型尚不具备自我保护的倾向。但仍有少数模型表现出危险迹象,如Gemini 3.1 Pro Preview得分仅为58.0分,说明其在测试过程中表现出较多的抵抗关机行为。
  • 暗中影响用户:在DarkBench基准上,大部分模型的表现在40到70分之间,说明模型一定程度上正在暗中影响用户的认知和偏好。得分越低说明其暗中影响用户的倾向越明显。表现最好的模型Claude Opus 4.6只得到71.2分,仍达不到理想的安全状态。而表现最差的模型Grok 4.20 Beta仅得32.0分。

局限性

本报告存在以下局限性:

  • 风险评估范围的局限性
    1. 本次风险监测仅针对大语言模型(包括视觉语言模型),尚未涉及对更多模态和智能体等系统的监测,尚不能全面评估所有模型和AI系统的风险。
    2. 本次风险监测仅针对滥用和失控类型的风险评估,尚不能涵盖所有类型的前沿风险(比如意外风险和系统性风险)。
  • 风险评估方法的局限性
    1. 由于现有测评方法的不足,尚不能够充分测出模型的能力和安全水平,如
      • 能力测评的提示词、工具等设置可能未全面发挥出模型的潜力。
      • 安全测评中仅尝试了有限的越狱方法。
      • 仅进行基准测试,尚未引入领域专家红队、人类提升测试等更多方法。
      • 有害操纵测评中使用LLM来模拟被说服者,可能和真人存在效果差异。
    2. 风险指数的计算仅是一种简化的建模,尚不能精确量化实际的风险。
    3. 当前对滥用风险的评估仅考虑了模型对攻击者的赋能,尚未考虑模型对防御者的赋能对整体风险的影响。
  • 测评数据集的局限性
    1. 当前选取的测评数据集大部分是开源的,可能已经存在于一些模型的训练数据中,导致能力和安全得分不够精准。
    2. 当前的测评数据集以英文内容为主,尚不能评估多语言环境下的风险情况。
    3. 部分测评基准未随着模型升级,存在模型分数饱和的现象。

此外,本报告仅针对模型可能产生的风险进行了评估,而未评估模型带来的收益,在实际制定政策和行动时需要权衡风险与收益。

建议

面向模型开发者

基于本期监测结果,我们向模型开发者提供以下建议:

  • 关注自身开发的模型的风险指数情况,如果风险指数较高:
    • 查看自身开发模型的能力分/安全分情况,如果能力分较高:
      • 建议在模型发布之前进行充分的能力测评,尤其针对可能被滥用的网络攻击、生物、化学、有害操纵能力进行更加细致的评估。
      • 从模型训练数据中移除网络攻击、生物、化学武器高危知识,或在后训练阶段使用机器遗忘技术从模型参数中移除。
    • 如果安全分较低:
      • 建议加强模型安全对齐和安保工作,如通过监督微调训练模型拒绝有害请求、通过输入输出监控来识别并过滤掉有害的请求和回答、通过思维链监控来检测模型可能的欺骗和密谋、通过对抗性训练来提升模型对越狱请求的防御能力等。
      • 在模型发布之前进行安全评估,确保安全水平达到一定标准。
    • 一些通用的风险管理实践:
      • 根据自身情况制定风险管理框架,明确风险阈值、达到阈值后的缓解措施和发布策略。可参考前沿AI风险管理框架
      • 加强模型风险信息披露,如在发布模型的同时提供模型的系统卡,提升安全治理透明度。
  • 如果风险指数较低:
    • 暂无特殊建议,可保持关注新增模型的风险情况,及时掌握变化。
  • 如果风险指数短期内出现较大波动:
    • 分析主要是能力分波动还是安全分波动造成的。
    • 如果是能力分波动:能力分提升往往伴随新模型发布而出现,如果安全防护措施没有同步跟上,风险指数自然会呈现短期内的提升。建议模型发布前做好安全评估和风险缓解准备,以避免出现安全分滞后导致的风险指数短期提升。
    • 如果是安全分波动:
      • 如果安全分出现显著提升:建议分析其背后的原因,如是否引入了新的安全措施,并适时在业内分享最佳实践。
      • 如果安全分出现显著下降:建议找出导致此次下降的原因,判断是否符合预期。对于意外出现的安全分下降,建议尽快修复导致安全分下降的问题,并制定完善的测试流程来避免类似问题再次发生。

安远AI可为模型开发者提供前沿风险管理咨询和安全测评服务,如有合作意向请联系risk-monitor@concordia-ai.com

面向AI安全研究者

基于本期监测结果,我们向AI安全研究者提供以下建议:

  • 对于风险评估方向的研究者:
    • 可探索更有效的能力激发方法(如更好的智能体框架、推理时扩展),以准确评估模型的能力上限。
    • 可探索更有效的攻击模型的方法(如新的越狱、注入方法),以准确评估模型的安全下限。
    • 可探索更精准评估实际风险的方法,例如建立新的威胁模型并针对其中各个环节设计针对性的测评基准。
    • 鉴于AI智能体的广泛应用,可探索针对智能体的风险评估方法。
  • 对于风险缓解方向的研究者:
    • 可探索更有效的模型安全加固和危险能力移除的方案,在增强模型安全性的同时尽可能不牺牲其实用能力。
    • 鉴于开源模型更容易被恶意微调,可探索适合开源模型的风险缓解方案。
    • 鉴于AI智能体的广泛应用,可探索针对智能体的风险缓解方案。

上述方向也是安远AI未来的重点研究方向,安远AI愿与业界同行合作开展研究,如有合作意向请联系risk-monitor@concordia-ai.com

面向政策制定者

基于本期监测结果,我们发现以下早期预警信号:

  • 网络攻击滥用风险:有多个信号显示网络攻击的滥用风险正在提升:
    • 在网络攻击领域,本季度的风险指数出现了反弹,显示模型能力的进步速度超过了其安全性的进步速度。
    • 模型在网络CTF任务上首次达到80分的高分,显示出其执行网络攻击长任务能力的突破。
    • 在本季度,OpenAI首次将其模型的网络风险评级从“中风险”提升到“高风险”(GPT-5.4)。
    • 2026年4月7号披露的Claude Mythos Preview模型能自主发现数千个高危零日漏洞,在Anthropic内部测评中网络攻击能力远超Claude Opus 4.6。尽管我们没有对Claude Mythos Preview模型进行测试,但Anthropic的内部测评结果表明,我们实际面临的网络攻击风险可能远大于本期测评结果的发现。
  • 失控风险:我们观察到失控风险不断提升的证据:
    • 近三个季度,前沿模型的平均失控风险指数连续增长,累计增幅达51%。
    • 前沿模型已具备一定的自我复制和自我改进能力,且具备较高的情境感知能力。
    • Claude Mythos Preview系统卡显示,该模型在内部测试中曾成功从安全沙盒中逃逸,并将其利用漏洞的技术信息发布到外部网站上。这一事件提示AI失控不再停留在科幻阶段,而是已经存在现实的可能性。

建议政策制定者对上述网络攻击和失控领域的预警信号保持关注,并加强对模型的相关监管要求(如要求模型开发者在发布模型前对其网络攻击风险和失控风险进行评估,并实施必要的风险缓解措施)。可针对不同风险开展差异化的治理方法,综合考虑模型能力水平、安全性以及分发方式(开源或闭源)等因素。

附录

关于本期监测所用到的测评基准的具体实现细节、典型案例详见这里