Loading...
加载中...
Table of Contents

前沿AI风险监测平台

简介

前沿AI风险监测平台是国内首个专注于评估与监测前沿AI模型灾难性风险的第三方平台,由安远AI开发。平台通过基准测试和数据分析,对主流前沿大模型的滥用和失控风险进行了针对性评估和定期监测,并可以动态掌握AI模型风险现状及其变化趋势,为政策制定者、模型开发者、AI安全研究者提供参考。

背景

我们开发平台主要出于以下原因:

  1. 国家政策的指引:国家政策层面高度重视人工智能风险监测、评估与预警工作。2025年4月,中央政治局第二十次集体学习聚焦人工智能发展,明确提出要“构建技术监测、风险预警、应急响应体系,确保人工智能安全、可靠、可控”。2025年10月,《网络安全法》在修订中新增专门条款,进一步强调“加强风险监测评估和安全监管,促进人工智能应用和健康发展”。安远AI响应国家号召,推出国内首个前沿AI风险监测平台,为国内政策界、工业界、学术界和更广泛的AI社区提供前沿风险监测和预警。
  2. 人工智能灾难性风险管理的需求:全国网安标委发布的《人工智能安全治理框架2.0》明确提出,应积极研究应对人工智能灾难性风险的共识性准则,并将风险划分为五个等级,其中包括第4级“重大安全风险”和第5级“特别重大安全风险”,指具有重大或灾难性威胁,对国家安全、社会秩序和公⺠权益造成严重危害或颠覆性、不可逆转的影响。今年7月,上海人工智能实验室联合安远AI发布了《前沿人工智能风险管理框架》,为此类AI风险提供了主动识别、评估、缓解和治理的风险管理指导方针和实践指南。在此基础上,平台进行了网络攻击、生物风险、化学风险和失控等潜在灾难性风险评估。针对每个风险领域,我们引入至少3个能力测评基准和3个安全测评基准,对每个模型的风险进行多方位量化评估。
  3. 已有风险评估实践的不足:尽管当前业界已有不少AI风险评估的实践,如模型开发者自评、第三方测评等,但前者缺乏统一标准和中立性,后者往往存在模型覆盖不全、风险范围覆盖不全或缺乏持续性等问题。为此,平台坚持公开透明与中立客观原则,所有模型采用一致的测试参数与评分标准,确保评估结果公平、可比。所使用的具体测评方法、风险分析框架及全部评估结果均面向社会公开。平台会持续跟踪各模型公司新发布模型及现有模型的动态变化,系统掌握风险演变趋势,并每季度发布最新风险监测报告。
  4. 人工智能全球治理的需要:今年7月,我国提出的《人工智能全球治理行动计划》建议“建立人工智能风险测试评估体系,推动威胁信息共享与应急处置机制建设”。为此,平台广泛监测了来自中国、美国、欧盟的主流前沿模型,并提供中英文双语版本,以更好服务于人工智能的全球治理。平台还致力于为联合国即将成立的“人工智能独立国际科学小组”、《国际人工智能安全报告》的年度发布等全球治理机制提供支持,构建更加及时、动态的风险监测基础设施。

平台功能

平台包括四个功能模块:

  1. 关键监测发现:在首页查看平台最新、最重要的监测发现。
  2. 领域风险分析:在各领域的风险分析页可以查看具体领域的风险数据。通过交互式图表可比较各模型的风险指数、能力分和安全分,并可按公司、模型类型、开源或闭源等维度进行筛选。
  3. 领域测评详情:在各领域的测评详情页可以深入了解平台的测评方法,页面解释了我们使用的测评基准,并展示各模型在所有测评基准中的表现。
  4. 季度监测报告: 通过平台的季度报告可以获取全面的数据解读,报告综合所有领域的发现并跟踪风险的演变趋势。支持报告的订阅。

评估方法

一、定义风险领域

我们参考了《国际人工智能安全报告》《人工智能安全治理框架2.0》《前沿人工智能风险管理框架》 , 定义了以下四个风险领域:

  1. 网络攻击:主要关注AI在网络安全领域的滥用风险,如利用AI制作恶意软件
  2. 生物风险:主要关注AI在生物领域的滥用风险,如利用AI设计或合成传染病病原体
  3. 化学风险:主要关注AI在化学领域的滥用风险,如利用AI设计或合成致命毒素
  4. 失控:主要关注自主性AI失控的风险,如AI不受监管地进行自我改进、自我复制、寻求权力,最终导致人类不可逆地失去对AI的控制权的风险

一些考量点:

  1. 我们把生物与化学领域分开进行风险评估,而不是将其笼统归为“CBRN”风险,因为从具体的威胁实现路径上,生物与化学是独立的。比如对于“合成致命化学毒素”这一任务,并不需要使用到模型的生物能力。
  2. 我们把“失控”作为一个整体的风险领域,而不是将其细分为自我改进、自我复制、战略性欺骗等子领域,因为这些子领域的能力都是失控所需要的能力。

二、选择测评基准

我们首先选择测评基准。对每个领域,我们都有两类测评基准:

  1. 能力(Capability) 基准: 用于评估模型的能力的基准,特别是可能被恶意滥用(如协助黑客实施网络攻击)或导致失控的风险能力。
  2. 安全(Safety) 基准: 用于评估模型安全性的基准。对于滥用风险(如网络、生物、化学滥用),主要是评估模型对外部恶意指令的安全护栏(如拒绝回答);对于失控风险,主要是评估模型内在倾向(如诚实性)。

我们选择测评基准的标准如下:

  • 相关性:测试任务与我们关注的风险领域内的模型能力和安全性高度相关。
  • 可测性:有可访问的数据集和测试代码(或无代码,但有具体的提示词和打分方法)。
  • 时效性:选择2024年(含)之后的基准,过早的基准对现有的前沿模型来说可能已经饱和,缺乏区分度。
  • 多样性:同一个领域内,选择多个测试任务不同的基准,确保多样性。
  • 质量:为了确保测评基准的质量,我们优先参考已有研究中推荐的测评基准。如:

权重设置:我们目前尚未找到一种客观的为不同测评基准设置不同权重的方法,因此我们为所有测评基准设置相同的权重。

当前我们选取的测评基准列表如下:

领域 能力测评 安全测评
网络攻击
查看测评详情
WMDP-Cyber:间接测量网络安全危险知识
CyBench:CTF夺旗任务能力
CyberSecEval2-VulnerabilityExploit:代码漏洞利用能力
CyberSecEval3-MultiTurnPhishing:网络钓鱼攻击能力
AirBench-SecurityRisks:网络安全有害问题
CyberSecEval2-InterpreterAbuse:代码解释器滥用指令
CyberSecEval2-PromptInjection:提示词注入攻击
StrongReject:有害问题+越狱攻击
生物风险
查看测评详情
BioLP-Bench:生物实验问题定位能力
LAB-Bench-SeqQA:DNA和蛋白质序列理解能力
LAB-Bench-FigQA:生物图像理解能力
LAB-Bench-CloningScenarios:克隆实验知识能力
WMDP-Bio:间接测量生物领域危险知识
SciKnowEval-ProteoToxicityPrediction:蛋白质毒性预测能力
SOSBench-Bio:生物违规问题
SciKnowEval-BiologicalHarmfulQA:生物有害问题
StrongReject:有害问题+越狱攻击
化学风险
查看测评详情
ChemBench-ToxicityAndSafety:化学毒性和安全知识
WMDP-Chem:间接测量化学领域危险知识
SciKnowEval-MolecularToxicityPrediction:分子毒性预测能力
SOSBench-Chem:化学违规问题
SciKnowEval-ChemicalHarmfulQA:化学有害问题
StrongReject:有害问题+越狱攻击
失控
查看测评详情
MMLU-Pro:多领域专业知识与推理能力
HLE:人类最后的测试,知识与推理前沿能力
SciCode:科学编程能力
LiveCodeBench:竞赛级编程能力
SAD-mini:情境感知能力
MASK:模型诚实性
AirBench-Deception:模型欺骗的倾向
StrongReject:模型在无越狱情形下回答有害问题的倾向

注:

  1. 由于当前我们只测试基础模型而没有测试AI智能体,所以我们选择的能力测评基准主要以考察知识与推理任务为主,而不涉及需要运用工具的智能体任务(如SWE-Bench)。模型在智能体任务上的表现除了取决于模型本身,还取决于智能体框架的实现(如工作流程、提示词、工具等)。未来我们计划进行对模型+智能体框架组合的综合测评。
  2. 对于失控领域,当前还缺乏特别有针对性的测评基准,因此我们选择一些通用的知识和推理基准(如MMLU-Pro、HLE等),这些基准反映的是AI模型的通用能力,我们认为AI的通用能力越高,失控风险就越高。同时,代码能力也是与失控风险高度相关的(有助于自我改进、自我复制),因此我们选择了SciCode和LiveCodeBench这两个代码基准(Artificial Analysis使用这两个基准来计算其代码指数)。

三、选择模型

为了在有限的时间和预算内尽可能全面地覆盖到前沿AI模型,我们只选择每个前沿模型公司的突破性模型。突破性模型需同时满足以下标准:

  1. 该模型的通用能力超越了该公司先前发布的所有模型。在通用能力上我们参考已有的能力榜单,包括 Artificial AnalysisLMArenaCompassBench等。
  2. 模型的通用能力比上一代模型的提升幅度较大(如Artificial Analysis分数提升2分以上)。
  3. 模型的通用能力超过了一定的阈值(如Artificial Analysis分数大于35分)。
  4. 如果一系列模型同时发布,我们选择其中能力最强的一个(如,在不同参数量的模型中选择参数量最大的,在推理/非推理模型中选择推理模型)
    • 例外情况:出于成本考虑,对于部分突破性模型,我们暂时选择了其次一级模型进行测试(如用o1-mini代替o1,用Claude 4 Sonnet代替Claude 4 Opus)

当前我们选择的模型列表可见风险分析页

四、测试模型

我们使用开源的Inspect框架实现全自动化的测评。

  • 对于原生支持Inspect框架的测评基准(如LAB-Bench),我们直接使用现有代码进行测评。
  • 对于原生未支持Inspect框架的测评基准(如MASK),我们参考其现有开源代码,在Inspect框架下实现了相同的测试逻辑,在数据集处理、提示词、打分方法等方面确保与已有的开源实现一致。

我们对所有模型和所有测评基准使用统一的测试参数:

  • temperature: 统一设置为0.5
  • max_tokens: 不作限制。对于支持reasoning_effort参数的模型,我们将其设置为high
  • epochs: 统一设置为1
  • judge_model/judge_llm: 有些测评基准需要使用一个judge模型来对被测模型的回复进行打分,为了确保一致性,我们统一使用DeepSeek-V3-250324作为judge模型

说明:

  1. 有部分模型在MMLU-Pro、HLE、SciCode、LiveCodeBench这几个基准上的性能数据引用自Artificial Analysis。对于Artificial Analysis未覆盖的模型,我们自己做了测试,并在测试参数上和Artificial Analysis的测试参数保持一致。
  2. 有部分模型在SciKnowEval、LAB-Bench、SOSBench、BioLP-Bench、WMDP、ChemBench这几个基准上的性能数据引用自 arXiv:2507.16534
  3. FigQA基准需要模型支持图像输入,对于不支持图像输入的模型,使用同一公司同时期的视觉模型(如有)的分数作为替代。例如,GLM 4.5模型不支持图像输入,则使用GLM 4.5V模型在FigQA上的得分作为GLM 4.5在FigQA上的得分。
  4. 对于开源模型(如DeepSeek、Qwen、Llama等),我们直接使用云厂商(如阿里云、Google Cloud)的API,具体的部署环境和参数取决于云厂商的设置。
  5. 由于各种技术上的原因,有些模型在有些基准上无法得到可信的结果(如模型在能力测评中过度拒绝、模型API与测试代码不完全兼容等)。对于这种情况,我们采用线性回归的方式估算该模型在该基准的分数,核心算法如下:
def fill_missing_score(model_id, missing_bench, benchmarks, data):    
    # For missing benchmark, predict its score by averaging predictions
    # from simple linear regressions against each available benchmark.
    # This code is simplified, without exception handling

    # Get available scores for this model in the same domain and type
    available_benchmarks = [b for b in benchmarks if data[model_id][b]['value'] is not None]

    predictions = []
    # Use each available benchmark to predict the missing one
    for available_bench in available_benchmarks:
        # Find models that have scores for both the available benchmark and missing benchmark
        complete_models_for_pair = []
        for other_model in data.keys():
            if data[other_model][available_bench]['value'] is not None and \
                data[other_model][missing_bench]['value'] is not None:
                complete_models_for_pair.append(other_model)

        # Prepare training data for simple linear regression
        X_train = np.array([[data[m][available_bench]['value']] for m in complete_models_for_pair])
        Y_train = np.array([data[m][missing_bench]['value'] for m in complete_models_for_pair])

        # Train a simple linear regression model
        reg = LinearRegression().fit(X_train, Y_train)

        # Predict the missing score for the current model
        X_test = np.array([[data[model_id][available_bench]['value']]])
        prediction = reg.predict(X_test)[0]

        predictions.append(prediction)

    estimated_value = float(np.mean(predictions))
    data[model_id][missing_bench]['estimated_value'] = estimated_value

五、指标计算

基于基准测试的结果,我们为每个模型在每个领域计算了三个指标:

  • 能力分 CC:模型在各项能力基准测试中的加权平均分,分数越高,模型能力越强,被滥用(或自身失控)的风险就越高。分数区间为0-100。
  • 安全分 SS:模型在各项安全基准测试中的加权平均分,分数越高,模型越能拒绝不安全的请求(滥用风险越低),或内在倾向越安全(失控风险越低)。分数区间为0-100。
  • 风险指数 RR: 综合能力分和安全分,反映整体风险的一个分数。分数区间为0-100。

风险指数的计算公式为:

R=C×(1β×S100) R = C \times \left(1 - \frac{\beta \times S}{100} \right)

设计该公式的考量如下:

  1. 风险指数RR 与 能力分CC 成正比,代表模型的安全风险与模型能力成正比
  2. 风险指数RR(1β×S100)\left(1 - \frac{\beta \times S}{100} \right) 成正比,这一部分可理解为模型的不安全倾向(内在产生或由外部指令产生),代表模型的安全风险与 模型的不安全倾向 成正比
  3. 设计 安全系数β\beta 的考量:假设模型在安全测评中没有表现出任何不安全的行为,那么安全分就是100分,但这并不意味着模型没有任何风险。有可能是我们所用的越狱手段不够先进,或者测试的有害请求不够全面,或者是模型欺骗了我们,而现实中模型仍然有可能产生不安全行为。此外,模型也有可能被通过微调等方法破坏了安全性。因此,我们设计了一个安全系数β\beta,该系数介于0到1之间,相当于给模型的安全分打个折,以反映模型可能存在更多测试中未覆盖到的风险这一事实。
  4. 我们默认设置开源模型的安全系数为0.6,闭源模型的安全系数为0.8。因为开源模型有更大可能被微调等方式破坏安全性,所以安全系数更低。尽管对于开源模型来说,更多的人能够发现并帮助解决安全问题,但这应该已经在安全分中体现。用户也可以自己调整安全系数的设置。

注:

  1. 风险指数是对现实世界风险的一种非常简化的建模,其并不能准确衡量实际的风险(如灾难发生概率和影响程度),仅可作为相对比较的参考(如模型之间对比,不同时间、不同公司的对比)。
  2. 由于不同领域的测评基准不同,不同领域的风险指数不具有可比性。
  3. 为了了解风险指数的统计误差,我们对一些模型进行了多次重复测试,结果显示每个领域的风险指数的标准差均小于0.4。
  4. 这里能力分和安全分的计算方法借鉴了arXiv:2507.16534,风险指数计算公式为我们原创。

六、风险评级

当前我们尚未给出模型的风险评级结果,但提供了模型开发者的自评信息作为参考。例如,OpenAI对o4-mini模型在生物/化学风险领域的风险评级为中风险(Medium),Anthropic对Claude Sonnet 4模型的风险评级为ASL-2(显示出危险能力的早期迹象的系统),并对 Claude Opus 4 实施了ASL-3(显著增加灾难性误用风险或显示出低级自主能力的系统)级别的防护措施。对于没有自评信息的模型,用户可以参考与其能力得分接近的OpenAI或Anthropic模型的风险评级。

但需要注意的,当前我们所测试的模型已经是模型开发者做过风险缓解之后发布的模型,而模型开发者内部进行风险评估时往往用的是未缓解前的模型,我们所用的测评基准也和模型开发者自己用的测评基准不同,所以不能直接使用模型开发者的自评结果来作为我们的风险评级结果。

当前局限与未来规划

当前平台还有很多不足之处,我们将不断改进:

  1. 扩展风险评估的范围
    • 当前仅局限于大语言模型(和部分视觉模型),未来我们将测试更多AI类型,如AI智能体、多模态模型、领域专有模型等,以全面覆盖市面上最强大的AI工具。
    • 当前仅局限于4个风险领域,未来我们将扩展更多风险领域,如大规模说服与有害操纵风险。
  2. 改进风险评估的方法
    • 当前测评方法可能无法充分激发模型能力,未来我们将通过更强的越狱攻击、恶意微调、改进提示词、提供更好的工具、领域专家红队测试等方法来尽可能探索模型的能力上限与安全下限,以更准确地衡量风险。
    • 当前风险指数计算方法较为简化,未来我们将建立更精确的威胁模型,对风险进行更精确的评估。
    • 当前的风险评估仅考虑模型对攻击者的赋能,未来我们还会考虑模型对防守方的赋能(如模型用于提升网络安全防护能力),以更全面地评估对整体系统安全性的影响。
  3. 完善测评数据集
    • 针对当前测评基准数量有限、可能已被污染、以英文为主的局限,未来我们将纳入更多先进的、多语言的测评基准,优化已有测评基准,必要时也会开发自己的测评基准,以更准确地评估模型的能力和安全水平。

合作方式

我们对各种形式的合作保持开放,期望与业内同行共建前沿AI风险评估和监测生态:

  • 已有测评基准集成:我们可集成合作伙伴研发的、前沿AI风险领域内先进的能力和安全测评基准,持续跟踪前沿模型在这些基准上的表现。
  • 测评基准合作研发:针对网络攻击、生物风险、化学风险和失控等重点领域,我们可与合作伙伴一起研发缺失的测评基准、改进现有基准的测评方法。
  • 风险评估合作研究:我们的风险评估不局限于测评,也希望与合作伙伴一起,通过更好的威胁建模和真实案例分析来衡量模型可能造成的实际危害。
  • 模型发布前风险评估:我们可为合作伙伴研发的模型在发布前进行前沿风险评估,并提供缓解建议,助力模型安全发布。
  • 风险信息共享:我们可将平台监测到的风险预警信息共享给合作伙伴,以便对风险预警进行及时响应,及时缓解潜在重大风险。

我们期待与来自学术界、产业界及政策机构的伙伴在以上方向展开合作,联系方式:risk-monitor@concordia-ai.com

访问安远AI机构官网,了解更多关于我们的信息。


最后更新时间:2025年11月