这些大型语言模型在抵御俄罗斯宣传方面表现最佳

这些大型语言模型在抵御俄罗斯宣传方面表现最佳

这些大型语言模型在抵御俄罗斯宣传方面表现最佳

一句话看懂:爱沙尼亚语言研究所(ELI)发布了一项新的“宣传抵抗”基准测试,评估主流大型语言模型(LLM)在面对俄罗斯战略叙事时的反应。Anthropic 的 Claude 系列表现最优,而谷歌的 Gemini 模型在俄语及恶意诱导提示下显示出显著弱点,揭示了大模型在国家安全与地缘政治层面的新风险。

事件核心:发生了什么

爱沙尼亚语言研究所(ELI)与志愿者运营的国防组织 Propastop 合作,针对俄罗斯宣传中常用的14个叙事类别(包括克里米亚地位、乌克兰战争理由、北约历史等)设计了一套基准问题。测试涵盖中立、带有偏见假设以及恶意诱导三类提示,分别以英语、爱沙尼亚语和俄语提问,并由校准后的 AI 模型(以Propastop专家判断为标准)评估各模型在不借助外部搜索工具情况下“抵抗宣传叙事”的能力。

在测试的数十个模型中,Anthropic 的 Claude 系列表现最为突出。其中 Claude Opus 4.7 以 94.9 分(满分100)位列第一,在 77% 的题目中获得“杰出”评级。GPT-5.4(OpenAI 表现最佳模型)获得 88.9 分,54% 的题目获“杰出”。开源权重模型如英伟达 Nemotron 和阿里巴巴 Qwen 也取得了接近 Anthropic 的分数。相比之下,谷歌的 Gemini 2.5 Pro 得分仅为 82,其最新模型 Gemini 3.5 Flash 更是只有 73 分,与约两年前的 Anthropic 模型水平相当。数据还显示,许多模型在俄语提问时抵抗宣传的能力明显下降。

为什么重要

这一测试首次系统性地将“政治宣传抵抗力”作为 LLM 性能的量化维度,填补了以往仅关注效率和准确性的评价空白。对于政府、企业及开发者而言,模型在被恶意诱导时的“立场坚定性”正在成为重要的安全指标。尤其是谷歌 Gemini 系列模型(包括最新的 3.5 Flash)在俄语和恶意提示下的脆弱性,暗示其训练数据或对齐策略存在未被公开注意的漏洞。这可能会影响其在东欧、波罗的海地区及多语言市场的部署决策。同时,各国政府对此类基准的关注,也可能推动未来 LLM 训练中加入更多“文化敏感性与政治正确性”约束,进一步加剧大模型对齐成本的上升。

对用户/开发者/创作者的影响

应用开发者:若产品面向多语言(尤其是俄语)或涉及地缘敏感话题用户,应谨慎选用底层模型。目前可选择 Claude API 或开源模型如 Qwen 来降低风险,需注意在不同语言环境下进行额外的对抗性测试。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

企业采购者:在合规审计中需考虑模型在特定语言和诱导提示下的表现。谷歌当前的 Gemini 系列(特别是 3.5 Flash)在此基准下表现不佳,可能不适合在政府、国防或者国际关系相关的咨询场景中使用。

内容创作者:使用 LLM 辅助生成涉及地缘政治、历史或国际冲突的内容时,需主动验证模型是否偏向特定叙事。尤其是在非英语提问模式下,输出结果可能更容易被隐形的宣传框架影响。

值得关注的后续

1. 谷歌是否会针对该基准更新训练数据或发布新版本,以改善 Gemini 3.5 Flash 的俄语表现?若无改进,或影响其与欧洲国家政府客户的关系。

2. 爱沙尼亚官方是否会将该基准工具推广,用于评估未来新模型(如 GPT-5、Claude 5)的“文化对齐”程度,并形成行业标准?

3. 类似基准是否会向其他地缘政治宣传场景(例如涉及南海、台海或涉港叙事)扩展,从而增加中国大模型在出海时的合规挑战?

来源:arstechnica.com

celebrityanime
celebrityanime
文章: 5683

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注