这些大型语言模型在抵御俄罗斯宣传方面表现最佳

一句话看懂：爱沙尼亚语言研究所（ELI）发布了一项新的“宣传抵抗”基准测试，评估主流大型语言模型（LLM）在面对俄罗斯战略叙事时的反应。Anthropic 的 Claude 系列表现最优，而谷歌的 Gemini 模型在俄语及恶意诱导提示下显示出显著弱点，揭示了大模型在国家安全与地缘政治层面的新风险。

事件核心：发生了什么

爱沙尼亚语言研究所（ELI）与志愿者运营的国防组织 Propastop 合作，针对俄罗斯宣传中常用的14个叙事类别（包括克里米亚地位、乌克兰战争理由、北约历史等）设计了一套基准问题。测试涵盖中立、带有偏见假设以及恶意诱导三类提示，分别以英语、爱沙尼亚语和俄语提问，并由校准后的 AI 模型（以Propastop专家判断为标准）评估各模型在不借助外部搜索工具情况下“抵抗宣传叙事”的能力。

在测试的数十个模型中，Anthropic 的 Claude 系列表现最为突出。其中 Claude Opus 4.7 以 94.9 分（满分100）位列第一，在 77% 的题目中获得“杰出”评级。GPT-5.4（OpenAI 表现最佳模型）获得 88.9 分，54% 的题目获“杰出”。开源权重模型如英伟达 Nemotron 和阿里巴巴 Qwen 也取得了接近 Anthropic 的分数。相比之下，谷歌的 Gemini 2.5 Pro 得分仅为 82，其最新模型 Gemini 3.5 Flash 更是只有 73 分，与约两年前的 Anthropic 模型水平相当。数据还显示，许多模型在俄语提问时抵抗宣传的能力明显下降。

为什么重要

这一测试首次系统性地将“政治宣传抵抗力”作为 LLM 性能的量化维度，填补了以往仅关注效率和准确性的评价空白。对于政府、企业及开发者而言，模型在被恶意诱导时的“立场坚定性”正在成为重要的安全指标。尤其是谷歌 Gemini 系列模型（包括最新的 3.5 Flash）在俄语和恶意提示下的脆弱性，暗示其训练数据或对齐策略存在未被公开注意的漏洞。这可能会影响其在东欧、波罗的海地区及多语言市场的部署决策。同时，各国政府对此类基准的关注，也可能推动未来 LLM 训练中加入更多“文化敏感性与政治正确性”约束，进一步加剧大模型对齐成本的上升。

对用户/开发者/创作者的影响

应用开发者：若产品面向多语言（尤其是俄语）或涉及地缘敏感话题用户，应谨慎选用底层模型。目前可选择 Claude API 或开源模型如 Qwen 来降低风险，需注意在不同语言环境下进行额外的对抗性测试。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

企业采购者：在合规审计中需考虑模型在特定语言和诱导提示下的表现。谷歌当前的 Gemini 系列（特别是 3.5 Flash）在此基准下表现不佳，可能不适合在政府、国防或者国际关系相关的咨询场景中使用。

内容创作者：使用 LLM 辅助生成涉及地缘政治、历史或国际冲突的内容时，需主动验证模型是否偏向特定叙事。尤其是在非英语提问模式下，输出结果可能更容易被隐形的宣传框架影响。

值得关注的后续

1. 谷歌是否会针对该基准更新训练数据或发布新版本，以改善 Gemini 3.5 Flash 的俄语表现？若无改进，或影响其与欧洲国家政府客户的关系。

2. 爱沙尼亚官方是否会将该基准工具推广，用于评估未来新模型（如 GPT-5、Claude 5）的“文化对齐”程度，并形成行业标准？

3. 类似基准是否会向其他地缘政治宣传场景（例如涉及南海、台海或涉港叙事）扩展，从而增加中国大模型在出海时的合规挑战？

来源：arstechnica.com

这些大型语言模型在抵御俄罗斯宣传方面表现最佳