标签: Anthropic

OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 在 6 月 18 日发布研究成果,发现通过强化学习在单一领域(如健康)训练模型的“有益特质”(诚实、可纠正性、透明等),能显著提升模型在数十个无关领域的对齐表现,且这种改进在对抗性攻击下依然保持稳定。

MCP 零接触 OAuth

MCP 零接触 OAuth

MCP 协议正式推出 Enterprise-Managed Authorization 扩展,允许企业通过 Okta 等身份提供商集中管理所有 MCP 服务器的访问权限,用户只需一次登录即可自动获得授权,彻底消除此前每个服务器都要单独 OAuth 验证的摩擦。

白宫与Anthropic的对话转向制定人工智能安全规则

白宫与Anthropic的对话转向制定人工智能安全规则

美国白宫正在与Anthropic讨论建立一套标准化框架,用于评估AI模型安全漏洞(行业俗称“越狱”攻击)的严重程度,并据此决定政府是否需要干预。这是针对此前因Anthropic拒绝主动下架被指有安全漏洞的最新模型后,美国政府强制实施出口管制的一次政策转向——双方开始从冲突走向标准共建。

Ask HN: 你们团队是如何管理MCP服务器的?

Ask HN: 你们团队是如何管理MCP服务器的?

Hacker News 上开发者正在热议如何在实际团队中管理 MCP(模型上下文协议)服务器,暴露出这一新兴工具在部署、权限、版本控制和安全方面的管理空白,值得关注是因为 MCP 正成为连接大模型与企业数据的关键桥梁。

白宫正在实时制定人工智能规则

白宫正在实时制定人工智能规则

因出口管控争议,白宫要求 Anthropic 下线其最先进的 AI 模型 Claude Mythos 和 Fable 5,并禁止外国公民访问。这一事件暴露了美国在缺乏明确 AI 法规的情况下,政府正以“实时拍板”的方式处理前沿技术安全问题。