标签: 推理

GRPO 过时了吗?

GRPO 过时了吗?

智谱在 6 月 13 日开源的 744B 参数模型 GLM-5.2,在长程强化学习阶段放弃了开源社区广泛使用的 GRPO 算法,转向带价值网络的 PPO。这一技术选择,第一次把“GRPO 在长程任务上不适用”这个业界传闻,摆在了公开且可复现的技术博客里。

中国科学家在其真正的“数字孪生”PC 内的基于虚拟光的计算机系统上运行人工智能程序 – 你无法获得比这更多的元数据(感谢 Inception)

中国科学家在其真正的“数字孪生”PC 内的基于虚拟光的计算机系统上运行人工智能程序 - 你无法获得比这更多的元数据(感谢 Inception)

中国研究团队开发出一套名为 DT-OCS 的数字孪生光学计算系统,在虚拟环境中完整模拟真实光计算硬件的输入输出行为,并成功在其上运行了图像分类和序列决策等 AI 任务。这意味着,科研人员可以不再被昂贵的物理光计算设备排队问题所困,而是在数字副本中完成训练和优化,再直接迁移到真实硬件上运行,准确度高度一致。

Show HN: Tiny——一款用 Go 语言编写、内联了 Go 本机函数的字节码虚拟机

Show HN: Tiny——一款用 Go 语言编写、内联了 Go 本机函数的字节码虚拟机

开发者 confh 在 Hacker News 上发布了 Tiny,这是一款用 Go 语言编写的字节码虚拟机及其配套编程语言,它结合了动态语言的开发速度和内置 JIT 编译能力,旨在为并发编程提供高性能运行环境。其最引人注目的特性是直接通过“内联 Go 本机函数”将 Go 语言的底层能力暴露给上层脚本,在 L…