Posts

在前段时间基于VeRL的Search-R1仓库进行了一些Agentic Search相关的探索，也算是通过一些实践来积累了一点Agentic RL的基本常识。之前朋友推荐了几个帖子来讨论了pg_loss在训练开始时为0的分析，自己阅读之后发现过去对于Agentic RL的理论推导还有些生疏，借此机会重新梳理一下。

Posts

DeepSeek-V4技术报告（一）

Loss in Agentic RL