DeepSeek-V4技术报告(一)

我们从DeepSeek V4的技术报告出发,以此为蓝本来查漏补缺,并进一步建立相关知识储备。万丈高楼,始于平地。

2026年5月17日

Loss in Agentic RL

在前段时间基于VeRL的Search-R1仓库进行了一些Agentic Search相关的探索,也算是通过一些实践来积累了一点Agentic RL的基本常识。之前朋友推荐了几个帖子来讨论了pg_loss在训练开始时为0的分析,自己阅读之后发现过去对于Agentic RL的理论推导还有些生疏,借此机会重新梳理一下。

2026年5月10日