初步了解强化学习的算法

初步了解强化学习的算法
llm后训练算法PPO、DPO、GRPO、DAPO、GSPO