小模型大突破!7B碾压o1数学推理,逼近全美TOP20%学生,微软华人四步进化法引轰动
导读本文——Logic-RL——立足于合成的“骑士与叛徒”(Knights & Knaves, K&K)逻辑推理集,通过 REINFORCE++ 算法及格式化奖励与答案奖励相结合的严格规则设计,探索并验证了在仅 5 000 道合成逻辑题上进行少量训练即可获得超出训练集的泛化推理能力。在此过程中,
