阿里提出强化学习新算法 GSPO 阿里为持续拓展强化学习,提出了 Group Sequence Policy Optimization (GSPO) 算法。相较于 GRPO,GSPO 具有训练效率高、稳定性出色、对基础设施友好等优势

添加新评论