阿里提出强化学习新算法 GSPO 阿里为持续拓展强化学习，提出了 Group Sequence Policy Optimization (GSPO) 算法。相较于 GRPO，GSPO 具有训练效率高、稳定性出色、对基础设施友好等优势