这场大会的真正主角,或许不是某个产品,而是人类与这个“新物种”之间,正在被重塑的模糊边界#WAIC #世界人工智能大会 #机器人 2025/07/31 mmexport1753966446652.mp4
阿里提出强化学习新算法 GSPO 阿里为持续拓展强化学习,提出了 Group Sequence Policy Optimization (GSPO) 算法。相较于 GRPO,GSPO 具有训练效率高、稳定性出色、对基础设施友好等优势 2025/07/31 mmexport1753917920846.mp4