俄罗斯方块、推箱子、2048…AI为何卷起了小游戏? 大模型最新评测方式,竟然是让它们玩各种怀旧小游戏!DeepSeek上榜,o3-pro断层领先……这个Benchmark叫Lmgame,出自UCSD的Hao AI Lab 2025/06/22 mmexport1750599440823.mp4