找回密码
 立即注册
金木棉
瑞丰国际
通宝
HH
迪拜皇宫
优博
澳门银河
金沙
亚洲
U18
搜索
查看: 100|回复: 4

[虚拟币资讯] NUS团队发布GameWorld基准,在34款浏览器游戏中评估多模态AI代理

[复制链接]

1941

主题

1万

回帖

9315

活跃

论坛元老

积分
51910

活跃会员热心会员推广达人

发表于 2026-4-17 18:55 | 显示全部楼层 |阅读模式
4 月 17 日(UTC+8),据 动察 Beating 监测,新加坡国立大学(NUS)团队发布 GameWorld,一个旨在标准化评估多模态大语言模型(MLLM)在视频游戏中作为通用代理能力的基准测试。该研究指出,尽管视频游戏提供了理想的闭环交互测试床,但现有评估常受限于操作接口不统一和人工启发式验证。 GameWorld 包含 34 款多样的浏览器游戏和 170 项任务,并为每个任务配备了基于游戏底层状态的可验证指标,以实现客观的结果评估。研究团队测试了两种代理接口:一是直接输出键鼠指令的「计算机使用(computer-use)」代理,二是通过语义解析在语义动作空间中操作的通用多模态代理。 在对 18 种「模型-接口」组合进行的大规模测试中,结果显示即便当前表现最好的 AI 代理,其游戏能力也远未达到人类水平。研究进一步暴露了游戏代理在实时交互延迟、上下文记忆敏感度以及动作有效性等方面的严峻挑战。相关论文及项目代码已在 Hugging Face 和 GitHub 公开。
长期合作收购多博论坛活跃

1037

主题

4万

回帖

3772

活跃

论坛元老

积分
196283

活跃会员热心会员灌水之王

发表于 2026-4-18 06:13 | 显示全部楼层
相关论文及项目代码已在 Hugging Face 和 GitHub 公开。
发表于 2026-4-18 10:33 | 显示全部楼层
NUS团队发布GameWorld基准,在34款浏览器游戏中评估多模态AI代理

478

主题

1万

回帖

3万

活跃

论坛元老

积分
45276
发表于 2026-4-18 12:32 | 显示全部楼层
虚拟币资讯还是非常有意思的了

478

主题

1万

回帖

3万

活跃

论坛元老

积分
45276
发表于 2026-4-18 12:32 | 显示全部楼层
一个人的精彩 发表于 2026-4-18 10:33
NUS团队发布GameWorld基准,在34款浏览器游戏中评估多模态AI代理

这个也是非常不错的内容的了
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|多博社区

GMT+8, 2026-4-24 05:02 , Processed in 0.040824 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.