这个厉害了,open AI刚刚发布最新版本在“人类最后的考试” 拿下26.6% 的高分

本帖于 2025-02-02 18:07:32 时间, 由普通用户 未完的歌 编辑

前两天刚发布的o3的最高版本得分才是13%。BTW,DS是9.4%。

=======================================================

顺便介绍一下“人类最后的考试”这套题。。

人类最后的考试(HLE)是一项全球性的合作项目,由来自 50 个国家 500 多所院校的近千名学科专家提供试题,其中大部分是教授、研究人员和研究生学位获得者。

由3,000 多道选择题和简答题,涉及从语言学到火箭科学、从古典文学到生态学等 100 多个学科

这一套题用来测试各种AI模型的水平,有两个分数,一个是准确性。一个校准错误。

准确性。所有前沿模型在人类上次考试中的准确性都很低,这凸显了在缩小当前法学硕士与专家级学术能力在封闭式问题上的差距方面还有很大的改进空间。

校准错误。鉴于人类上次考试的表现较低,应该对模型进行校准,认识到它们的不确定性,而不是自信地提供不正确的答案,表明虚构/幻觉。为了测量校准,我们提示模型提供从 0% 到 100% 的答案及其置信度%.

 

所有跟帖: 

这个是真的吗? -种西瓜- 给 种西瓜 发送悄悄话 (234 bytes) () 02/02/2025 postreply 18:08:47

目前看大概是这样的 -未完的歌- 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (258 bytes) () 02/02/2025 postreply 18:31:14

嗯,就是老黄的股票很难回到原位了。。 -种西瓜- 给 种西瓜 发送悄悄话 (0 bytes) () 02/02/2025 postreply 18:49:37

请您先登陆,再发跟帖!