如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-19 20:55:11
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-27 23:00:11作为资深Mac用户,有哪些你相见恨晚的软件值得推荐?
- 2025-06-27 23:35:11能否对比一下Claude Code和Gemini CLI,你的选择建议是?
- 2025-06-28 00:35:11搞了NAS之后去哪里下载4K,8K的电影?
- 2025-06-28 00:25:11一般爱去山姆会员店逛的,都是什么人?
- 2025-06-28 00:05:11女子独居真的很危险吗?
- 2025-06-28 00:30:11做网页开发时,允许用户输入url图片地址来作为自己的头像有什么风险?
- 2025-06-27 23:35:11为什么人到中年,很少有身材苗条的?
- 2025-06-28 00:40:11你卡过最厉害的bug是什么?
- 2025-06-27 23:35:11浏览器解析Html一般是边下载边渲染么?如果是边下载边渲染的话,Html又使用GZIP格式传输,如何能够做到没有完全下载就可以渲染的呢?
- 2025-06-28 00:45:10为什么 Bun 选择了 Zig 以及 JSCore?
推荐产品
-
如何评价“寡姐”斯嘉丽·约翰逊的身材?
前两年有个电影叫……皮囊之下 话说评分还是很高的,这里面 -
为什么当今 Web 应用不都***用 WebSocket 形式进行数据交互?
答案是没必要,HTTP协议适用于绝大多数的应用场景,而且实现 -
你为什么在日常生活中不敢穿的太漂亮?
嗨呀,作为一个日常上班的社畜这题包会的,上班就没必要区浪费那 -
如何评价《一人之下》722(765)话?
说实话,这种留悬念的方式有时候真的挺烦人的,不到下一话,谁也
最新资讯

