如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-20 21:45:10
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-25 19:15:11热干面吃起来怪怪的,是只有武汉人才会喜欢热干面吗?
- 2025-06-25 18:40:11为什么小男孩小时候要比小女孩难养好多?
- 2025-06-25 18:15:11亲眼见到明星本人是什么体验?
- 2025-06-25 18:50:11人常说女人味,到底是个什么味?
- 2025-06-25 18:50:11“看不起印度,仅仅因为你是中国,而对于普通国家,印度已经是巨人”,这个观点你认同吗?
- 2025-06-25 18:45:12如何在漫展勾搭Coser?
- 2025-06-25 18:05:12启用哪一个DNS网速最快?
- 2025-06-25 19:25:11为什么CCTV-6总是能播一些连院线都上不了的电影?
- 2025-06-25 19:15:11微软 VS Code 1.101 发布,集成 MCP 协议,这对用户体验有哪些改变?
- 2025-06-25 18:40:11游泳给你带来哪些改变?
推荐产品
-
为何觉得《绍宋》的权谋与军事宛如儿戏一样幼稚,是我个人历史水平不足还是其他问题导致的?
权谋上先不谈 军事上我只说一个尧山之战 赵老九在军事上只做了 -
如何看待M4单核性能吊打9950x?
正好,我在写一个.net core的小服务程序,正好用手头的 -
你都见过什么样的电脑盲?
人在苏南某二本,计算机专业,这是大一时的一节C语言课,当时很 -
在中国有多少开发者使用Rust编程语言?
Helix editor 为 helix editor 写了
最新资讯

