如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-23 00:25:11
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-19 22:55:11postgres集群的选择?
- 2025-06-19 22:40:11如何评价湖北省?
- 2025-06-19 21:30:11华为官宣鸿蒙 HarmonyOS 5.1 将于 7 月开启升级,对此你怎么看?会选择第一时间升级吗?
- 2025-06-19 22:20:11python的包管理器uv可以替代conda吗?
- 2025-06-19 21:50:11为什么水泥封不住尸臭?
- 2025-06-19 22:55:11为什么日本人口密度这么大还能住一户建,中国只能住楼房?
- 2025-06-19 22:10:11为什么bilibili后端要用go来写?
- 2025-06-19 22:10:11跨平台GUI框架到底应该自绘还是原生控件绑定?
- 2025-06-19 22:50:11想知道德普怎么看上艾梅柏·希尔德的?
- 2025-06-19 21:30:11吴彦祖疯狂接代言被猜缺钱,卖完英语课又代言黄酒,他是真的缺钱还是有其他考量?
推荐产品
-
杨幂论文一年间 AI 率从 0 飙至 91%,为什么会这样?AI 查重到底有没有统一标准?
结论:现在市面上的所有AI查重工具都不靠谱。 尤其是有个怪现 -
《三体》的文笔很差吗?
昨天重新翻了一下死神永生,贴一段每次读都起汗毛倒竖的: “ -
请问有人能估计一下 go 相比 php 在不同用户量下能省多少钱吗?
用webman重写了公司老旧的TP项目,管理后台这种几乎也没 -
有哪些是你用上了mac才知道的事?
M芯的mac出来后,被果粉日常称为大火炉的Intel芯片的m
最新资讯

