如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-18 05:10:09
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-22 07:40:10哪个ai写代码最强?
- 2025-06-22 08:35:11生完孩子身材依旧火辣是一种怎样的体验?
- 2025-06-22 09:10:10如何评价MiniMax开源首个视觉RL统一框架V-Triune,实现推理感知一肩挑,其技术上有何优势?
- 2025-06-22 08:10:10伊朗称袭击以色列「网络首都」,该地聚集英特尔、微软等多家高科技企业,伊朗为何选择这里?会造成哪些影响?
- 2025-06-22 08:30:10《捞女游戏》发售仅一天同时在线超 6330 人,如何看待游戏的销量?
- 2025-06-22 08:00:10在办公室用机械键盘是什么心里?
- 2025-06-22 08:05:10为什么Rust的包管理器Cargo这么好用?
- 2025-06-22 08:25:10中国的航空发动机现在是什么水平?
- 2025-06-22 08:10:10为什么 mac mini 的 m4 版本价格这么低呢?
- 2025-06-22 07:55:10如何使用hexo+github搭建华丽博客 ,类似***://codingxiaxw.cn/的博客?
推荐产品
-
Jetpack Compose 和 Flutter 应该先学哪个呢?
如果是初学者建议直接学Jetpack Compose,因为两 -
为什么 Android 和 iOS 渲染架构不一样,各有什么优劣势?
其实我觉得这个不应该是描述里的 「 SurfaceFling -
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最 -
目前适合落地的agent有哪些值得推荐的框架?
本文首发自个人博客 《万字长文分析 10 种流行 Agent
最新资讯

