AI数学神话破灭?美国奥数题揭示大模型的致命短板敢想科技说

AI数学神话破灭?美国奥数题揭示大模型的致命短板

3分钟 ·
播放数0
·
评论数0

今天咱们聊个有意思的话题AI到底会不会做数学题?最近有个研究可把科技圈炸开了锅,ETH Zurich等机构的MathArena团队用美国数学奥赛题给AI来了场摸底考试,结果您猜怎么着?顶级大模型全军覆没,最高得分才476!

这事儿得从3月26号说起。当时研究团队拿了2025年美国数学奥林匹克竞赛USAMO的六道证明题当考卷,让包括DeepSeekR1OpenAI o3mini这些当红炸子鸡在内的六个顶尖模型现场解题。每道题满分7分,结果最好的DeepSeek平均才拿2分,最差的直接考出208分的天才成绩要知道这可是人类投入数十亿美元研发的AI啊!

最逗的是这些AI还特别自信。它们给自己打分时能比人类评委高估20倍,明明解题过程漏洞百出,还非在答案框里写个显然成立。就像班里那个永远觉得自己能考满分,结果卷面全是红叉的学渣。

研究发现了三大致命伤第一是逻辑跳崖式推理,关键步骤直接标微不足道就糊弄过去第二是死脑筋,逮着错误方法往死里用第三更绝连自己写得对不对都判断不了。这就像让计算器做高考数学,按出来的答案自己都不知道靠不靠谱。

不过也有亮点。DeepSeekR1在解第四题时差点就全对了,题目是证明三角形里某个点是线段中点。虽然最后功亏一篑,但至少说明有潜力。其他模型就惨了,像OpenAI的o3mini在简单题能考93分,遇到新题型直接现原形合着平时都是背题啊?

评委们还发现个黑色幽默因为训练时总被要求把答案放方框里,AI们现在见着数学题就自动找框,哪怕题目根本没这要求。有个模型硬把所有偶数的答案改成单独一个数字2,活像强迫症患者非要把彩虹涂成单色。

这事儿给我们什么启示?现在的AI就像只会背范文的考生,遇到没见过的题目就抓瞎。真正的数学思维需要创造性推理,而不仅是数据堆砌。不过老田觉得也别太悲观,当年AlphaGo不也是从背棋谱开始,最后青出于蓝的嘛。

最后说个细思极恐的细节这些模型在代数计算上其实很强,说明它们不是笨,而是没理解数学的本质。就像会用公式却不懂原理的考生,永远成不了数学家。所以下次看到AI解数学题的新闻,您可得留个心眼它可能只是在表演最强大脑的魔术呢!