o1mini 疑似降智了，以及其他模型的数学测试

陈霜希

最近 openai 真不太行啊，o1mini 本周周末表现极差，为了卖 o1Pro ？

用的 api 站最近两周连续调价 2 波，并上架逆转使用的请求方式，按次数收费

现在的价格

o1mini 补全 $0.034 / 1K tokens

o1mini 按次请求$0.08 / 次

这是 api 站的计价方式，不是 CNY-USD 的汇率价格，最低充值的一档 5$-10.62cny

今天又调价了，拿来写数学作业，o1mini惰性非常强了，相当于直接拒绝回答

上次看这种情况还是今年上半年的文心 4,（百度的文心一言也降智了）

o1mini 的情况

https://imgur.com/374oIl0

https://imgur.com/NwzDPyR

没得用，只能去使用 deepseek 和 kimi 数学来解决的废物数学能力

deepseek 的思维链看起来傻傻的，很可爱的样子

deepseek 推理速度和花费 token 数比 o1mini 表现很差，但是结果大多是正确的，解数学的正式回复部分表现极差，论解答结果就是比 4turbo 时代的各类 GPT 强。而思维链可能存在不相干的解答过程。且部分情况下公式显示混乱。

kimi 那边，直接把思维链当解答过程，不做对于其他模型来说的正式回答，且存在英文回复的状况，实际上测能力就是一道高中的平面向量题（靠着这道题测出来 kimi 的数学版其实是思维链）。

但是 kimi 的思维链过程很棒，确实可以拿来看。而且对于现时代的两个思维链 gpt ，kimi 的数学有更为完善的计算过程。

kimi 的数学模型的特色是听话。o1 和 deepseek 模型及其 GPT4 时代的模型解数学，解答错了，找到错误地点后纠正，不听话（仍然算错）。对于思维链的模型，大部分情况直接反驳了你的更正。

豆包的搜题模型使用了 api ，去调取解析，用豆包模型优化一下过程。而小猿搜题那边为了推自己的 AI 和视频讲解，最近一个月感觉下掉了大量题目解析（不在结果一，甚至结果二三都没有）。一样的题目，小猿这边找到与拍照相同的结果都难，找到的结果，甚至没有解析。豆包那边一次搜准，并附带解析。小猿的 ai 同样也是解析优化、部分时候是推理，但是速度慢，并且非常不听话，有题目检测错的情况。

说点别的

api 站的讨论群里，一直有人在用 4o 去解数学和编程，我很好奇究竟是谁传出去 4o 的推理能力比 4turbo 强的？之前测得 4o 推理能力还没有国产模型强。

o1mini 疑似降智了，以及其他模型的数学测试

Report Page