o1mini 疑似降智了,以及其他模型的数学测试
陈霜希最近 openai 真不太行啊,o1mini 本周周末表现极差,为了卖 o1Pro ?
用的 api 站最近两周连续调价 2 波,并上架逆转使用的请求方式,按次数收费
现在的价格
o1mini 补全 $0.034 / 1K tokens
o1mini 按次请求$0.08 / 次
这是 api 站的计价方式,不是 CNY-USD 的汇率价格,最低充值的一档 5$-10.62cny
今天又调价了,拿来写数学作业,o1mini惰性非常强了,相当于直接拒绝回答
上次看这种情况还是今年上半年的文心 4,(百度的文心一言也降智了)
o1mini 的情况


没得用,只能去使用 deepseek 和 kimi 数学来解决的废物数学能力
deepseek 的思维链看起来傻傻的,很可爱的样子
deepseek 推理速度和花费 token 数比 o1mini 表现很差,但是结果大多是正确的,解数学的正式回复部分表现极差,论解答结果就是比 4turbo 时代的各类 GPT 强。而思维链可能存在不相干的解答过程。且部分情况下公式显示混乱。
kimi 那边,直接把思维链当解答过程,不做对于其他模型来说的正式回答,且存在英文回复的状况,实际上测能力就是一道高中的平面向量题(靠着这道题测出来 kimi 的数学版其实是思维链)。
但是 kimi 的思维链过程很棒,确实可以拿来看。而且对于现时代的两个思维链 gpt ,kimi 的数学有更为完善的计算过程。
kimi 的数学模型的特色是听话。o1 和 deepseek 模型及其 GPT4 时代的模型解数学,解答错了,找到错误地点后纠正,不听话(仍然算错)。对于思维链的模型,大部分情况直接反驳了你的更正。
豆包的搜题模型使用了 api ,去调取解析,用豆包模型优化一下过程。而小猿搜题那边为了推自己的 AI 和视频讲解,最近一个月感觉下掉了大量题目解析(不在结果一,甚至结果二三都没有)。一样的题目,小猿这边找到与拍照相同的结果都难,找到的结果,甚至没有解析。豆包那边一次搜准,并附带解析。小猿的 ai 同样也是解析优化、部分时候是推理,但是速度慢,并且非常不听话,有题目检测错的情况。
说点别的
api 站的讨论群里,一直有人在用 4o 去解数学和编程,我很好奇究竟是谁传出去 4o 的推理能力比 4turbo 强的?之前测得 4o 推理能力还没有国产模型强。