(Claude, GPT, Gemini)简单测试各类大模型对一个枚举类问题的回答
Moreality's Blog问题
今天逛 linux.do 论坛的时候看到这样一个问题:
小李在纸上写了一个四位数A,把A的个位数字移到首位,得到另一个四位数 B,最后把A和B加起来得到和数C,并且C也是一个四位数。
已知A的各位数字之和是20,C的百位和十位数学分别是0和4。
那么C代表的四位数是?
正确答案应该是 8041.
刚好这几天 GPT 降智严重, 所以一直在对比 Claude, ChatGPT 和 Gemini Pro, 就用这个问题问了大概 7, 8 次各类模型, 看看都是如何回答的.

OpenAI GPT-4o
官网版本的 gpt4oPS: 用的 IP 是 Oracle 的 IP, 实测 difficulty 值是 4 位数 (ref: https://linux.do/t/topic/261968)
问了 10 次左右, 大约 7 次可以通过正确的写出 python code 并运行得到正确结果.

另外的三次就是类似这样的无 code 回复, 答案也大概率就是错的.

这个平台是之前一直合租的平台, 应该就是通过自己写了个镜像站来用多个 Pro 账号反代官网, 特征也很明显, 就是会用固定 IP 大量访问 GPT, 这一类的反代镜像站目前被 openai 限制的很严重, 我用的这个也因此停运了, 刚好在最后几天再通过这个问题测试一下.
- 第一次, 直接没有通过程序求解, 并得出了错误的答案

- 又尝试了几次, 勉强在写错五次程序后给出了正确结果

Claude 3.5 sonnet
同样的问题问了五次以上的 Claude 3.5 sonnet, 均通过正确的 JS 代码给出了答案和分析, 并且相比于 chatgpt, 还证明了答案的唯一性.

Gemini 1.5 和 Gemini-exp-1206
虽然 在 Chatbot Arena 上坐拥 rank1, 但是 Gemini 在这个问题的表现居然是三个模型里最烂的:
- 直接问原始问题, 无论是否加
code execution的选项, Gemini 系均不会给出代码和执行求解, 而是通过大量的文本分析试图找到答案, 并且 Gemini 对于中文的支持挺糟糕的, 如果不在 Prompt 中明确指定, 即使问题是中文也很有可能输出英文解答:

以下是模型的原始输出: (Gemini 1.5 pro 和 exp-1206 基本类似)
- 在 Prompt 中加入「通过运行程序给出答案」后, 回答精简了很多, 并且也可以通过写出 python 程序并执行找到答案:

但是, 多问几次后, 发现并不会每次都成功:

总结
就这道题的测试结果而言:
Claude 3.5 sonnet仍然是目前输出最快, 最稳定, 最准确的 coding 和 math 类模型.OpenAI GPT很明显有能力做到和 Claude 类似, 但是估计是对 IP 的要求过高, 导致输出很不稳定, 而且对于同一个 IP, 甚至会出现随机降智.Gemini虽然目前排名很高, 但是感觉还是名不副实…
Generated by RSStT. The copyright belongs to the original author.