(Claude, GPT, Gemini)简单测试各类大模型对一个枚举类问题的回答

(Claude, GPT, Gemini)简单测试各类大模型对一个枚举类问题的回答

Moreality's Blog

问题

今天逛 linux.do 论坛的时候看到这样一个问题:

小李在纸上写了一个四位数A,把A的个位数字移到首位,得到另一个四位数 B,最后把A和B加起来得到和数C,并且C也是一个四位数。

已知A的各位数字之和是20,C的百位和十位数学分别是0和4。

那么C代表的四位数是?

正确答案应该是 8041.

刚好这几天 GPT 降智严重, 所以一直在对比 Claude, ChatGPT 和 Gemini Pro, 就用这个问题问了大概 7, 8 次各类模型, 看看都是如何回答的.

OpenAI GPT-4o

官网版本的 gpt4o

PS: 用的 IP 是 Oracle 的 IP, 实测 difficulty 值是 4 位数 (ref: https://linux.do/t/topic/261968)

问了 10 次左右, 大约 7 次可以通过正确的写出 python code 并运行得到正确结果.

另外的三次就是类似这样的无 code 回复, 答案也大概率就是错的.

平台反代的 GPT-4o

这个平台是之前一直合租的平台, 应该就是通过自己写了个镜像站来用多个 Pro 账号反代官网, 特征也很明显, 就是会用固定 IP 大量访问 GPT, 这一类的反代镜像站目前被 openai 限制的很严重, 我用的这个也因此停运了, 刚好在最后几天再通过这个问题测试一下.

  1. 第一次, 直接没有通过程序求解, 并得出了错误的答案

  1. 又尝试了几次, 勉强在写错五次程序后给出了正确结果

Claude 3.5 sonnet

同样的问题问了五次以上的 Claude 3.5 sonnet, 均通过正确的 JS 代码给出了答案和分析, 并且相比于 chatgpt, 还证明了答案的唯一性.

Gemini 1.5 和 Gemini-exp-1206

虽然 在 Chatbot Arena 上坐拥 rank1, 但是 Gemini 在这个问题的表现居然是三个模型里最烂的:

  1. 直接问原始问题, 无论是否加 code execution 的选项, Gemini 系均不会给出代码和执行求解, 而是通过大量的文本分析试图找到答案, 并且 Gemini 对于中文的支持挺糟糕的, 如果不在 Prompt 中明确指定, 即使问题是中文也很有可能输出英文解答:

以下是模型的原始输出: (Gemini 1.5 pro 和 exp-1206 基本类似)

  1. 在 Prompt 中加入「通过运行程序给出答案」后, 回答精简了很多, 并且也可以通过写出 python 程序并执行找到答案:

但是, 多问几次后, 发现并不会每次都成功:

总结

就这道题的测试结果而言:

  1. Claude 3.5 sonnet 仍然是目前输出最快, 最稳定, 最准确的 coding 和 math 类模型.
  2. OpenAI GPT 很明显有能力做到和 Claude 类似, 但是估计是对 IP 的要求过高, 导致输出很不稳定, 而且对于同一个 IP, 甚至会出现随机降智.
  3. Gemini 虽然目前排名很高, 但是感觉还是名不副实…

Generated by RSStT. The copyright belongs to the original author.

Source

Report Page