openai o1 有哥们体验吗？说说感受

44 条回复 • 2024-09-15 11:46:33 +08:00

1

ibazhx

79 天前

一周只能 30 次

2

zmxnv123

79 天前

听说擅长的方向是推理，比如做做奥赛什么的？，跟 claude 的使用场景不太一样

3

hardto

79 天前

推理吊打 claude ，感觉 o1-mini 吊打 o1

4

Avafly

79 天前

感觉就是话贼多, 一个回答能老长了看起来都费劲.
话说从 4o 开始回答就变得长了很多, 是不是以为字越多回答越有含金量啊.

5

haoji

79 天前

o1-preview 一个劲的给你分析，最后出结果，适合需要“解题过程”的场景

6

kai4tech111

OP

79 天前

@Avafly #4 是的 gpt 家族风格，应该和后期人工对齐有关

7

cherryas

79 天前

cot 是数学推理的必要方向这是楼下李奶奶都知道的事。强是强，也确实跨时代，但是本质就是 cot+agent ，其它模型半年内应该能追上来

8

kai4tech111

OP

79 天前

@haoji #5 有点像做数学题多写解题过程就能多拿分一样

9

kai4tech111

OP

79 天前

@ibazhx #1 看看公开的 api 价格就知道了，15$/1M input token, 60$/1M output token
（之前还听说要增加一个 pro 套餐才能用，看来还是太人道了）

10

kai4tech111

OP

79 天前

@cherryas #7 虽然大家都知道，但敢为先还是值得肯定的，不然都等着抄别人那就完了

11

yena

79 天前 via iPhone

出了一道补全至完全二叉树的题，还是做不出来

12

bhy

79 天前

@yena 能具体说说，或者分享下对话记录吗？

13

wweerrgtc

79 天前

肯定是比以前厉害不少, 但是和 claude 3.5 比, 我不知道, 只开了一个会员

看演示视频, 其实也是一些简单问题, 不是很复杂的

14

lunafreya

79 天前 via iPhone

但人家拿出了新的 Scaling Law, 把玄学变成了科学，至少是经验科学

15

wweerrgtc

79 天前

@bhy #12
chatgpt.com/share/66e3930f-1694-8013-bdeb-62849a73883b

16

kyro00000

79 天前

到底有 ai 能做有机化学题吗? 头疼..

17

otakustay

79 天前

@Avafly 因为 Transformer 注定了前文越准确生成就越准确嘛，话多不就是为了替用户你把前文补上

18

easyii

79 天前

那写代码的话是 Claude 好用还是 ChatGPT 现在是 ChatGPT 会员

19

meeop

79 天前

1

用我最喜欢的写 todolist 测试,和之前的 4o 差不多,但是因为新模型多了一个分析用户输入的步骤,自动扩展完善了我的 promot,todolist 自带了删除,划掉按钮,还有已完成的 todo 的过滤器

但是上述要求我并没有说

对于普通用户,这可能更好,输出效果变好
对于生产或者更专业的用户,这就有点坑了,ai 自动帮你脑补了你没要求的功能

20

lihanst

78 天前

@ibazhx poe 一个月只能用 30 来次..,

21

SLKun

78 天前

在做数学题方面感觉显著好于之前的所有模型就是太贵了

22

guanchayuan

78 天前

解答这题还不如 4o：

有 5 个重量都互不相同的箱子，每个的重量都小于 100 千克。将这些箱子两两组合在一起称重，得到的结果分别是：113 ，116 ，110 ，117 ，112 ，118 ，114 ，121 ，120 与 115 千克，请问最重的箱子为多少千克？

你们可以试试。

23

Hyxiao

78 天前

这玩意输出太猛了，我反复跟他强调几遍了，别给出这么多的信息，还是不肯改

24

wweerrgtc

78 天前

@guanchayuan #22
o1 给的答案：62.5 千克

正确答案是多少?

25

Avafly

78 天前 via iPhone

@otakustay 很多是没用的废话，比如把我的内容重复一次然后回答，莫名其妙附上一大段代码，以前不这样的。特别用了 claude 之后对比更强烈了。

26

HKzy

78 天前

摆烂了，俺们现在都用豆包

27

zmxnv123

78 天前

@guanchayuan 这题就不对啊，五个箱子分别重？

28

zmxnv123

78 天前

5 个箱子重量从大到小 x_1, x_2, x_3, x_4, x_5

x_1 + x_2 = 121
x_4 + x_5 = 110

29

zmxnv123

78 天前

x_1 + x_3 = 120,
x_5 + x_3 = 112,
x_1 + x_2 + x_3 + x_4 + x_5 = (重量和) / 4 = 289

解上面五个方程得到 54, 56, 58, 59,62

30

aiqinxuancai

78 天前

我感觉实际上他是对某个模型进行多次调用，实现类似 dify 多步工作流的处理方式。

比如：
第 1 次调用，拆分问题
第 2 次调用，针对拆分后的问题进行解答
第 3 次调用，纠正解答的中存在的问题并重新解答

再或者：
第 1 次调用，解决问题
第 2 次调用，指出解决方案中存在的问题
第 3 次调用，根据指出的问题再次解答

31

kai4tech111

OP

78 天前

@easyii #18 省流，claude

32

kai4tech111

OP

78 天前

@aiqinxuancai #30 是的有额外的推理过程，看他们的 api 介绍里就能发现，而且计费也包含这部分

33

guanchayuan

78 天前

@zmxnv123 你这个是哪个 AI 模型解答的。还是人工解答的。

34

h272377502

78 天前

@hardto 怎么个吊打 claude ，你比了啥，就得出这结论

35

ztmzzz

78 天前 via iPhone

1

o1 更新了训练数据，现在学到了 lean4 了，4o 只学到了 lean3

36

xuelang

78 天前

https://selfboot.cn/2024/09/13/gpto1_hands_on/
早上就把 preview 额度干完了。。试了下，代码和推理有一点提高，不过也没有和 Claude 拉开很大差距。
中文理解和生成，还得是 Claude3.5

37

piero66

78 天前

很强，有一定的思维能力，更接近懂点东西的真人的解题方式了

38

LanhuaMa

78 天前

@guanchayuan

```text
There are 5 crates, each has a unique weight less than 100kg. The crates are weighted in groups of two and the results obtained are 113, 116, 110, 117, 112, 118, 114, 121, 120 and 115 kg. What's the weight of the heaviest crate?```

```text
To solve this problem, we’ll need to find the unique weights of the five crates based on the sums of all possible pairs. Here’s a step-by-step explanation:

Step 1: List the given sums and identify the smallest and largest sums.

...

Conclusion:

The weights of the crates are:

• a = 54 kg
• b = 56 kg
• c = 58 kg
• d = 59 kg
• e = 62 kg

Answer: 62 kg

```

鸡巴啰嗦了一大堆最后总算是解出来了，就这题的表现来看确实不如 gpt4o 。

39

guanchayuan

78 天前

@LanhuaMa 我用中文没解出来，英文可以？那下次是不是可以先翻译，然后用英语来解数学题？

40

LanhuaMa

78 天前

@guanchayuan 我日常问 gpt 都是英文的，中文 gpt 感觉有点唐，不敢让他指导我写代码...

图省事可以让 GPT 先把你上一句话翻译一遍，然后叫他根据翻译的内容用英文输出，这样也能取得类似英文的质量的

41

NiaoBlush

78 天前 via iPhone

搜了好几道题目分别用 4o 和 o1 试了下，大多数给的答案是对的，以下是一道给出答案不一样的：

题目：一个人在林中散步时，无意中听到了几个强盗在商量如何分赃。强盗们说，如果每人分 6 匹布，则剩余 5 匹；如果每人分 7 匹布，则少 8 匹。请问：共有几个强盗？几匹布？

4o 给的答案：设共有 $ x $ 个强盗，布匹总数为 $ y $。

根据题意，列出以下方程：
1. 每人分 6 匹布，剩余 5 匹：即 $ y \equiv 5 \pmod{6} $，表示 $ y = 6x + 5 $。
2. 每人分 7 匹布，少 8 匹：即 $ y \equiv -8 \pmod{7} $，也就是 $ y \equiv -8 + 7 = -1 \equiv 6 \pmod{7} $，表示 $ y = 7x - 8 $。

于是我们有两组同余条件：
\[
y \equiv 5 \pmod{6}
\]
\[
y \equiv 6 \pmod{7}
\]

通过解这组同余方程，可以求出总共有多少强盗以及多少匹布。根据求解得出，最终答案为：
**总共有 59 匹布，9 个强盗**。

o1 给的答案：

42

NiaoBlush

78 天前 via iPhone

接上面，o1 给的答案：**答案：**

共有 **13** 个强盗，**83** 匹布。

---

**解题过程：**

设强盗人数为 $ x $，布的总数为 $ y $。

1. **每人分 6 匹布，剩余 5 匹：**

\[
y = 6x + 5 \quad \text{（ 1 ）}
\]

2. **每人分 7 匹布，还差 8 匹：**

\[
y + 8 = 7x \quad \text{（ 2 ）}
\]

3. **解方程组：**

将方程（ 1 ）代入方程（ 2 ）：

\[
6x + 5 + 8 = 7x \\
6x + 13 = 7x \\
7x - 6x = 13 \\
x = 13
\]

4. **求布的总数：**

将 $ x = 13 $ 代入方程（ 1 ）：

\[
y = 6 \times 13 + 5 = 78 + 5 = 83
\]

**结论：**

共有 **13** 个强盗，**83** 匹布。

43

assassing

77 天前

1

怼了两天把额度用完，结论是在编程方面不如 GPT-4 。注意不是 4o ，这个 o1 像在 4o 路线上演变出来的。o1mini 回答大概率和 o1 一模一样，不用纠结他们之间的区别。

特点 1：输出超长，但如果持续对话会发现它经常重复前面回答过的内容。生成代码方面会有优势，以前代码要分多次输出，有时会中断，现在不担心这个问题。当然我还没来得及考察代码质量。

特点 2：输出稳定，多次问同一个问题，回答大概只有 10% 不同，如果应用在图像生成上会很有用。但由于幻觉依旧，也就是你的问题它给你错误回答，重复问它还是给你同样的错误答案，而不像以前重新生成会有改观。

特点 3：有所保留，这点从 4o 开始感受明显。就像一个高中数学老师被调任教小学，你问它初中数学知识，它反复给你讲解小学数学概念。只有在追问 5 轮之后它才开始说一些真正的重点，浪费很多时间。

也许是时候试试 Claude 了？

44

rebeccaMyKid

77 天前

@Avafly 输出太长+1 ，日常使用感觉有点倒退。可能适合拿来一些需要详细 reasoning 的问题？目前就我浅浅的常识，感觉还是 4o 好用。