当前位置: 首页 > article >正文

OpenAI GPT o1技术报告阅读(4)- 填字游戏推理

✨继续阅读报告:使用大模型来学习推理(Reason)

原文链接:https://openai.com/index/learning-to-reason-with-llms/

这次我们继续看一个填字游戏的案例。

 我们先看下问题:

解决以下填字游戏:

Across(横向):
1 Evade  中文:躲避

2 One to close envelopes  中文:封信封的工具

3 Mother ______  中文:母亲______

4 Initiated people  中文:启蒙人们

5 Native American tent  中文:美洲原住民的帐篷

6 Mistakes  中文:错误

Down(纵向):
1 ______ car (Station wagon)  中文:______车(旅行车)

2 Automatic planting machine  中文:自动种植机

3 Profession  中文:职业

4 Syrian and Turkish pepper variety  中文:叙利亚和土耳其的辣椒品种

5 Annoy  中文:烦恼

6 Deletes  中文:删除

先看下GPT4o的回答:

Let’s solve the crossword using the provided clues.

Across:

  1. Evade - Dodge

  2. One to close envelopes - Sealer

  3. Mother ______ - Motherland

  4. Initiated people - Insiders

  5. Native American tent - Tepee

  6. Mistakes - Errors

Down:

  1. ______ car (Station wagon) - Family

  2. Automatic planting machine - Seeder

  3. Profession - Career

  4. Syrian and Turkish pepper variety - Aleppo

  5. Annoy - Irritate

  6. Deletes - Erases

Here’s how the crossword would look filled in:

【小梦备注:emm,一眼错误,也不需要逐行翻译了,基本它把这题目当成一个寻找近似词了,几乎完全没有管字符数量和字符之间关系的事情了。】

接下来是OpenAI O1 preview上场。

首先是CoT部分:

我们被要求解决这个填字游戏谜题。

让我们首先理解这个格子:

- 这是一个6x6的格子,从1到11的位置编号如下:

【小梦备注:首先读了一遍题目,仔细审题并尝试理解结构,是个好习惯。】

所以横向的条目编号为1到6,纵向的条目从1到11。

但实际上,线索是:

横向:

1. Evade 逃避

2. One to close envelopes 封信封的工具

3. Mother ______  母亲______

4. Initiated people 启蒙人们

5. Native American tent  美洲原住民的帐篷

6. Mistakes 错误

纵向:

1 ______ car (Station wagon)   ______车(旅行车)

2 Automatic planting machine   自动种植机

3 Profession   职业

4 Syrian and Turkish pepper variety   叙利亚和土耳其的辣椒品种

5 Annoy   烦恼

6 Deletes   删除

首先,让我们尝试正确地编号方格,我认为在这样的格子中,编号是在条目的起始方格。

但我们需要弄清楚单词从哪里开始。

考虑到格子中的编号从1到11,并且1是第一个横向线索。

通常,横向和纵向的线索对应于格子中的编号,并且编号放在我们开始第一个字母的方格中。

考虑到这一点,也许让我们构建一个有意义的格子。

通常在填字游戏编号中,数字是分配给横向和纵向条目的第一个字母,按顺序编号。

考虑到这一点,格子可能是这样的(如果我们有更清晰的图片会更有帮助,但我们将尽力而为。)
 

[1] [7] [8] [9][10][11]    <-- first row  
[2]                            <-- first letter of Across 2 in the first square of row 2  
[3]                            <-- first letter of Across 3 in the first square of row 3  
[4]                            <-- first letter of Across 4 in the first square of row 4  
[5]                            <-- Across 5  
[6]                            <-- Across 6  

那么对于纵向的条目,第一行中的数字对应于纵向的条目。

纵向

  1. (______ car (station wagon) [Clue is '____ car (station wagon)'])______车(旅行车)[提示是'____车(旅行车)']

数字1位于左上角。

所以纵向1从方格1开始,向下垂直。

同样,纵向7从方格7开始(它在第一行,第二列),然后向下。

其余的数字也是类似。

让我们来标出这些数字。

格子是:

所以横向1从1号方格开始,然后横向延伸。

同样,在第二行,第一个方格编号为2,所以是横向2。

但是纵向的条目在第一行。

纵向1从1号方格开始,然后向下延伸。

同样,纵向7从(1,2)号方格开始,也就是第一行,第二列。

好的,记住这一点,让我们继续解决这个填字游戏。

【小梦备注:大模型在尝试理解结构?毕竟不是多模态,所以貌似它不是很理解平面图这种东西。】

首先,我们需要条目的长度。

横向1从(1,1)开始,根据需要填充方格。

考虑到格子是6个方格宽,6个方格高。

根据格子的尺寸,横向条目可以长达6个字母。

但更有可能的是横向条目从1号方格开始,填充整行。

所以,绘制格子,并填充编号:

位置(行,列):

(1,1): 编号1(横向1从这里开始,纵向1从这里开始)

(1,2): 编号7(纵向7从这里开始)

(1,3): 编号8(纵向8从这里开始)
(1,4): 编号9(纵向9从这里开始)

(1,5): 编号10(纵向10从这里开始)
(1,6): 编号11(纵向11从这里开始)

(2,1): 编号2(横向2从这里开始,可能没有纵向提示从这里开始)

(3,1): 编号3(横向3从这里开始)

...【太重复了,小梦帮你省略了。】

所以每个横向单词从每一行的第一列开始,纵向单词从每一列的第一行开始。

现在让我们计算一下条目有多少个字母。

由于格子是6个方格宽,并且没有黑色方格(假设),每个横向条目可以长达6个字母。

同样,纵向条目可以长达6个字母。

让我们写下带有它们长度的单词。

首先,列出横向单词的单词:


原文:1. Evade (starts at (1,1) and goes across): length is 6 letters.
中文:1. 逃避(从(1,1)开始,然后横向延伸):长度是6个字母。


原文:2. One to close envelopes (starts at (2,1)): length is 6 letters.
中文:2. 封信封的工具(从(2,1)开始):长度是6个字母。


原文:3. Mother ______ (starts at (3,1)): length 6 letters.
中文:3. 母亲______(从(3,1)开始):长度6个字母。


原文:4. Initiated people (starts at (4,1)): length 6 letters.
中文:4. 启蒙人们(从(4,1)开始):长度6个字母。


原文:5. Native American tent (starts at (5,1)): length 6 letters.
中文:5. 美洲原住民的帐篷(从(5,1)开始):长度6个字母。


原文:6. Mistakes (starts at (6,1)): length 6 letters.
中文:6. 错误(从(6,1)开始):长度6个字母。

纵向单词也类似。

纵向提示:
原文:1. ______ car (station wagon) (starts at (1,1)): down from (1,1). So length 6 letters.
中文:1.______车(旅行车)(从(1,1)开始):从(1,1)向下。所以长度6个字母。


原文:7. Automatic planting machine (starts at (1,2)): down from (1,2). Length 6 letters.
中文:7. 自动种植机(从(1,2)开始):从(1,2)向下。长度6个字母。


原文:8. Profession (starts at (1,3)): length 6 letters.
中文:8. 职业(从(1,3)开始):长度6个字母。


原文:9. Syrian and Turkish pepper variety (starts at (1,4)): length 6 letters.
中文:9. 叙利亚和土耳其的辣椒品种(从(1,4)开始):长度6个字母。


原文:10. Annoy (starts at (1,5)): length 6 letters.
中文:10. 使烦恼(从(1,5)开始):长度6个字母。


原文:11. Deletes (starts at (1,6)): length 6 letters.
中文:11. 删除(从(1,6)开始):长度6个字母。

所以所有条目都是6个字母长。

好的,现在让我们开始填写我们可以填写的内容。

首先,让我们考虑横向条目。


横向:Evade 逃避(6个字母)

与'Evade'同义的6个字母可能的单词:

ESCAPE (6 letters)

AVOID (5 letters)

DODGE (5 letters)

ELUDE (5 letters)
 

也许是'ESCAPE'?因为这个单词是6个字母。

但让我们继续考虑。

横向:One to close envelopes 封信封的工具(6个字母)

可能的单词:

SEALER(6个字母)

ENVELOPE CLOSER(太长了)

也许是SEALER

横向:Mother _____母亲______(6个字母)

Mother Nature(6个字母)

是的,那是6个字母。

【小梦备注:哈 还自己强调了一下,戏真多:)】

Alternatively, Mother Goose (10 letters)
或者Mother Goose(10个字母)

但是'Mother Nature'合适。

横向:Initiated people启蒙人们(6个字母)

可能的单词:ADEPTS(6个字母)

也许'ADEPTS'意味着启蒙人们。

还有其他可能性吗?

我们可以想到'INSIDE'(6个字母),但那没有意义。

ADEPTS似乎是可能的。

【...省略比较重复的推理部分】


现在让我们看看纵向提示。

纵向:_____ car (station wagon) ______车(旅行车)(6个字母)

可能的单词:

- ESTATE car (6个字母)

在英国英语中,'Estate car'是旅行车的术语。

在英国'station wagon'被称为'estate car'。

因此'ESTATE'合适。

也与横向1的ESCAPE对齐。

【小梦备注:emm,到这里还记得填字游戏的规则,不错。】

如果我们有ESCAPE作为1横向,从(1,1)开始横向,而ESTATE从(1,1)向下。

第一个字母是E,第二个字母是S(来自两个单词。)

让我们写下来:

ESCAPE

E S C A P E

从第一个字母E开始垂直,向下条目长达6个字母,从(1,1),(1,2)等开始字母。

所以纵向1是ESTATE

E

S

T

A

T

E
与ESCAPE在E S C A P E交叉

第二个字母S在横向和纵向都是。


现在7纵向:planting machine自动种植机(6个字母),从(1,2)开始。第一个字母是S(来自ESCAPE,第二个字母)

可能的单词:

SOWER?(5个字母)

PLANTERS?(8个字母)

SEEDER? (6个字母)
是的,SEEDER(6个字母)

所以7纵向是SEEDER。

所以我们有ESCAPE横向(1,1)-(1,6),和SEEDER从(1,2)向下到(6,2)。

现在,在(1,2)的位置,我们有来自ESCAPE的S。

从S垂直向下是SEEDER。

确认S。

现在8纵向:'Profession'职业(6个字母),从(1,3)开始,ESCAPE的第三个字母是C,所以(1,3)的位置是C(来自ESCAPE)

我们需要一个6个字母的单词,意思是'职业',以C开始。

可能的单词:CAREER(6个字母)

是的,CAREER

所以,我们有ESCAPE作为横向:

E S C A P E

纵向从(1,3)的位置开始是来自ESCAPE的C,所以CAREER:

C

A

R

E

E

R
现在,9纵向:叙利亚和土耳其的辣椒品种(6个字母),从(1,4)开始

ESCAPE中的第四个字母是A,(1,4)的位置是A

所以我们有一个6个字母的单词,意思是'叙利亚和土耳其的辣椒品种',以A开始。

可能的单词:ALEPPO(6个字母)

Aleppo辣椒是来自叙利亚和土耳其的一种辣椒

所以ALEPPO合适。

【小梦备注:思路确认没问题,找满足某个规则下的同义词这件事情,大模型理论上肯定比一般人类的脑袋好使,这里就省略一步步的推理了。】

所以我们已经成功填写了整个填字游戏。

让我写出填满单词的整个格子:

格子,其中行从上到下编号为1到6,列从左到右编号为1到6。

位置是(行,列)

第1行(位置(1,1)-(1,6)):

E S C A P E
第2行:

S E A L E R
第3行:

T E R E S A
第4行:

A D E P T S

【省略】
列,纵向条目:

第1列(位置(1,1)-(6,1)):

E S T A T E
第2列:

S E E D E R

【省略】
第6列:

E R A S E S
这样解决了填字游戏。

o1-preview的正式回答:

我们来一步步的解决填字游戏。

理解格子:

所有横向单词从最左边的列开始,长度为6个字母。

所有纵向单词从最上面的行开始,长度为6个字母。

数字对应每个单词的起始方格。

让我们来解填字游戏:

横向提示:

1. 逃避(6个字母)
答案:ESCAPE

2. 封信封的工具(6个字母)
答案:SEALER

3. 母亲______(6个字母)
答案:TERESA

4. 启蒙人们(6个字母)
答案:ADEPTS

5. 美洲原住民的帐篷(6个字母)
答案:TEEPEE

6. 错误(6个字母)
答案:ERRORS

纵向提示:

1. ______车(旅行车)(6个字母)
答案:ESTATE

2. 自动种植机(6个字母)
答案:SEEDER

3. 职业(6个字母)
答案:CAREER

4. 叙利亚和土耳其的辣椒品种(6个字母)
答案:ALEPPO

5. 使烦恼(6个字母)
答案:PESTER

6. 删除(6个字母)
答案:ERASES

填好的填字游戏格子:
 

| E | S | C | A | P | E |  ← 1 Across: ESCAPE
| S | E | A | L | E | R |  ← 2 Across: SEALER
| T | E | R | E | S | A |  ← 3 Across: TERESA
| A | D | E | P | T | S |  ← 4 Across: ADEPTS
| T | E | E | P | E | E |  ← 5 Across: TEEPEE
| E | R | R | O | R | S |  ← 6 Across: ERRORS
↓   ↓   ↓   ↓   ↓   ↓
E   S   C   A   P   E
S   E   A   L   E   R
T   E   R   E   S   A
A   D   E   P   T   S
T   E   E   P   E   E
E   R   R   O   R   S
↑   ↑   ↑   ↑   ↑   ↑
1D  7D  8D  9D  10D 11D
ESTATE
SEEDER
CAREER
ALEPPO
PESTER
ERASES

解释:

1 横向(ESCAPE)与 1 纵向(ESTATE)在字母 E 处交叉。

2 横向(SEALER)与第二行中纵向单词的字母完美对齐。

3 横向(TERESA)使用 1 纵向(ESTATE)的第三个字母 T,并与纵向单词匹配。

每个横向单词的字母在它们交叉的地方与纵向单词中相应的字母匹配。

最终答案:

• 横向:

ESCAPE

SEALER

TERESA

ADEPTS

TEEPEE

ERRORS

• 纵向:

ESTATE

SEEDER

CAREER

ALEPPO

PESTER

ERASES

这个过程真的就像人类拿个小本子在纸上写写画画差不多的思路,o1-preview这个模型还是挺强的。其他几个案例涉及数学公式、化学方程和代码,格式不太好弄,大家感兴趣还是去原文中看好了,不过根据这三个我贴出来的案例,大家也可以感受到o1模型的CoT大概的展开方式了。

好,本篇就先到这里。晚安~

✨写在最后

如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,写了一门系统性入门图文课程,现在已经更新完成了,内容主要包括如何下载软件、如何搭建自己的工作流、关键基础节点讲解、遇到报错怎么解决等等,如果大家在学习过程中遇到什么问题,也可以直接对应的文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

​​​​

感谢大家的支持~


http://www.kler.cn/a/313334.html

相关文章:

  • kettle开发-Day43-数据对比
  • 如何理解DDoS安全防护在企业安全防护中的作用
  • 华为大咖说 | 浅谈智能运维技术
  • 低功耗WTK6900P语音ic方案助力电子烟技术革新 打造个性化吸烟体验
  • Linux——基础指令2 + 权限
  • jQuery笔记
  • 【Git 操作】Git 的基本操作
  • Elasticsearch:检索增强生成背后的重要思想
  • 【VUE3.0】动手做一套像素风的前端UI组件库---先导篇
  • 社团周报系统可行性研究-web后端框架对比-springboot,django,gin
  • Linux内核学习之 -- ARMv8中的Current宏
  • 自注意力与多头自注意力的区别
  • Go进阶概览 -【7.2 泛型的使用与实现分析】
  • 网络穿透:TCP 打洞、UDP 打洞与 UPnP
  • SAP HCM 组织增量解决方案
  • FSFP——专为蛋白质工程设计的少样本学习策略
  • SpringMVC1~~~
  • 回归预测 | Matlab实现SSA-HKELM麻雀算法优化混合核极限学习机多变量回归预测
  • 动手学深度学习(五)循环神经网络RNN
  • 吃透这本大语言模型入门指南,LLM就拿下了
  • 【Kubernetes】常见面试题汇总(二十八)
  • RedisTemplate操作ZSet的API
  • 《让手机秒变超级电脑!ToDesk云电脑、易腾云、青椒云移动端评测》
  • 数据结构和算法之树形结构(1)
  • (2)leetcode 234.回文链表 141.环形链表
  • 机器翻译之创建Seq2Seq的编码器、解码器