从同样一个简单的计算问题,看星火4.0 Turbo模型推理逻辑能力
引言
上一篇文章(从一个简单的计算问题,看国内几个大语言模型推理逻辑能力)的编写时间是10月23日,当时看,星火4.0大模型的逻辑推理能力不行。10月24号,讯飞推出了星火4.0 Turbo,就想用上一篇文章同样的题目来看看星火4.0 Turbo模型推理逻辑能力。
同样的问题
123456*987654等于多少,给出你计算的过程。
这次的回答怎么说呢,第一次回答和上次第一次回答一样,要具体问计算过程才给出详细的计算过程。看来语言理解上还是有些问题,不过这次给出了正确的计算结果。但接下来的提问,哎,只能还是让人大失所望,这基本的减法就能出错,给出的计算公式和结果都不带验证的。
结果
出于好奇,就想起了之前百度文心一言用乘法分配律计算进行计算的骚操作,就提示让用这个方法给出详细计算过程。给出的计算过程如下,如果单从逻辑推理的角度来看,方法步骤还是合理的,奈何这第一步,将987654分解成两个数的和,这个分解结果的数就错了,说明模型在基本计算的理解和基本计算校验上还是不行。看来大模型对这些基本的计算还是不理解的。