测试Bard和ChatGPT关于双休的法规和推理
Bard是试验品,chatgpt是3.5版的。
首先带着问题,借助网络搜索,从政府官方网站等权威网站进行确认,已知正确答案的情况下,再来印证两个大语言模型的优劣。
想要了解的问题是,在中国,跟法定工作时间有关的两个法律法规,一个是1995年开始实施、最新2018年修订的《劳动法》,一个是1995年修订国务院第146号令的国务院第174号令,是否冲突,以及哪个优先。
下面是Bard的回答,简直毫无逻辑和底线,不但弄错国务院令的内容、还杜撰出已经废止的答案,如果是真人的话,绝对是无赖级别的、道德有问题:
ChatGPT3.5虽然在逻辑上也存在类似问题,但可接受程度要高很多,也不至于把人误导到坑里还死不认账。
但是,他们在特定概念(比如法令、法律)的唯一确定性(或同一身份)认知上,存在天然的缺陷,这个问题我以前查特定论文、并要求给出论文的doi代码也发现过:chatgpt 3.5给出的doi跟论文完全没有关系,而且它会根据谈话背景杜撰出标题是你想要找的可能根本不存在的所谓论文来误导;在进行简单的逻辑推理方面,可以说是毫无逻辑可言(完全无法依赖其逻辑推理能力)。