2、ChatGPT 在数据科学中的应用
ChatGPT 在数据科学中的应用
ChatGPT 可以成为数据科学家的绝佳工具。以下是我所了解到的关于它擅长的地方和不那么擅长的地方。
我从使用 ChatGPT 中学到了一个教训。它在数据科学中非常有帮助,但你必须仔细检查它输出的所有内容。它非常适合某些任务,并且可以非常快速准确地完成它们。对于其他一些任务,它已经足够好了,您必须多次提示它。我发现 ChatGPT 在一项任务上非常糟糕。
擅长:自动执行数据探索
您可以将您的数据集附加到 ChatGPT 消息中,通过给出一些简单的说明,ChatGPT 可以为您探索数据。
例如,我可以从这个数据项目中获取一个数据集。我给出的指示是:
“使用附加的数据进行描述性统计分析。包括以下内容:
- 汇总基本统计数据(平均值、中位数、标准差等)。
- 识别缺失值并提出处理它们的策略。
它返回如下所示的摘要。它对每个变量执行相同的计算。
年龄:
- 平均值: 28.79 years
- 标准差: 6.94 年
- 范围:18至50年
它还未识别数据集中的缺失值。
如果还需要用于这些计算的 Python 代码,则可以提示它编写它们。
若要加载数据集,请使用此代码。
aerofit_data = pd.read_csv(file_path)
对于基本统计数据,它给出了这个。
basic_stats = aerofit_data.describe()
您可以使用此代码检查缺失值。
missing_values = aerofit_data.isnull().sum()
很棒:创建可视化效果
此外,我可以要求 ChatGPT 可视化关键变量的分布,并检测潜在的异常值和异常情况。
它为关键变量创建直方图和箱形图:年龄、收入和里程。它检测到收入和里程分布中可能存在的异常值。