当前位置：首页 > article >正文

CHARLS数据库系列教程（2）---数据清洗、拼接和整理（1）

article 2025/1/15 22:54:55

写在前面的话，本节内容实在太多了，只能做了一个小合集，分成2章来介绍。
CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查，旨在建设一个高质量的公共微观数据库，采集的信息涵盖社会经济状况和健康状况等多维度的信息，以满足老龄科学研究的需要。

在这里插入图片描述

在上一篇文章《CHARLS数据库挖掘系列教程（1）—数据库下载》中，咱们已经CHARLS数据库进行了初步的介绍，今天咱们以文章《Association Between Triglyceride Glucose Index and Risk of New-Onset Diabetes Among Chinese Adults: Findings From the China Health and Retirement Longitudinal Study》为例子，介绍一下怎么进行数据数据下载、清洗和拼接。

CHARLS数据最麻烦的就是整理数据了，因为没有成熟的查对系统，一边整理一边查找变量，我整理了这份数据也花了2天时间，整理数据内容比较多，光代码都有100多行，1章实在说不完，准备写成个2章得小合集，尽量介绍得详细一点。

在这里插入图片描述
首先咱们要了解作者是做了什么，怎么做的。作者研究的是一个叫做甘油三酯葡萄糖指数与新发糖尿病的关系。作者指出甘油三酯葡萄糖指数被认为是胰岛素抵抗的替代物，研究TYG指数与中国中年和老年人患糖尿病的风险之间的关系，作者做了cox回归，分位数回归、多模型比较、限制性立方样条和亚组分析，咱们在后面将会一一进行介绍，咱们先看看作者是怎么获取数据的，主要看流程图