CHARLS数据库系列教程(2)---数据清洗、拼接和整理(1)
写在前面的话,本节内容实在太多了,只能做了一个小合集,分成2章来介绍。
CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维度的信息,以满足老龄科学研究的需要。
在上一篇文章《CHARLS数据库挖掘系列教程(1)—数据库下载》中,咱们已经CHARLS数据库进行了初步的介绍,今天咱们以文章《Association Between Triglyceride Glucose Index and Risk of New-Onset Diabetes Among Chinese Adults: Findings From the China Health and Retirement Longitudinal Study》为例子,介绍一下怎么进行数据数据下载、清洗和拼接。
CHARLS数据最麻烦的就是整理数据了,因为没有成熟的查对系统,一边整理一边查找变量,我整理了这份数据也花了2天时间,整理数据内容比较多,光代码都有100多行,1章实在说不完,准备写成个2章得小合集,尽量介绍得详细一点。
首先咱们要了解作者是做了什么,怎么做的。作者研究的是一个叫做甘油三酯葡萄糖指数与新发糖尿病的关系。作者指出甘油三酯葡萄糖指数被认为是胰岛素抵抗的替代物,研究TYG指数与中国中年和老年人患糖尿病的风险之间的关系,作者做了cox回归,分位数回归、多模型比较、限制性立方样条和亚组分析,咱们在后面将会一一进行介绍,咱们先看看作者是怎么获取数据的,主要看流程图
接下来咱们跟着作者的思路来一步步进行,先是要把2011年数据下载下来,数据在这里下载
获取全部代码请看这篇文章:
CHARLS数据库系列教程(2)—数据清洗、拼接和整理(1)