A股上市公司年报爬虫及关键词词频分析(2004-2023年)
随着2023年上市公司年报陆续发布,我们搜集整理了最新上市公司年报,可用于文本分析和词频统计。如果想直接获取年报文本TXT版本或者数字化词频统计结果,可直接联系文末小编。
对于想学习利用python进行年报爬取和词频分析过程的用户,我们推出以下课程,不仅可以学习python爬虫以及数据分析技能,还能对上市公司年报进行个性化词频分析。详情如下:
课程内容:
1、信息获取(包括公司代码,公司简称,年份,年报地址)
预期结果:按照股票代码,公司名称,年份,下载链接等要素写入excel表
你将学习:使用python第三方库requests, re , time等进行年报爬取
新特性:
- 全新接口,更全面的数据获取
- 更友好的进度显示
- 更多可选参数,支持年份区间下载
2、目标信息下载并转换(下载目标区间的年报并转为txt格式)
预期结果:从excel表格中批量下载pdf版本的年报,将其命名为"股票代码_公司简称_ 年份"的格式,并全部转为txt文件。
你将学习:使用python第三方库pandas,requests, re , pdfplumber,time等
多线程批量下载pdf年报并转换为txt文件。
新特性:
- 可选择是否删除年报PDF原文件
- 支持自定义命名结果文件夹
- 提供区间年份的批量处理
3、目标信息数据分析(对目标区间年报进行文本分析)
预期结果:从多个文本文件中提取关键词并统计词频,然后将结果存储到 Excel 文件中。
你将学习:使用python第三方库jieba,xlwt等批处理txt 文件并进行关键词统计分析。
新特性:
- 支持自选关键词,定制你需要的结果
- 更友好的路径管理
- 支持指定年份的统计
- 新增数据暂存功能,防止数据丢失
- 新增统计总字数的功能
4、具体应用
目前很多学者都使用文本挖掘的方式来构建某些特定的变量,例如:
A:《管理世界》中吴非(2021)对人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用五个维度76个数字化相关词频进行统计;
B:《财贸经济》中赵宸宇(2021)对数字技术应用、互联网商业模式、智能制造、现代信息系统四个维度99个数字化相关词频进行统计;
C:《经济研究》中甄红线(2023)对技术分类、组织赋能、数字化应用等类别下139个数字化相关词频进行统计
本课程从变量设计的技术实现上来看,通过Python爬虫功能归集整理了上海交易所、深圳交易所全部A股上市企业的年度报告,并通过Java PDFbox库提取所有文本内容,并以此作为数据池供后续的特征词筛选。在企业数字化转型特征词的确定上,基于学术领域和实业领域进行了分项讨论。
整个过程用简单的流程图表示如下:
【下载→
方式一(推荐):主页 个人 简介
-CSDN博客
方式二:数据下载方式汇总-CSDN博客