当前位置: 首页 > article >正文

A股上市公司年报爬虫及关键词词频分析(2004-2023年)

随着2023年上市公司年报陆续发布,我们搜集整理了最新上市公司年报,可用于文本分析和词频统计。如果想直接获取年报文本TXT版本或者数字化词频统计结果,可直接联系文末小编。

对于想学习利用python进行年报爬取和词频分析过程的用户,我们推出以下课程,不仅可以学习python爬虫以及数据分析技能,还能对上市公司年报进行个性化词频分析。详情如下:

课程内容:

1、信息获取(包括公司代码,公司简称,年份,年报地址)

预期结果:按照股票代码,公司名称,年份,下载链接等要素写入excel表

你将学习:使用python第三方库requests, re , time等进行年报爬取

新特性:

  • 全新接口,更全面的数据获取
  • 更友好的进度显示
  • 更多可选参数,支持年份区间下载

2、目标信息下载并转换(下载目标区间的年报并转为txt格式)

预期结果:从excel表格中批量下载pdf版本的年报,将其命名为"股票代码_公司简称_ 年份"的格式,并全部转为txt文件。

你将学习:使用python第三方库pandas,requests, re , pdfplumber,time等

多线程批量下载pdf年报并转换为txt文件。

新特性:

  • 可选择是否删除年报PDF原文件
  • 支持自定义命名结果文件夹
  • 提供区间年份的批量处理

3、目标信息数据分析(对目标区间年报进行文本分析)

预期结果:从多个文本文件中提取关键词并统计词频,然后将结果存储到 Excel 文件中。

你将学习:使用python第三方库jieba,xlwt等批处理txt 文件并进行关键词统计分析。

新特性:

  • 支持自选关键词,定制你需要的结果
  • 更友好的路径管理
  • 支持指定年份的统计
  • 新增数据暂存功能,防止数据丢失
  • 新增统计总字数的功能

4、具体应用

目前很多学者都使用文本挖掘的方式来构建某些特定的变量,例如:

A:《管理世界》中吴非(2021)对人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用五个维度76个数字化相关词频进行统计;

B:《财贸经济》中赵宸宇(2021)对数字技术应用、互联网商业模式、智能制造、现代信息系统四个维度99个数字化相关词频进行统计;

C:《经济研究》中甄红线(2023)对技术分类、组织赋能、数字化应用等类别下139个数字化相关词频进行统计

本课程从变量设计的技术实现上来看,通过Python爬虫功能归集整理了上海交易所、深圳交易所全部A股上市企业的年度报告,并通过Java PDFbox库提取所有文本内容,并以此作为数据池供后续的特征词筛选。在企业数字化转型特征词的确定上,基于学术领域和实业领域进行了分项讨论。

整个过程用简单的流程图表示如下:

【下载→

方式一(推荐):主页 个人 简介

-CSDN博客

方式二:数据下载方式汇总-CSDN博客


http://www.kler.cn/a/512124.html

相关文章:

  • Scala语言的循环实现
  • 记录一下OpenCV Contrib 编译踩的坑
  • (7)(7.2) 围栏
  • PyTorch使用教程- Tensor包
  • 【日志篇】(7.6) ❀ 01. 在macOS下刷新FortiAnalyzer固件 ❀ FortiAnalyzer 日志分析
  • C++ 模拟真人鼠标轨迹算法 - 防止游戏检测
  • c86机器安装nvaid显卡驱动报错:ERROR:Unable to load the kernel module ‘nvidia.ko‘.
  • 淘宝关键词页面爬取绘图进行数据分析
  • JDBCTemplate-模板设计模式和策略模式
  • Jenkins 启动
  • PHP语言的循环实现
  • AnnData对象数据结构解释:n_obs × n_vars
  • ubuntu修改hosts文件使之能下载github的文件
  • WPS数据分析000003
  • H3CNE-15-RIP协议
  • 初识NLP
  • LeetCode 110.平衡二叉树
  • 《Apple Store 上架过包》Guideline 4.3(a) - Design - Spam 解决 4.3 垃圾邮件
  • [c语言日寄]内存初阶:大端字节序和小端字节序
  • leetcode 3097. 或值至少为 K 的最短子数组 II 中等
  • Scade 表达式 - 使用索引的迭代器
  • 【算法学习笔记】35:扩展欧几里得算法求解线性同余方程
  • 2024微短剧行业生态洞察报告汇总PDF洞察(附原数据表)
  • 电子科大2024秋《大数据分析与智能计算》真题回忆
  • mysql的mvcc
  • 详解共享WiFi小程序怎么弄!