当前位置: 首页 > article >正文

金融监管科技业务中的AI应用:上市公司公告信息风险识别

面对日益严格的监管,证券公司自身需要提高融资融券业务的风险管控能力,从而扩大业务规模、降低风险。因此,证券公司需要了解可能影响证券价格较大变化的重要事件,从而进行管理和风险控制等工作。根据监管要求,企业定期或不定期地发布公告信息。作为公司信息披露的主要载体,公告信息可能包含事件描述、深度分析、信息传递等各种价值信息和重要风险信息。

图片

目前该业务是由专人人工解读上市公司公告,撰写每日风险总结报告,然而这项工作不仅工作量繁重,且准确率与覆盖率不足,难以满足日益增长的数据量以及快节奏的需求变动

  • 资料版面布局多样

公告文本的版面格式涵盖了段落、目录树、表格、图像等多种样式。

  • 公告内容差异大

不同种类公告内容差异大,不同行业披露信息差异大,不同公司撰文风格差异大。

  • 标注样本稀少

因标注标准复杂、专业性强导致的标注成本高,不同类别公告数量差异大,因监管和公司运营情况调整导致的标注时效性难以保证。

金仕达软件科技有限公司利用自然语言处理技术中的信息抽取技术ERNIE-UIE,打造了上市公司公告信息抽取系统,从上市公司常见的公告文本数据中,提取引起证券价格较大变化的重要事件及关键信息,实现自动提取影响证券价格较大变化的重要事件,为金融业务的开展提供风险管控的依据,并将此过程中积累的技术与经验推广到证券交易业务、风险管理业务以及客户服务等应用场景。在PaddleOCR和PaddleNLP的前沿模型的加持下,金融文件文字提取和信息抽取的效果显著:文档页面导航准确率100% ,信息抽取准确率达到95% ,单篇抽取可在1秒内完成。上市公司公告信息抽取系统节约了80%的人工解读时间,极大提升了融资融券、反洗钱、操作风险管理业务的效率。

图片

3月23日晚7:00,金仕达AI实验室负责人、高级研究员孙科老师将做客飞桨直播间,分享上市公司公告信息抽取产业落地经验,更有孙科老师多年金融AI从业经验分享

01 解决思路

本项目中使用了提示学习来解决小样本问题,在项目中引入PaddleNLP中的ERNIE-UIE,通过大规模多任务预训练学习的通用抽取能力,配合基于Prompt的信息抽取多任务统一建模方式,可以实现标注少量数据进行微调,即可完成在公告文本信息抽取任务中的任务适配,大大降低标注门槛和成本。 PaddleNLP中的ERNIE-UIE是一个大一统诸多任务的开放域信息抽取技术方案:通过构建结构化模式提示器(SSI,Structural Schema Instructor),ERNIE-UIE能够对不同的信息抽取目标进行统一编码,从而实现多任务的统一建模。ERNIE-UIE开创了基于Prompt的信息抽取多任务统一建模方式,通过大规模多任务预训练学习的通用抽取能力,可以实现不限定行业领域和抽取目标,零样本快速冷启动。简单场景,无需训练数据,即可全部抽取正确。针对复杂抽取需求,标注少量数据微调即完成任务适配,大大降低标注门槛和成本。除实体抽取任务外,在金融、医疗、互联网三大自建测试集的关系、事件抽取任务上进行实验,标注少样本也可带来显著的效果提升,即使模型在某些场景下表现欠佳,人工标几个样本,交给模型后就会有大幅的效果提升。

图片

上市公司公告信息抽取系统架构图ERNIE-UIE对于数据量更大的类别有更好的预测结果,即使对于少样本,诸如APER、EPER和TPER等类别,模型仍具有一定程度的预测能力,体现了ERNIE-UIE在小样本学习上的优势。

图片ERNIE-UIE进行实体抽取的效果模型训练完成后,转为推理模型,之后,利用飞桨服务化部署框架Paddle Serving方便集成的特性,将公告信息抽取服务快速部署为线上服务。用户通过WEB端访问业务框架后台时,即可直接调用智能文档解析服务展示结果。

相关项目

  • PaddleNLP GitHub地址

https://github.com/PaddlePaddle/PaddleNLP

  • PaddleNLP Gitee地址

https://gitee.com/paddlepaddle/PaddleNLP

02 技术拓展——文心大模型

随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能发展的关键方向与人工智能产业应用的基础底座。
文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达36个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。 百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动 AI 规模化应用的产业价值。

图片

从技术研发到落地应用,大模型的发展已经进入产业落地的关键期。


http://www.kler.cn/a/4727.html

相关文章:

  • 【Elasticsearch7.11】postman批量导入少量数据
  • python实现自动登录12306抢票 -- selenium
  • 【深度学习】通俗理解偏差(Bias)与方差(Variance)
  • el-table自定义按钮控制扩展expand
  • 深度学习-卷积神经网络反向传播梯度公式推导
  • 深度优先和广度优先【栈、堆前端举例】
  • java对象与Json字符串的相互转换
  • 【博弈】【清华冬令营2018模拟】取石子
  • 数字中国建设进行时:吉林大学党委常务副书记冯正玉一行调研实在智能
  • Open CASCADE 介绍
  • PostgreSQL之Checkpoint检查点进程
  • 被大厂废掉的年轻人
  • Java虚拟机的类加载机制
  • “体育游戏第一股”投资未来,望尘科技走向价值兑现周期
  • ChatGPT使用拓展资料:BERT 带你见证预训练和微调的奇迹
  • 通俗易懂:什么是拉链表
  • NOIP模拟赛 序列(sequence)
  • 深入分析@PropertySource源码
  • SpringBoot源码学习系列——自动配置原理(一)
  • 简单的C++程序
  • java源码阅读 - TreeMap
  • 抖音进攻,B站退守
  • 单例模式是什么?如何实现它?
  • 【华为OD机试 2023最新 】 最大利润(C++)
  • 秃头警告 | 年薪50万PM总结的20个成功项目管理经验
  • GPT4中文调教指南。各种场景使用指南。学习怎么让它听你的话。