当前位置: 首页 > article >正文

腾讯云智能结构化OCR:以多模态大模型技术为核心,推动跨行业高效精准的文档处理与数据提取新时代

🎼个人主页:【Y小夜】

😎作者简介:一位双非学校的大三学生,编程爱好者,

专注于基础和实战分享,欢迎私信咨询!

🎆入门专栏:🎇【MySQL,Java基础,Rust】

🎈热门专栏:🎊【Python,Javaweb,Springboot】 

感谢您的点赞、关注、评论、收藏、是对我最大的认可和支持!❤️

目录

一、智能结构化简介

二、产品应用实践

1.1应用背景

1.2解决的问题

1.3接入指引

登录控制台

开通服务

使用文字识别服务

1.4技术优势

高精度

完备性

易用性

1.5实际应用后的效果

三、行业案例实践

四、总结


一、智能结构化简介

        智能结构化(Smart Structure Optical Character Recognition )融合了业界领先的深度学习技术、图像检测技术以及OCR大模型能力,能够实现不限版式的结构化信息抽取。无论是固定卡证还是复杂的物流单据,均可实现智能识别。该产品预学习建立键值对应关系,支持客户定制模板,提升数据提取录入效率,适用于政务、票据核销、行业表单和国际物流等场景。

二、产品应用实践

1.1应用背景

      在交通、物流、金融和零售等行业中,票据、表单、文档及合同等文件的处理面临诸多挑战。这些文件通常具有复杂的版式结构,包含中英文混排内容,且票据粘贴方式混乱,印刷体与手写体混杂,样式差异显著,同时英文字段的解析难度较高。这些因素共同导致了通用文字识别技术难以满足企业对高精度识别的需求。

1.2解决的问题

        为了应对这些挑战,企业需要采用更先进的图像处理和机器学习技术,以提高文字识别的准确性和鲁棒性。此外,针对特定行业和应用场景定制开发的文字识别系统也显得尤为重要。这样的系统可以更好地适应各种复杂情况,提供更为精准的识别结果,从而帮助企业提高运营效率,减少人工干预和错误率。

1.3接入指引

登录控制台

注册并通过实名认证后,登录腾讯云控制台

开通服务

单击进入文字识别控制台,即可开通相应服务

使用文字识别服务

体验一:通过腾讯云文字识别体验Demo ,选择行业文档识别 > 智能结构化进行产品功能体验。 

体验二:通过 API 3.0 Explorer 进行在线调用文字识别服务 API 进行营业执照识别

调用代码


import json
import types
from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException
from tencentcloud.ocr.v20181119 import ocr_client, models
try:
    cred = credential.Credential("XXXX", "XXXX")
    # 实例化一个http选项,可选的,没有特殊需求可以跳过
    httpProfile = HttpProfile()
    httpProfile.endpoint = "ocr.tencentcloudapi.com"

    # 实例化一个client选项,可选的,没有特殊需求可以跳过
    clientProfile = ClientProfile()
    clientProfile.httpProfile = httpProfile
    # 实例化要请求产品的client对象,clientProfile是可选的
    client = ocr_client.OcrClient(cred, "", clientProfile)

    # 实例化一个请求对象,每个接口都会对应一个request对象
    req = models.BizLicenseOCRRequest()
    params = {
                ImageUrl: "https://ocr-demo-1254418846.cos.ap-                                guangzhou.myqcloud.com/card/BizLicenseOCR/BizLicenseOCR1.jpg"
    }
    req.from_json_string(json.dumps(params))

    # 返回的resp是一个BizLicenseOCRResponse的实例,与请求对象对应
    resp = client.BizLicenseOCR(req)
    # 输出json格式的字符串回包
    print(resp.to_json_string())

except TencentCloudSDKException as err:
    print(err)

测试图片

识别结果

Address: "深圳市南山区高新区高新南一路飞亚达大厦"
Angle: 0.09112373739480972
Business: "计算机软、硬件的设计、技术开发、销售(不含专营、专控、专卖商品及限制项目);数据库及计算机网络服务;国内商业、物资供销业(不含专营、专控、专卖商品)"
Capital: "人民币柒仟万"
ComposingForm: ""
Electronic: false
IsDuplication: 1
Name: "杭州市魔乐计算机有限公司"
NationalEmblem: true
Period: "1998年11月至长期"
Person: "毛华"
QRCode: true
RecognizeWarnCode: [
]
RecognizeWarnMsg: [
]
RegNum: "110000012345678"
RegistrationAuthority: "广东省工商行政管理局"
RegistrationDate: "1998年11月13日"
RequestId: "70b13814-a374-40ba-bce3-634a9772ac26"
Seal: true
SerialNumber: ""
SetDate: "1998年11月"
Title: "营业执照"
Type: "有限责任公司"

1.4技术优势

高精度

        支持任意版式的卡证票据识别,各字段精度均处于业界领先水平,文本基础识别准确率达到98%以上,文本结构化准确率达到85%以上。

完备性

        支持多种常见版式的数据结构化提取,如警察证、教师资格证、道路运输证等,适用于多行业场景。

易用性

        用户仅需简单的几步配置,即可定制个性化需求模板,快速提取结构化数据,实现高效录入。

1.5实际应用后的效果

        当我使用腾讯云智能结构化OCR产品提供基础与高级版本选项进行营业执照识别后发现,它快速精准识别营业执照上的字段,包括统一社会信用代码、公司名称、主体类型、法定代表人、注册资本、组成形式、成立日期、营业期限和经营范围等字段。

三、行业案例实践

        集装箱箱门信息识别:识别字段包括集装箱箱号、类型、总重量、有效承重、容量、自身重量,具备集装箱箱号、类型不完整或者不清晰的告警功能:

增值税发票识别:增值税专用发票、增值税普通发票、增值税电子专票、增值税电子普票、电子发票(普通发票)、电子发票(增值税专用发票)全字段的内容检测和识别

四、总结

        腾讯云智能结构化OCR产品提供灵活的基础与高级版本,满足不同行业需求。它利用先进的多模态大模型技术,确保高识别精度,即使在复杂文档和中英文混排情况下也能准确提取数据。该产品广泛应用于政务、物流、医疗等多个领域,提升数据处理效率并支持个性化模板定制。


http://www.kler.cn/a/448742.html

相关文章:

  • GO--堆(have TODO)
  • Windows脚本清理C盘缓存
  • MySQL数据库下载及安装教程
  • 软件需求建模方法
  • RAG开发中,如何用Milvus 2.5 BM25算法实现混合搜索
  • 智能工厂的设计软件 三种处理单元(NPU/GPU/CPU)及其在深度学习框架中的作用 之5(腾讯云AI代码助手 之3)
  • Nacos 3.0 考虑升级到 Spring Boot 3 + JDK 17 了!
  • openjdk17 从C++视角 看字节码ldc指令字符串加载过程
  • 三、使用langchain搭建RAG:金融问答机器人--检索增强生成
  • docker 为单个容器设置代理
  • Input子系统驱动---学习记录
  • 整理一些/etc/X11/xorg.conf,/etc/X11/xorg.conf.d相关知识的学习笔记
  • 微服务openfeign配置重试机制
  • Unittest01|TestCase、断言、装饰器、夹具、清理函数、ddt
  • FastAPI vs Go 性能对比分析
  • 语言模型与向量模型:深入解析与实例剖析
  • PHP中实现拓扑算法
  • Bazel CI
  • 基于 SSM 和 Vue 的 WEB 开放性实验室集成管理系统
  • 【leetcode100】排序链表
  • springboot根据租户id动态指定数据源
  • react Moment.js 是一个流行的 JavaScript 库,用于处理日期和时间。它提供了丰富的功能,包括日期格式化、解析、操作和国际化
  • 前端 下载文件时如何处理后端返回的 文件流
  • Vulkan 学习(10)---- Vulkan SwapChain 创建
  • 实现 React 电子签名功能:从零开始构建一个完整的解决方案
  • Unity全局雾效