当前位置：首页 > article >正文

攻克OCR手写识别难点！InkSight教程上线，实现高精度转写；iNatSounds数据集发布，含23万自然物种音频

article 2025/4/2 13:02:06

手写记录是许多人在日常生活中记录灵感的方式，但如何高效地将手写内容转化为电子文本一直是一大挑战。传统的 OCR（光学字符识别）技术在处理复杂背景或不规则字迹时，准确度往往有限。

为了解决这个难题，Google Research 近日推出了 InkSight 技术，通过深度学习模拟人类阅读过程，精准识别手写文字并完美还原其风格。与传统 OCR 不同，InkSight 在低光或复杂背景下依旧可以保持高精准度，支持单词级和整页级的转写，效果几乎与原始手写无异。该技术在文献数字化、文化遗产保护等领域展现了极大潜力。

为了帮助众多手写爱好者轻松将灵感数字化，并助力珍贵文献的高精度转录，hyper.ai 官网现已上线 InkSight 教程，一键克隆即可体验~

在线运行：https://go.hyper.ai/gVh8a

在这里插入图片描述

手写转换示例

11 月 11 日-11 月 15 日，hyper.ai 官网更新速览：

优质公共数据集：10 个
优质教程精选：6 个
社区文章精选：4 篇
热门百科词条：5 条
11 月截稿顶会：2 个

访问官网：hyper.ai

公共数据集精选

1. DrivingDojo 自动驾驶数据集

DrivingDojo 自动驾驶数据集包含约 18k 个视频片段，专门模拟真实世界的视觉交互，涵盖了丰富的驾驶动作、多智能体交互和开放世界的驾驶知识。该数据集旨在推进交互式和知识丰富的驾驶世界模型的发展。

直接使用：https://go.hyper.ai/Y86yY

在这里插入图片描述

数据集效果示例

2. TuSimple 美国高速公路道路图像数据集

TuSimple 数据集包含 6,408 张美国高速公路道路图像，其中 3,626 张用于训练、358 张用于验证、2,782 张用于测试，图像分辨率为 1280×720，所有图像都是在不同天气条件下拍摄的。

直接使用：https://go.hyper.ai/Mo6bt

在这里插入图片描述

数据集效果示例

3. Sport Classification 100 种运动图像数据集

该数据集涵盖 100 种不同运动的运动图像集，所有图像均为 224x224x3 的 jpg 格式。数据分为训练图像、测试图像和验证图像。此外，数据集还附带一个 CSV 文件，方便研究人员加载和处理这些图像数据。

直接使用：https://go.hyper.ai/715At

在这里插入图片描述

数据集图像示例

4. House Plant Species 47 种室内植物种类数据集

该数据集是从 Bing Images 收集的，包含 14,790 幅图像，分为 47 个不同的植物物种类别。

直接使用：https://go.hyper.ai/v7wTX

在这里插入图片描述

数据集图像示例

5.BIOSCAN-5M 多模态昆虫生物多样性数据集

BIOSCAN-5M 是一个全面的多模态昆虫生物多样性数据集，旨在理解和监测全球昆虫生物多样性。数据集包含了超过 500 万昆虫标本的详细信息，显著扩展了现有的基于图像的生物数据集。

直接使用：https://go.hyper.ai/YDeuN

在这里插入图片描述

数据集样本示意图

6. iNaturalist Sounds Dataset 自然物种声音数据集

该数据集是一个自然物种音频文件的集合，它收集了 230k 个音频文件，捕捉了来自超过 5.5k 个物种的声音，这些声音由全球超过 27k 名记录者贡献。

直接使用：https://go.hyper.ai/S0lg6

在这里插入图片描述

数据集示例

7. OpenSatMap 高分辨率卫星数据集

OpenSatMap 是一个高分辨率卫星数据集，专为大规模地图构建而设计，不仅包括了中国多个城市的图像，还涵盖了全球 50 多个城市和 18 个国家的图像。这些图像达到了 20 级的分辨率，是现有卫星数据集中最高的。

直接使用：https://go.hyper.ai/PtbCB

在这里插入图片描述

数据集示例

8. Cards Image 卡片图像数据集

Cards Image是一个扑克牌图像数据集。数据集包含 7,624 张训练图像、 265 张测试图像以及 265 张验证图像，所有图像均为 224x224x3 的 jpg 格式。每张图像都经过精心裁剪，确保只展示一张扑克牌，且该牌占据了图像超过 50% 的像素面积。

直接使用：https://go.hyper.ai/DuOJb

在这里插入图片描述

数据集示例

9. PD12M 大规模图像-文本对数据集

PD12M 是目前最大的公共领域图像-文本对数据集，包含了 1,240 万张高质量的公共领域及 CCO 许可图片，这些图片搭配了合成字幕，主要用于训练文本到图像的模型。

直接使用：https://go.hyper.ai/xyjrD

在这里插入图片描述

数据集示例

10. MINT-1T 文本图像对多模态数据集

MINT-1T 数据集是一个多模态数据集，包含一万亿个文本标记和 34 亿张图像，这一规模是之前最大开源数据集的 10 倍。该数据集不仅包括了 HTML 文档，还涵盖了 PDF 文档和 ArXiv 论文，显著提升了科学文档的覆盖率。

直接使用：https://go.hyper.ai/Vf3mq

在这里插入图片描述

数据集示例

公共教程精选

1. InkSight 将手写文字数字化 Demo

InkSight 是一项用于手写文字的识别和数字化的技术。这项技术通过模仿人类阅读和学习的过程，不断地重写和学习手写文本，从而积累对文字外观和含义的理解。与传统的光学字符识别 (OCR) 技术相比，InkSight 在处理复杂背景、模糊不清或低光照条件下的手写文字时，展现出了更高的识别准确率。

该项目通过 Gradio 接口可以生成前端交互界面，相关模型和依赖已经部署完毕，一键启动即可体验手写转换。

在线运行：https://go.hyper.ai/gVh8a

在这里插入图片描述

手写转换示例

2. CharacterGen 单图生成高质量 3D 角色

CharacterGen 采用单一输入图像并生成具有高质量和一致外观的 3D 姿势统一角色网格，可直接用于下游的索具和动画工作流程。

该教程为 CharacterGen 一键运行 Demo，相关环境和依赖已经安装完毕，克隆启动即可体验生成高质量 3D 角色。

在线运行：https://go.hyper.ai/jtVAF

在这里插入图片描述

Demo 示例

3. 一键部署 Ministral-8B-Instruct-2410

Ministral-8B 是由 Mistral AI 团队开发的一款专为边缘设备和边缘计算场景设计的语言模型，能够执行多项任务，包括回答问题、翻译不同语言的文字、制作文档摘要、帮助撰写文章和报告等。它采用了交错滑动窗口注意力模式，这种设计不仅提高了模型的推理速度，还显著降低了内存使用，使其非常适合在资源受限的边缘设备上运行。

进入官网克隆并启动容器，直接复制 API 地址，即可与模型对话。

在线运行：https://go.hyper.ai/wMQWN

在这里插入图片描述

模型示例

4. VASP 教程：1-1. 孤立氧原子的 DFT 计算

VASP 是一个进行电子结构计算和量子力学-分子动力学模拟软件包。它是目前材料模拟和计算物质科学研究中最流行的商用软件之一，其高准确性和强大的功能使其成为研究者进行材料性质预测和设计的重要工具，被广泛用于固体物理学、材料科学、化学、分子动力学等领域。

该教程为 VASP 官方教程的第一部分：孤立氧原子的 DFT 计算。点击下方链接，按照教程指引即可从 0 开始 DFT 高性能计算。

在线运行：https://go.hyper.ai/pa2NX

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们添加神经星星微信（微信号：Hyperai01）备注【SD教程】，入群探讨各类技术问题、分享应用效果~

社区文章精选

1. 首个！四大高校联合推出药物研发大语言模型 Y-Mol，性能全面领先 LLaMA2

由于药物研发缺乏统一的标准范式，研发过程复杂且需要精准的数据标注，导致大语言模型在药物研发领域应用受限。对此，四大高校研究团队联合提出了一种多尺度生物医学知识指导的大语言模型 Y-Mol。它能够在不同的文本语料库和指令上进行微调，增强了模型在药物研发方面的性能与潜力。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/14X5I

2. 从哈佛哲学系到蛋白质设计大师，David Baker：AlphaFold 令我深刻认识到深度学习的力量

作为蛋白质设计领域的世界级大师，David Baker 开源了众多深度学习工具，同时他也是「学术卷王」，在蛋白质方向发表研究论文 700 余篇，引用量累计高达 17.7 万。David Bake 作为创始人身份直接参与 21 家公司的发展，涉及领域包括疾病治疗、食品生产和材料科学等。点击阅读，了解 David Baker 的传奇经历。

查看完整报道：https://go.hyper.ai/ItxvG

3. 收集 20+时空数据集，超 1.3 亿样本点，清华研究团队基于生成式 AI，提出 3 种城市复杂系统建模方法

在 HyperAI超神经联合出品的 COSCon’24 AI for Science 论坛中，来自清华大学电子工程系城市科学与计算研究中心的博士后研究员丁璟韬，以「AI 驱动的城市复杂系统建模及规律发现」为题，为大家深入讲解了城市复杂系统的时空生成式建模方法以及团队的最新研究进展。干货满满，点击阅读。

查看完整报道：https://go.hyper.ai/qaDYE

4. 黄仁勋对话孙正义：日本的 AI 新饼、 Arm 的 AI 野心与英伟达的东亚新机会

11 月 13 日，黄仁勋与孙正义在日本进行了一次线下对谈，回顾了后者过往对于英伟达的投资，共同探讨了日本 AI 发展。黄仁勋直言孙正义是「世界上唯一一个在每一代技术变革中，都选择了获胜者并与获胜者合作的企业家和创新者」。本文为大家梳理了二人之间的过往纠葛，以及现阶段发展方向。点击阅读，了解详情。

查看完整报道：https://go.hyper.ai/hLKbG