当前位置: 首页 > article >正文

【doccano】文本标注工具——属性级情感分析标注自己的业务数据

笔记为自我总结整理的学习笔记,若有错误欢迎指出哟~

【doccano】文本标注工具——属性级情感分析标注自己的业务数据

  • 1.说明
  • 2.前提条件
  • 3.doccano创建项目
  • 4.添加数据集
  • 5.添加标签
  • 6.标注数据
  • 7.导出数据转换格式

1.说明

在这里插入图片描述

2.前提条件

确保doccano已经安装完成
可以参考文章:
【doccano】文本标注工具——安装运行教程

3.doccano创建项目

在这里插入图片描述
选择序列标注
在这里插入图片描述

在这里插入图片描述
在标注文本时允许标注的区间出现重叠
勾选allow overlapping spans

在文本中标注实体之间的关系
勾选use relation labeling
在这里插入图片描述

4.添加数据集

数据集格式为txt文本
每行一条评论
在这里插入图片描述
选择textline,导入
在这里插入图片描述
导入完成
在这里插入图片描述

5.添加标签

在这里插入图片描述
或者导入自定义标签

[
    {
        "text": "体验:1",
        "background_color": "#FF0000",
        "text_color": "#ffffff"
    },
    {
        "text": "体验:-1",
       "background_color": "#FF0000",
        "text_color": "#ffffff"
    },
    {
        "text": "设计:1",
        "background_color": "#00FF00",
        "text_color": "#000000"
    },
    {
        "text": "设计:-1",
        "background_color": "#00FF00",
        "text_color": "#000000"
    },
    {
        "text": "电池:1",
        "background_color": "#0000FF",
        "text_color": "#ffffff"
    },
    {
        "text": "电池:-1",
        "background_color": "#0000FF",
        "text_color": "#ffffff"
    },
    {
        "text": "性能:1",
        "background_color": "#FFFF00",
        "text_color": "#000000"
    },
    {
        "text": "性能:-1",
        "background_color": "#FFFF00",
        "text_color": "#000000"
    },
    {
        "text": "摄像:1",
        "background_color": "#FF00FF",
        "text_color": "#ffffff"
    },
    {
        "text": "摄像:-1",
        "background_color": "#FF00FF",
        "text_color": "#ffffff"
    },
    {
        "text": "通信:1",
       "background_color": "#00FFFF",
        "text_color": "#000000"
    },
    {
        "text": "通信:-1",
       "background_color": "#00FFFF",
        "text_color": "#000000"
    },
]

在这里插入图片描述

6.标注数据

在这里插入图片描述

7.导出数据转换格式

导出标注数据为jsonl格式,改后缀名为json格式
在这里插入图片描述

转为txt格式

import json

# 读取JSON文件并处理每条数据
with open('admin.json', 'r', encoding='utf-8') as file:
    lines = file.readlines()
    for line in lines:
        data = json.loads(line)

        # 处理每条数据并写入txt文件
        id = data['id']
        text = data['text']
        label = data['label']

        with open('output.txt', 'a', encoding='utf-8') as output_file:
            for lbl in label:
                start = lbl[0]
                end = lbl[1]
                category = lbl[2].split(":")[0]   # 获取类别名称
                tag = lbl[2].split(":")[1]    # 获取类别标签
                output_file.write(f"{tag}\t{category}#{text[start:end]}\t{text}\n")

输出格式:
在这里插入图片描述


http://www.kler.cn/a/155924.html

相关文章:

  • MarsCode青训营打卡Day1(2025年1月14日)|稀土掘金-16.最大矩形面积问题
  • Qiankun 微前端框架全面解析:架构、原理与最佳实践
  • Maven在Win10上的安装教程
  • 【MySQL】数据库约束和多表查询
  • 将图像输入批次扁平化为CNN
  • 简单组合逻辑
  • 使用SLS日志服务采集Kong网关的日志
  • c语言编程题经典100例——(41~45例)
  • Android textView 显示: STRING_TOO_LARGE
  • 23.12.3日总结
  • 鸿蒙工具DevEco Studio调试Build task failed. Open the Run window to view details.
  • 讲一讲redis的使用
  • WordPress外贸站优化工具,WordPress外贸SEO优化方法
  • iOS Class Guard 成功了,但无法区分差异
  • ssm医药进出口交易系统源码和论文
  • 移除元素、合并两个有序数组(leetcode)
  • 人工智能(pytorch)搭建模型21-基于pytorch搭建卷积神经网络VoVNetV2模型,并利用简单数据进行快速训练
  • Stable Diffusion 系列教程 - 1 基础准备(针对新手)
  • 浅析SD-WAN技术如何加强企业网络安全
  • YOLOv8 区域计数 | 入侵检测 | 人员闯入
  • 编程中常见的技术难题有哪些?By AI
  • java八股文
  • 文件操作详解
  • 猜数字赢金币
  • Unity报错总结
  • flutter开发实战-当前界面无操作60s返回主页实现