paddle表格识别数据制作
数据格式
其中主要数据有两个一个表格结构的检测框,一个是tokens,注意的地方是
1、只能使用双引号,单引号不行
2、使用带引号的地方是tokens里面
"<tr>", "<td", " colspan='2'", ">",
" rowspan='2'",
3、tokens里面要有内容,这里放的是“的”,为啥呢?因为按照前面的改动没有效果,现在修改后看看效果
例子
{
"filename": "4_2_折页带表格-06.jpg",
"html": {
"structure": {
"tokens": [
"<tbody>",
"<tr>",
"</td>",
"</tr>",
"</tbody>",
"</table>"
]
},
"cells": [
{
"tokens": [
"被",
"保",
"保",
"单",
"年",
"度"
],
"bbox": [
[
31,
12
],
[
414,
11
],
[
414,
121
],
[
31,
121
]
]
},
]
}
]
},
"gt": "<tbody><tr><td>被保险人身故或\n全残时的保单年度</td><td>系数</td></tr><tr><td>首个保单年度</td><td>1</td></tr><tr><td>第二个及以后\n各保单年度</td><td>(1+2.5%)(n-1),其中n为被保险人\n身故或全残时的保单年度数</td></tr></tbody>"
}