程序设计:排版、检验报告的上下标解决几种办法
【啰嗦两句】
本文重点在于提供几个针对排版文档、各种检验报告系统等程序设计时,遇到的上下标录入、绘制展示等问题的应对办法,但是准确地说,并没有非常优秀的方案。
【上下标难题】
一般的行业或许对上下标并没有严格要求,多数只需在固定的页面中展示,所以遇到的难题都不算大。但是在检验检测行业,用计算机软件表示上下标就显得困难重重,牵涉到模板软件、计算机语言、软件平台、中英文字库等。
例如纺织、食品、水质检验检测行业,在其检验、报告录入生成等过程,有大量的化学分子式、金属非金属离子根的表示方式,如下图1所示:
(图1 水质检验结果报告局部示例)
上面的氧化钙CaCO₃,←看,我不是打字打出来了吗?很简单是不是?No!你看到的只是Web版面并且常规数字3,还有比较多特殊符号。
再比如辐射检验报告如图2:
(图2 辐射检验报告局部示例)
【常规解决方案优缺点】
方案1. 用Microsoft Office Word或WPS模板
这种方案应该是最普遍的解决方案,先制作一份标准格式的Wrod模板,在模板中需要填检验结果的地方用“域”表示(也就是变量,供检验管理系统调用),或者留空给录入人员按需人工录入结果,有分子式的地方模板早早就录好了。如图3所示:
(图3 Word制作的模板局部示例)
图3模板解释:
黑色字区域是提前固定好的,因为检验项目是按对应国标或客户约定的内容提前准备好了,检验过程也只是把结果录入,所以这部分包含了复杂的分子式上下标即可。
绿色字区域原本应该是空白,这里演示了人工录入的效果,或者最终呈现给客户时的效果。
蓝色字是变量域,既可以是Word自带的域,也可以是自行约定的标准格式变量。这种变量一般用于实验室信息管理系统(LIMS)、检验管理系统等,已经有个平台支撑加载并填充检验结果。还可以进一步从Word转成PDF格式文件。所以这种用法非常普遍。
优点:1、一旦做好模板,剩下的结果数据只需要按格式填充即可,在检验管理系统里面调用,非常轻松。2、Word自带的公式编辑器,非常友好,设计出的上下标非常好看:
很多人可能到这里就已经“十分满意”。
缺点:可以说是非常大的缺点,这些上下标仅仅能在Word模板中存在,无法直接转换成Web页面前端的标准文本上下标样式,也无法直接保存到数据库。本质原因在于,Word内部用类似<SubScript>、<SuperScript>这样的标签表示上下标。例如下标CaCO₃,存储的不仅仅是数字3,而是CaCO<SubScript>3</SubScript>。这就带来一个大的难题:极大增加录入人员的录入复杂度,例如图2里面的“-SEdb”极其复杂。如果直接存储到数据库里面,并直接展示在客户端(浏览器、APP)就会把<SubScript>也显示出来。而Word导出PDF之所以能保持上下标,也是对这些特殊格式做了转换。当然,聪明的检验管理系统在呈现到页面时也可以专门转换。因为HTML本身也有<SubScript>标签。
更大的问题来了,检验行业往往有大量监管要求,需要把检验结果上传给国家监管平台系统(例如食品相关的需要上传国家抽检大平台),各个省市也会有自己的数据上传要求,这些上下标一定少不了。
好在,一般检验报告的录入部分,不需要录入上下标。上传给监管平台可能也没那么严格。
方案2. 采用自定义的格式化标准
比如用<sub></sub>富文本格式表示下标,并且在检验管理系统框架内对这些标签进行支持,在录入的地方用“Ctrl+字符”录入字符,格式标签是隐藏的,呈现的效果也很好。这种方案类似方案1。
优点:在检验管理平台内呈现效果好,并且平台框架内都兼容。
缺点:和方案1一样,不同平台就是没法兼容。
方案3. 采用UTF8的上下标字符
本文录入的CaCO₃当中的3就是用了下标字符3,这些字符很多,0-9的上下标字符都有,非常适合较简单的上下标录入。常用的数字上下标字符有如下:
上标:⁰ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ⁺ ⁻ ⁼ ⁽ ⁾ ⁿ º ˙
下标:₀ ₁ ₂ ₃ ₄ ₅ ₆ ₇ ₈ ₉ ₊ ₋ ₌ ₍ ₎ ₐ ₑ ₒ ₓ ₔ ₕ ₖ ₗ ₘ ₙ ₚ ₛ ₜ
为节约篇幅,更多上下标可以网上搜。
优点:兼容性好,几乎采用UTF-8编码的系统、文档软件都按标准呈现上下标,录入人员复制粘贴搞定,无需考虑数据的下一步去向。这些数据也可以被用于查找、统计、分析,跟操作普通0-9一样。如果只用到数字上下标的系统,推荐用这个方案。
缺点:1、字符不够多,比如d、b这2个就没有下标,虽然有上标。2、就算符号都能找到,本质上这些字符都是东拼西凑,罗马字、拉丁字等等,风格各异,呈现出来的上下标位置并不协调,样式也极其丑,版面美观要求高的系统根本没法接受。
方案4. 自行设计字库
既然方案1、2输入格式那么复杂,方案3缺字符,那为什么不自己造一个?还真有办法造!在Windows系统有个叫“专用字符编辑器”的自带软件,就具备造字功能。在系统搜索“专用字符编辑器”,就能看到。界面如图5所示:
(图4 Windows系统自带的专用字符编辑器)
专用字符编辑器就像画图标一样画出字符,保存之后系统会自动转换成矢量曲线路径。感兴趣的童鞋可以玩一玩。这个字库文件是EUDC.EUF和EUDC.TTE。
而造出来的字符可以用复制粘贴的方式,也可以采用“区位输入法”(老家伙了)打字,每个字有自己的编码。
优点:可以制作任意效果的上下标文字,并且可以在Windows环境中任何显示、打印的地方输出相同效果的文字(前提把字库弄出来安装到不同电脑上)。
缺点:这个缺点也非常多,1、自己造的字,在自己电脑没任何问题,但是还有导出并安装到别人电脑就麻烦,体验不好还权限一堆问题。2、想用输入法输入,虽然可以,但是又要翻出已经埋了多年的“区位输入法”,已知XP系统默认装了,WIN7以上已经默认不装。3、搜狗输入法似乎也走过这个路线,会占用默认的EUDC字库文件,导致自己造的字失效。4、很糟糕的是Windows10及以上版本,似乎也喜欢覆盖这个EUDC文件,每次更新都会一定概率让自造的字库失效(老外没人用过?),5、最失望的是,这个字库是GBK编码,2个字节表示一个字,中文XP及以前的系统是GBK编码,之后的系统比较灵活用上了UTF-8编码,如果用自己造的字,往往没法转UTF-8,而现在的检验管理系统所用的数据库、框架、底层几乎都不会用GBK了,因为GBK的字库容量有限,很多常见的中文都缺失,比如“啫”字,还有那么多特殊字符,跟不上时代了。6、每个符号按汉字大小占据固定尺寸,越简单的符号效果越不协调。
【总结】
以上4个方案,缺点列出来的往往比优点多,说明没有一个真正完美方案。或许未来会有编码方面的解决方案。