郑哲:学习、应用初探与探索创新 | 提升之路系列(四)
导读
为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。
我是土木工程系2019级的博士生郑哲(图1)。通过本科系列实践和实习,我深刻了解到土木工程行业的自动化程度较低,设计、审图、施工过程中的很多工作都完全依赖人工。人工完成工作容易犯错,并且导致相关从业人员工作压力巨大。我希望能将重复的工作交给计算机去完成,让工程师能够专注于设计与创造。
图1 个人生活照
2019年入学后我加入了大数据能力提升项目,该项目给了我提升自己代码能力、学习前沿算法以及与不同专业同学交流的机会。经过一年的学习,我获得了大数据项目的证书。更重要的是,我提升了自己的通过编程解决实际问题的能力。转眼已博四,临近毕业,回想起来,从这个项目中收获到了很多。以下将就我在大数据能力提升项目中的一些收获与体会进行总结。
一、学习阶段——打好基础、兴趣驱动
最初,我对于AI、大数据相关内容都了解很少。借助大数据能力提升项目这个优秀的平台,我选择了四门课程提升自己的大数据技能,并在一学年内获得了3门A,1门A-的成绩,获得了大数据项目证书。在龙明盛老师的《深度学习》课程中我了解到“自然语言处理是人工智能皇冠上的明珠”,因此我对自然语言处理特别感兴趣。于是又选择了《自然语言处理与文本挖掘》这门课程,该课程决定了博士研究方向甚至未来的工作路线。
二、应用初探——实践课
本项目的暑期大数据实践课程让我受益匪浅。我参与了清华大学建筑系&北京城市实验室(BCL)龙瀛老师的“基于高分遥感影响的城市空地识别”课题。该课题旨在实现自动的空地识别,计算城市空地率,从而为城市规范发展提供建议。我主要负责技术路线(图2)制定、数据标注以及代码撰写工作,具体包括:遥感影像预处理、基于DeepLabv3的分层空地识别算法、预测结果后处理。所提出的方法精度与领域专家接近,在效率方法提升了15倍以上,降低了对人工的依赖。该工作获得了龙瀛老师的高度评价、大数据实践课“优秀团队奖”,相关成果发表在城规TOP期刊“Landscape and Urban Planning”上。在此之后,该方法被BCL应用于国内上百个城市空地的评估。这次实践课让我迈出了 “提升土建行业自动化”的第一步。
图2 基于高分遥感影响的城市空地识别技术路线
三、探索创新——智能审查助力行业转型升级
建筑建设过程包括:设计、审查、施工、运维四个阶段。审查是控制设计质量的关键环节,因为设计审查纰漏导致的工期、成本损失最高分别可达9%和20%以上。但现有人工审查费时耗力错漏多,因此智能审查应运而生。但是智能审查中面临三个关键难题:计算机如何读懂自然语言编写的规范?计算机如何理解设计以及设计的性能?如何构建智能审查系统?因此,我的科研工作主要围绕上述三个问题展开:计算机如何理解土建文本规范、设计审查中性能仿真以及智能审图与设计系统构建三个部分。
3.1 计算机如何理解土建文本规范
土建行业现有规范都采用自然语言编写,因此,让计算机理解以自然语言编写的规范(称为自动规则解译)是实现自动审查的关键也是最困难的一步,需要在模型和算法方面实现突破。
在模型方面,针对通用预训练模型难以理解领域专业术语的难题。我构建了千万级字符的土木领域语料,基于迁移学习建立了领域知识嵌入增强的预训练模型(图3)。实现了让通用模型变成领域专家;在土建领域多类自然语言处理任务的性能提升。相关论文发表在计算机TOP期刊computers in industry。
图3 领域知识嵌入增强的预训练模型
在算法方面,针对人工将文本规范编写为计算机代码效率低难拓展的难题。我利用上述领域语言模型,提出了支持语义对齐与隐式推理的复杂条文自动解译方法(图4)。实现了自动将文本形式的规范条文转化为计算机可执行代码。该算法在复杂句解译方面比现有算法精度提升35%。同时相比人工解译能提升5倍以上的效率。相关论文发表在土木顶刊Automation in Construction上。
图4 支持语义对齐与隐式推理的复杂条文自动解译方法
3.2设计审查中性能仿真
审查过程离不开对设计的性能仿真。在设计审查中的仿真模拟方面,我提出了有限元与物理引擎联合模拟方法,实现高真实感场景构建。技术应用于国内外多起重大倒塌事故的情景构建工作。
图5 (a)联合模拟方法(b)倒塌模拟应用
3.3智能审图与设计系统构建
在智能设计与审查系统构建方面,首先我基于前述文本理解模型与算法,建立了支持自动规则解译的智能审查系统,审查效率相比人工审查提升40倍(图6)。此外,我将前述模型应用到了课题组的剪力墙智能设计系列研究中,实现在剪力墙设计生成过程中考虑文本法规的指导(图7)。
图 6 支持自动规则解译的智能审查系统
图7 剪力墙智能生成式设计生成过程中考虑文本法规的指导
四、总结
入学以来,大数据能力提升项目帮助我开拓了视野、取得了成长。不过,学习与研究是永无止境的。未来,我依然会坚定地、不断地为土建行业自动化转型升级做出自己的些许贡献。真诚祝愿大数据项目未来越来越好。
编辑:于腾凯
校对:林亦霖