当前位置：首页 > article >正文

郑哲：学习、应用初探与探索创新 | 提升之路系列（四）

article 2025/4/2 17:26:42

导读

为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新应用能力。

我是土木工程系2019级的博士生郑哲（图1）。通过本科系列实践和实习，我深刻了解到土木工程行业的自动化程度较低，设计、审图、施工过程中的很多工作都完全依赖人工。人工完成工作容易犯错，并且导致相关从业人员工作压力巨大。我希望能将重复的工作交给计算机去完成，让工程师能够专注于设计与创造。

图1 个人生活照

2019年入学后我加入了大数据能力提升项目，该项目给了我提升自己代码能力、学习前沿算法以及与不同专业同学交流的机会。经过一年的学习，我获得了大数据项目的证书。更重要的是，我提升了自己的通过编程解决实际问题的能力。转眼已博四，临近毕业，回想起来，从这个项目中收获到了很多。以下将就我在大数据能力提升项目中的一些收获与体会进行总结。

一、学习阶段——打好基础、兴趣驱动

最初，我对于AI、大数据相关内容都了解很少。借助大数据能力提升项目这个优秀的平台，我选择了四门课程提升自己的大数据技能，并在一学年内获得了3门A，1门A-的成绩，获得了大数据项目证书。在龙明盛老师的《深度学习》课程中我了解到“自然语言处理是人工智能皇冠上的明珠”，因此我对自然语言处理特别感兴趣。于是又选择了《自然语言处理与文本挖掘》这门课程，该课程决定了博士研究方向甚至未来的工作路线。

二、应用初探——实践课

本项目的暑期大数据实践课程让我受益匪浅。我参与了清华大学建筑系&北京城市实验室（BCL）龙瀛老师的“基于高分遥感影响的城市空地识别”课题。该课题旨在实现自动的空地识别，计算城市空地率，从而为城市规范发展提供建议。我主要负责技术路线（图2）制定、数据标注以及代码撰写工作，具体包括：遥感影像预处理、基于DeepLabv3的分层空地识别算法、预测结果后处理。所提出的方法精度与领域专家接近，在效率方法提升了15倍以上，降低了对人工的依赖。该工作获得了龙瀛老师的高度评价、大数据实践课“优秀团队奖”，相关成果发表在城规TOP期刊“Landscape and Urban Planning”上。在此之后，该方法被BCL应用于国内上百个城市空地的评估。这次实践课让我迈出了 “提升土建行业自动化”的第一步。

图2 基于高分遥感影响的城市空地识别技术路线

三、探索创新——智能审查助力行业转型升级

建筑建设过程包括：设计、审查、施工、运维四个阶段。审查是控制设计质量的关键环节，因为设计审查纰漏导致的工期、成本损失最高分别可达9%和20%以上。但现有人工审查费时耗力错漏多，因此智能审查应运而生。但是智能审查中面临三个关键难题：计算机如何读懂自然语言编写的规范？计算机如何理解设计以及设计的性能？如何构建智能审查系统？因此，我的科研工作主要围绕上述三个问题展开：计算机如何理解土建文本规范、设计审查中性能仿真以及智能审图与设计系统构建三个部分。

3.1 计算机如何理解土建文本规范

土建行业现有规范都采用自然语言编写，因此，让计算机理解以自然语言编写的规范（称为自动规则解译）是实现自动审查的关键也是最困难的一步，需要在模型和算法方面实现突破。

在模型方面，针对通用预训练模型难以理解领域专业术语的难题。我构建了千万级字符的土木领域语料，基于迁移学习建立了领域知识嵌入增强的预训练模型（图3）。实现了让通用模型变成领域专家；在土建领域多类自然语言处理任务的性能提升。相关论文发表在计算机TOP期刊computers in industry。

图3 领域知识嵌入增强的预训练模型

在算法方面，针对人工将文本规范编写为计算机代码效率低难拓展的难题。我利用上述领域语言模型，提出了支持语义对齐与隐式推理的复杂条文自动解译方法（图4）。实现了自动将文本形式的规范条文转化为计算机可执行代码。该算法在复杂句解译方面比现有算法精度提升35%。同时相比人工解译能提升5倍以上的效率。相关论文发表在土木顶刊Automation in Construction上。