当前位置：首页 > article >正文

NeRF在农业领域的应用-------------（1）

article 2024/11/16 0:53:18

一、Exploring Accurate 3D Phenotyping in Greenhouse through Neural Radiance Fields（通过神经辐射场探索温室中精确的三维表型分析）

1.摘要

在精准农业中，准确收集植物表型对于优化可持续农业实践至关重要。在受控实验室环境中进行的传统表型分析虽然很有价值，但对于理解植物在真实世界条件下的生长不足。新兴的传感器和数字技术为直接在农场环境中对植物进行表型分析提供了一种很有前景的方法。本研究使用神经辐射场 (NeRF) 研究了一种基于学习的表型分析方法，以实现对温室环境中辣椒植物的精确原位表型分析。为了定量评估该方法的性能，实施了传统的基于 3D 扫描数据的点云配准方法进行比较。实验结果表明，NeRF (神经辐射场) 与 3D 扫描方法相比，达到了具有竞争力的精度。基于扫描仪的方法与基于 NeRF 的方法之间的平均距离误差为0.865mm。本研究表明，基于学习的 NeRF 方法达到了与基于 3D 扫描方法类似的精度，但具有更高的可扩展性和鲁棒性。

文章链接：[2403.15981] Exploring Accurate 3D Phenotyping in Greenhouse through Neural Radiance Fields

源码：无

2.引言

人工智能和高精度传感器的发展改变了农业生产的范式。精准农业正在迅速发展，与传统生产方法相比，显著提高了效率和生产力 [1]。在精准农业中，植物表型的测量至关重要。植物表型分析是一门不断发展的科学，它遵循植物基因组学和生态生理学 [2]，[3]。表型分析可以快速了解具有复杂结构的基因表达的性状，并有助于理解不同植物功能的遗传特征。此外，植物育种家需要持续的生长实验来选择植物生长的最佳环境。由于基因型的众多特征，表型分析是一项复杂且具有挑战性的任务[4][5]。传统方法上，植物育种家一直进行手动表型分析，这是一种昂贵、劳动密集且耗时的过程。因此，目前需要更简便、更准确的表型分析测量方法 [6]。

可以使用 RGB 相机实现 2D 成像，以测量植物的基本形态特征，如颜色、形状和纹理。但是，由于数据仅限于二维 [7]，因此缺少几何外观。 3D 成像系统可以高质量地捕捉植物的基本几何特征，例如体积、茎角和投影冠层面积。此外，3D 方法可以随着时间的推移跟踪植物生长和产量，帮助研究人员做出表型判断 [8][9]。高质量的 3D 重建模型可用于表征叶片、估计作物产量和分类果实 [10][11]。近年来，已经开发了几种技术方法来快速准确地获取植物形态和结构的三维数据。这些方法包括使用深度相机 [12] 和 3D 扫描仪 [13] 等仪器来获取果实 [14] 的高质量 3D 点云数据。多视图立体 (MVS) 是一种比使用多个相机进行表型采集的 3D 扫描更有效的方法 [15]。 NeRF 是一种基于神经网络的新视图合成方法，通过从 2D 图像中学习信息来实现快速重建 3D 模型 [16]。在各种情况下，NeRF 可以提供使用二维数据 alone 难以获得的宝贵见解。这是通过结合多视图数据来实现的，这有助于克服植物结构中遮挡和交叉造成的限制。 NeRF 可以重建植物的距离、方向和光照，提供新的视角。尽管 NeRF 是隐式场表示，但它将密度信息存储在神经网络中，作为后续几何提取的关键数据库。

尽管已经取得了一些进展，但目前获取表型数据的现有方法仍然存在挑战。首先，使用高精度 3D 扫描仪价格昂贵，需要特定的采集环境。其次，由于点云的密集和连续特性，处理获取的点云数据非常费力，涉及过滤和对齐等多个步骤。因此，这会导致建模时间显著增加。此外，基于 MVS 的 3D 重建方法需要高分辨率和精确的测量，以及对多视图图像的连续采集。严格的设备要求导致流程更长，整体稳健性降低。尽管当前使用高保真神经辐射场的 3D 表型重建方法可以产生高质量的几何形状，但在恢复场景的实际尺寸以进行模型的实际数据测量方面仍然存在差距。

因此，本研究调查了传统的 3D 扫描仪测量方法和基于神经网络的 NeRF 3D 重建方法。本研究中使用的高精度 3D 扫描仪提供了全面评估重建质量所需的数据。对各种重建方法生成的几何模型的质量进行了比较分析，包括尺度恢复。具体来说，本文的贡献如下：

引入了一种恢复 NeRF 真实尺度的方法，将其与点云的高精度融合结果进行比较，以计算真实尺寸。提高了 NeRF 模型在植物场景中的泛化能力和稳健性。引入了一个 3D 语义分割网络，以提高表型检测的准确性。

本文其余部分组织如下。第二部分概述了相关工作。第三部分详细介绍了比较点云测量和 NeRF 重建以及尺度恢复的方法。第四部分讨论了实验结果和细节。第五部分是结论。

3.相关研究工作

A. Plant Phenotyping

表型组学是一个新兴的研究领域，它在多个维度上量化动植物性状。它提供了全面的科学知识，不再局限于对单个性状的研究 [17]。传统方法依赖于成像和 3D 距离传感器来测量各种植物性状，例如颜色、形状、体积和空间结构 [18]、[2]。 Han 等人使用 RGB 相机进行快速且廉价的数据采集。然而，测量的维数仅限于二维，缺乏高维数据 [19]。相反，Zhu 等人使用深度相机 (RGB-D) 来获取番茄冠层 [20] 的全宽度图像信息。 Forero 等人使用 3D 激光雷达扫描植物幼苗，以获取生长过程的点云 [21]。然而，虽然传统的基于传感器的表型分析设备能够收集各种表型数据，但它们受到易受环境因素影响和要求苛刻的限制。

B. Explicit Modelling Approaches

传统的表型模型重建方法通常涉及显式模型重建，其数据存储方法包括点云、网格和体素。 Jay 等人使用数码相机捕获连续图像，并结合结构恢复运动 (SFM) 方法重建田间作物模型 [22]。 Kang 等人提出了一种基于 LiDAR 颜色融合的视觉感知策略，用于在果园中实现准确的场景理解和果实定位 [23]、[24]。 Guo 等人使用 Realsense 深度相机获取具有深度信息的多分辨率图像 [25]。 Yang 等人使用无人机获取具有高精度位置信息的图像 [26]。然而，所有这些方法都需要将高精度位置信息与图像数据集成，以确保模型稳定性。此外，必须连续获取大量图像，重建过程非常耗时，至少需要 25 分钟才能获得令人满意的结果。

C. Implicit Modelling Approaches

通过学习连续数学函数，在神经网络中编码空间场景的技术称为隐式重建。隐式方法尤其擅长描述复杂的拓扑结构和连续曲面。基于 NeRF 的方法，例如 Mildenhall 等人提出的方法，通过基本的射线追踪和体积渲染实现了准确的场景密度值 [16]。虽然密度场重建方法可以实现高质量的渲染效果，但可能缺乏高精度的表面信息。为了解决这一限制，Wang 等人提出了符号距离函数 (SDF)，通过施加模型约束来提高表面重建的质量 [27]。此外，Muller 等人引入了多分辨率哈希表和体素表示，以显着提高重建速度 [28]。然而，用于模型训练的大权重通常需要在训练阶段对图像进行压缩。因此，这种压缩可能会导致重建后模型的真实大小丢失，从而无法进行表型测量。

我们的研究通过研究 NeRF 用于外观渲染和 3D 建模来解决这一挑战，有效地减轻了基于 NeRF 的表型测量方法中存在的尺度差异。此外，我们通过将 NeRF 建模的准确性与高精度点云配准结果进行比较，定量评估了 NeRF 建模在表型分析中的准确性，据我们所知，以前的工作尚未进行过此类尝试。

工作流程图

4.分析方法

A. Data Acquisition System

本研究采用两种方法进行数据采集。第一种方法利用传统的图像采集技术，使用高速率和高分辨率动作相机，特别是 GoPro Hero 11。该相机能够以12Hz 的帧速率捕获 4K 分辨率图像，确保数据采集过程中的质量和连续性。但是，由于场景中植物遮挡的视野有限，只能捕获植物的一侧。所选视角是目标区域的正面视图，这需要精确的采样角度和设备稳定性。其次，使用高精度结构光从图像中获取点云数据。用于此的机械臂是＼ttXArm6 ，而结构光 3D 点云扫描仪是 RVC-X mini。装备有 3D 扫描仪的机械臂被编程为沿着要测量的目标周围的路径移动。在这条路径上预定的九个位置，机械臂停止，允许 3D 扫描仪执行点云扫描并记录机械臂的当前位置，包括其在x,y,z空间中的坐标及其旋转角度 $R x, R y, R z$ 。设备具体参数如下：

B. 3D modelling from NeRF

1）神经辐射场重建：传统的NeRF是一种基于光线追踪并使用MLP作为隐式表示的3D重建方法。将点位置坐标 $(x, y, z)$ 和观察方向 $(\theta,\phi)$ 输入到射线方程 $r(t)=o+t{\bf d}$ 中，其中 $o$ 为位置坐标， $\mathbf{d}$ 是观察方向， $t$ 是采样点到原点的距离。特别需要在编码中加入位置坐标和观察方向，编码函数为：

$\gamma(p)=\prod_{L=0}^{10}\left(\sin2^{L}\pi p\cdot\cos2^{L}\pi p\right).\tag{1}$

编码对于提取高维信息以增强特征并避免相似性很有用。[29]每个像素点辐射一条射线并创建MLP（多层感知），对其进行训练并保存权重参数。NeRF的MLP有10层，前9层每层有256个神经元，第10层有128个神经元。然后使用体积渲染来预测像素点的颜色值。 [30] 体积渲染函数为：

$C(\mathbf{r})=\int_{t_{1}}^{t_{2}}T(t)\cdot{\boldsymbol{\sigma}}(\mathbf{r}(t))\cdot\mathbf{c}(\mathbf{r}(t),\mathbf{d})d t,\qquad\tag{2}$

其中 $T (t)$ 表示透射率函数，它受采样点不透明度和采样距离的影响：

$p(-\int_{t_{n}}^{t}\sigma({\bf r}(s))d s).\tag{3}$

由于采样点是离散的，我们需要对它们进行积分。因此，我们使用近似积分来计算渲染的颜色值。近似方程为：

${\hat{C}}(\mathbf{r})=\sum_{i=1}^{N}e x p\bigl(-\sum_{j=1}^{i-1}\sigma_{j}\delta_{j}\bigr)\bigl(1-e x p\bigl(-\sigma_{i}\delta_{i}\bigr)\bigr)\mathbf{c}_{i}.\quad\mathrm{(4)}$

NeRF在采样过程中分为粗采样和精采样，以提高采样效率。等间隔粗采样后，选择权重较大的区域进行细采样。这种设置有效地减少了对空点的额外采样。

最后，从渲染的颜色值计算损失并进行反向传播：

$\mathcal{L}=\sum_{r\in R}||C(\mathbf{r})-C_{g t}(\mathbf{r})||_{2}^{2}\tag{5}$

NERF处理流程图

2）Instant-NGP 的神经渲染：Instant-NGP 用多分辨率哈希编码取代高维位置编码 $\gamma(p)$ 。位置特征值保存在哈希表中，参数数量可以得到控制，不会随着点数的增加而增加。

哈希表参数设置

3D场景架构中的哈希编码，将场景均匀划分为16个分辨率级别的体素网格。每个体素网格的8个顶点的坐标是固定的，当采样点进入体素网格时，将通过哈希函数对其进行操作以获得相应的索引并获得索引值。哈希函数为 $h_{i}\;=\;\left(\tau_{1}x_{i}\,\oplus\,\tau_{2}y_{i}\,\oplus\,\tau_{3}z_{i}\right)T$ ，其中 $\oplus$ 运算、 $\tau_{1}=1，\tau_{2}\,=\,2654435761$ 和 $\tau_{3}\,=\,805459861$ .对索引值进行三线性插值运算。并累积所有分辨率的插值，加上颜色编码，作为小型 MLP 的输入值，用于网络训练。新的编码方法使特征存储更加高效，仅使用 NeRF 神经元数量的 $5\%$ 即可实现超过 NeRF 的效果，并将速度提高*40 。

3）Neus 的神经重建：Neus 是一种重建方法，可以使物体的表面更接近真实表面进行重建。它采用 NeRF（神经辐射场）使用的密度值，并用点到表面的距离（有符号距离场）[27] 取代它们。物体的表面 S 是等于零的函数，该函数是 $\mathbf{S}\;=\;\left\{\mathbf{x}\in\mathbb{R}^{3}\vert f(\mathbf{x})=0\right\} ∈ |$ 。然而，在 3D 光线追踪场景中，使用基本逻辑密度分布 $\phi_{s}(x)\,=\,s e^{-s x}/(1+e^{-s x})^{2}$ 。引入了表面偏差，影响了重建的质量。因此，Neus 引入了一种无偏且考虑遮挡的权重函数：

$w(t)=\frac{\phi_{s}(f(\mathbf{p}(t)))}{\int_{0}^{+\infty}\phi_{s}(f(\mathbf{p}(u)))\mathrm{d}u},\tag{6}$

其中 $\mathbf{p}(t)$ 是像素射线上的一点。这确保了获得的最终 SDF 值无限接近于表面。 Neus 本质上使用与 NeRF 体积渲染相同的图像形成模型。

然而，Neus 提高了表面重建的质量，但训练过程耗时且不稳定。 Instant-NSR 引入了类似于 InstantNGP 的哈希编码，以显着提高速度并提高网络训练的稳定性[31]。为了解决哈希编码框架中 SDF 表示导致的收敛问题，Instant-NSR 引入了截断 SDF (TSDF)。 TSDF 值范围为 -1到 1。此属性可防止逻辑密度分布在累积期间出现数值溢出，从而避免训练期间的不稳定并促进网络收敛。实现 TSDF 截断效果的函数为：

$\pi(f(\mathbf{x}))={\frac{1-e^{-b f(\mathbf{x})}}{1+e^{-b f(\mathbf{x})}}}.\tag{7}$

通过添加约束，它可以有效地帮助模型收敛并找到物体的表面。

我们对 NeuS 的改进：在 Instant-NSR 模型的训练阶段，我们遇到一个反复出现的问题，即在重建过程中经常会出现空洞。这种现象对最终网格重建的质量产生了显著的不利影响。为解决此问题，进行了各种尝试，包括增加图像数据量和调整相机模型参数。但是，这些努力没有产生令人满意的结果。在对先前研究数据集的重建结果和数据集特征进行比较分析时，我们观察到一种普遍的做法是在采样过程中将要重建的对象保持在场景的中心。这种做法与 NeRF 的光线追踪原理一致。但是，在复杂的农业场景中，确保整个植物及其相关的测量值在采样过程中保持居中是一项重大挑战。

为了应对这一挑战，我们主动重现了模型代码，随后修改了负责计算场景质心的代码。这种调整使我们能够在更合适的范围内设置参数。结果，我们观察到场景质心计算的准确性显着提高，从而导致模型重建的质量显着提高，尤其是在复杂的农业场景中。

C. 3D modelling from Point Cloud Registration

D. 表型测量后处理

1) 3D点云椒果检测：PointNet 是一种 3D 分割方法，能够在自然果园中实现高效分割[24]。自然果园中的点云是不均匀且无序的，缺乏类似于图像的结构化邻域区域[32]。为了解决这个问题，PointNet 网络结合了层次特征学习策略，从点云中提取和学习特征，这比以前的网络有了改进。论文描述了一个分层点集抽象层，可以增量学习特征并总结提取的信息。它使用四个集合抽象 (SA) 层和特征传播 (FP) 层来处理每个级别的点云，并通过沿相邻区域传播点特征来执行密集预测。采样层、分组层和 PointNet 层构成了 SA 的三层结构。采样层使用迭代最远点采样从输入点集中均匀地选择固定数量的点。分组层识别每个质心局部区域内的相邻点。 PointNet 层从质心的每个邻域区域提取特征。在体系结构中使用连续堆叠的层可以减少欠采样对模型的影响。这是通过允许模型提取和处理来自多个区域的特征来实现的，从而减轻对点云进行下采样时欠采样的影响。此外，FP 层用于对点进行上采样并将处理后的特征传播到集合中的每个点。

2) 表型数据的测量：使用 NeRF 重建的 3D 模型需要转换为实际尺寸，以便进行最终的表型估计。为此，必须找到和识别形状规则且相对完整的缩放标记。精确的校准板用作校准重建的标记。然后，将重建点云中校准板估计长度与实际长度之间的比例因子用作重建的校正比例。估计结果为：

$\tau=\frac{L}{L_{\mathrm{NReRF}}},\tag{9}$

其中 $\tau$ 是估计的比例因子， $L$ 是实际测量的长度, $L_{\mathrm{NaRF}}$ 是来自NeRF的缩放标记的估计长度。

5.实验结论

A. Experimental setup

在本研究中，使用配备高精度 3D 扫描仪的机械臂来收集准确的位姿数据，用于合并 3D 点云数据。图像数据由位于同一位置的运动相机同时捕获。实验中使用了一个标准农业数据集。最初，机械臂运输采样设备并精确控制采样距离。研究记录了每个采样位置的精确位置和相应的 3D 点云。然后对 3D 点云数据进行配准和融合，同时使用 NeRF 模型重建运动相机收集的图像数据以生成高保真重建网格。最后，将 3D 语义分割网络集成到研究中，以促进果实表型测量。

1) 数据集采集和处理：研究数据来自广东省农业科学院云实验基地辣椒种植温室。采集方法分别使用运动相机和机械臂安装的 3D 扫描仪收集 2D 图像数据和 3D 点云数据。从具有不同生长过程和性状特征的辣椒中收集数据，包括那些具有复杂结构和遮挡的辣椒，以评估我们模型重建的有效性。

2) 评估方法：评估指标继续沿用之前使用的PSNR（峰值信噪比），并更加关注人眼感知显着SSIM（结构相似性指标测量）的差异。 SSIM从亮度、对比度和结构三个指标综合评估图像质量，能够更真实地接近人眼评估差异。亮度取平均值，图像对比度取标准差，结构相似性取协方差，公式如下：

$M(x,y)=\frac{\big(2\mu_{x}\mu_{y}+C_{1}\big)\big(2\sigma_{x y}+C_{2}\big)}{\big(\mu_{x}^{2}+\mu_{y}^{2}+C_{1}\big)\big(\sigma_{x}^{2}+\sigma_{y}^{2}+C_{2}\big)}.\,\,\,\,\,\,\,\,\,\,\tag{10}$

$\mathrm{PSNR}=10\times\log_{10}\left({\frac{M A X_{I}^{2}}{\mathrm{MSE}}}\right).\tag{11}$

B. Ablation Study on NeRF-based Approach

本节介绍了三种重建方法的结果：高精度3D扫描仪对齐后的点云、Instant-NGP（最快的NeRF模型重建）和Instant-NSR（具有最佳表面重建质量的模型）。此外，它还展示了我们对Instant-NSR模型优化的结果。

表 III 对两种神经网络重建方法 Instant-NGP 和 Instant-NSR 与之前的多视图重建方法进行了比较。评估指标表明，Instant-NGP 和 Instant-NSR 方法优于以前的传统多视图重建方法，并且具有显著的时间改进。此外，模型的权重大小减少，这有利于模型优化和部署。

基于密度场的 Instant-NGP 可以在短时间内生成高分辨率网格和即时渲染。然而，由于密度场的特性，基于某个区域的等密度值获得的网格缺乏对重建水果表面进行准确计算。结果，对具有光滑表面的植物进行建模，例如西瓜和甜椒，无法实现光滑的表面结构，这也导致网格着色偏离真实值。因此，本文重点介绍了使用基于距离符号场的 Instant-NSR 模型重建的优势。 Instant-NSR 在网络中添加了 SDF，用于计算表面位置。这使得模型能够获得准确的水果表面值并导出和着色网格。同时，由于添加了新的约束，复杂场景的重建可能较慢。然而，该模型仍然能够在不到 12 分钟的时间内完成重建，这比以前的方法更快，并产生更好的结果。

我们方法中一个重要的改进是对场景中心的计算进行了优化。为了证明这种改进的结果，我们进行了一个消融实验。图 7c 和 e 说明了在优化 InstantNSR 模型之前和之后获得的结果的比较。图像清楚地表明，与原始网络重建相比，优化后的结果显着提高。彩色辣椒场景重建结果证明了我们的场景中心优化的有效性。

在点云数据的重建过程中，观察到扫描具有光滑表面的物体，例如辣椒，会导致获得的点云数据出现几个问题。 (1) 由于无法从光滑表面获得准确的反射，目标边缘上的物体边缘经常重建不良。 (2) 在环境白天照明下，从不同角度观察到的颜色存在差异，这可能导致重建点云中的颜色不均匀。 (3) 扫描仪在弱光条件下会产生许多伪影。 (4) 过量的光线会导致光滑表面出现强反射，这会严重影响数据采集并导致重建中出现空洞。所有这些问题都会影响植物表型的采集和测量，从而导致数据不准确。此外，扫描仪获得的点云颜色在采集时保持固定。因此，在渲染 NeRF 模型时，颜色会根据观察视角立即调整，以确保符合光学规则。

之前关于 NeRF 重建的研究经常将重建数据输入与图像进行压缩，以提高训练速度和模型鲁棒性。尽管模型在重建后可以保持高分辨率和精度，但它失去了真实的比例，无法获取表型数据。为了解决这个问题，我们在数据采集过程中包括了尺寸与彩色辣椒相似的标准校准板。此外，我们在重建模型时添加了校准板区域的重建。利用网格测量工具，对重建数据进行了精确测量。然后将 NeRF 模型重建的校准板的标准长度与实际值进行比较，以确定模型的比例。使用尺度恢复算法将 NeRF 模型的点云和网格尺寸恢复为其真实尺寸。最后，我们将恢复后的模型与从 3D 扫描仪获得的点云进行比较，并测量两个点云模型之间的平均距离，以评估模型在比例恢复后的准确性。表 IV 显示了使用这两个模型的平均点云距离的相应结果。

D. 表型测量演示

在我们之前的一项研究中，我们介绍了一种基于深度学习的网络，用于点云的 3D 语义分割和后处理。在复杂的农业场景中，存在许多会影响表型数据（例如叶片和树枝）收集的干扰。分割网络简单高效，使模型能够快速提取水果模型进行重建，准确确定表型测量区域，并在复杂场景中进行高精度测量。因此，为了确保准确的测量，数据采集过程中包括尺寸与彩色辣椒尺寸相似的标准校准板。。