【读论文】——基于高光谱的玉米籽粒黄曲霉侵染方法研究
A novel hyperspectral-based approach for identification of maize kernels infected with diverse Aspergillus flavus fungi
基于高光谱的玉米籽粒黄曲霉侵染方法研究
文章目录
- 思维导图
- 摘要
- 1.引言
- 2. 材料与方法
- 2.1. 样品制备
- 2.2. 高光谱成像系统
- 2.3. 采集高光谱图像
- 2.4. 数据分析方法
- 2.4.1. 单个核的平均吸光度光谱提取
- 2.4.2. 光谱预处理
- 2.4.3. 变量选择
- 2.4.4. 判别模型的开发和评估
- 2.4.5. 对模型性能的评价
- 3. 结果与讨论
- 3.1. 获取的高光谱图像及平均光谱提取
- 3.2. 吸光度光谱的表征
- 3.3. 判别模型的结果
- 3.3.1. 全光谱模型
- (1)基于同一核侧的光谱
- (2)基于不同核边的光谱
- 3.3.2. 变量选择和简化RF-PLSDA模型
- 3.3.3. 预测核类的可视化
- 4. 结论
思维导图
论文 | 材料 | 光谱范围 | 光谱数据的提取和预处理 | 使用光谱类型 | 波长选择方法 | 模型 |
---|---|---|---|---|---|---|
A novel hyperspectral-based approach for identification of maize kernels infected with diverse Aspergillus flavus fungi基于高光谱的玉米籽粒黄曲霉侵染方法研究 | 在进行高光谱成像系统扫描前,对所有玉米粒表面进行擦拭,去除霉菌的外部痕迹。 | 900-2500nm光谱范围的线扫描NIR高光谱成像系统,系统的光谱分辨率为9.6 nm。相机的分辨率为384×166像素 | 每组玉米籽粒分别置于两个独立样品盘进行成像采集。获取的高光谱图像经分割处理后生成单粒籽粒编号图像。基于阈值法为每粒玉米籽粒创建二值掩膜,实现籽粒数据与背景分离。掩膜创建选用玉米籽粒反射率近似最高值对应的特征波长。具体处理流程如下:1.图像预处理:对各籽粒图像在选定波长下的所有像素强度进行归一化处理(除以该籽粒图像的最大强度值),以归一化后图像全部像素的均值作为二值掩膜分割阈值。2.噪声过滤:剔除像素数少于100的干扰区域,保存优化后的掩膜作为单粒籽粒的最终掩膜数据。3.光谱提取:将掩膜区域定义为单粒籽粒的感兴趣区域(ROI),从各ROI提取平均反射光谱将反射率转换为吸光度用于后续分析 | 导数处理可同时消除光谱中的加性和乘性效应,这一方法在分析光谱学中已有数十年应用历史(Rinnan等,2009)。其主要作用在于解决峰重叠(或提高分辨率)问题,并能消除样本间恒定及线性基线漂移。一般认为,一阶导数(FD)可去除基线,而二阶导数(SD)则可同时消除基线和线性趋势(Rinnan等,2009)。因此,本研究分别对单粒玉米籽粒的原始吸光度光谱进行了FD和SD预处理。为进一步降低导数变换产生的光谱噪声,所有经导数变换的光谱均采用7点Savitzky-Golay(SG)平滑法进行后处理。其中SD变换是在FD+SG平滑预处理后的光谱基础上实施的。 | RF algorithm (随机青蛙算法) | 1.偏最小二乘判别分析(PLS-DA):这是一种线性分类算法,基于偏最小二乘回归(PLS)进行光谱数据分析。PLS-DA用于建立判别模型,以区分不同处理的玉米粒(如对照组、非产毒真菌感染组和产毒真菌感染组)。2.随机蛙(RF)算法:用于变量选择,确定最具信息量的光谱变量。RF算法通过随机选择的方式迭代进行变量选择,并计算每个变量的选择概率,以此作为变量重要性的度量。3.简化型RF-PLSDA模型:使用RF算法选择的变量来简化PLS-DA模型。这些模型分为两种类型:3.1.类型I-RF-PLSDA模型:直接使用RF算法在每次随机分割数据集时选择的变量来简化全光谱PLS-DA模型。3.2.类型II-RF-PLSDA模型:进一步升级的RF-PLSDA模型,仅使用在所有随机运行中一致选为最重要的变量(即频率最高的变量)。 |
摘要
900 ~ 2500 nm光谱范围内的近红外高光谱成像技术,对接种了黄曲霉毒素真菌(AF13)的玉米籽粒与接种了非黄曲霉毒素真菌(AF36)的玉米籽粒进行了鉴定。共900粒,分3个处理,分别接种AF13、AF36和无菌蒸馏水作为对照,每300粒。300粒每处理100粒,分别孵育3、5、8天,得到不同的样品。基于从相同核侧提取的完整平均光谱,3类(对照,使用偏最小二乘判别分析(PLS-DA)方法,3类(非黄曲霉毒素和黄曲霉毒素)分类和2类(黄曲霉毒素阴性和阳性)分类的平均总体预测准确率为97.8%。利用不同核侧提取的全均值谱建立的3类和2类模型的平均总体预测准确率最高,分别为91.5%和95.1%。使用随机蛙(random frog, RF)算法确定的最重要的30、55和100个变量,简化型I-RF-PLSDA模型对使用不同核边信息的2类判别的平均总体预测精度分别为87.7%、93.8%和95.2%。在最重要的55和100个变量中,在100次随机运行中一致选择了25和67个变量,因此进一步用于建立II-RF-PLSDA型模型。利用这25个变量和67个变量,II-RF-PLSDA模型的平均总体预测精度分别为82.3%和94.9%。
1.引言
真菌毒素是丝状真菌产生的剧毒次生代谢物(Luo et al., 2018)。农产品和食品中的霉菌毒素污染一直是全球关注的问题。全球每年约有25%的收获作物受到真菌毒素污染,导致农业和工业损失数十亿美元(Marin等人,2013年)。黄曲霉毒素是毒性最强的真菌毒素之一(Ostry等人,2017),在经济负担方面也被认为是美国农业中最具问题的真菌毒素(Mitchell等人,2016)。玉米、水稻、棉籽、花生和树坚果等主要作物都容易受到黄曲霉毒素的污染(Sarma et al., 2017)。黄曲霉毒素是由产黄曲霉毒素的真菌产生的,主要是黄曲霉和寄生曲霉(Tao等人,2018),因此,被这些真菌感染的产品对人类和牲畜都构成严重的健康威胁。
确定农产品和食品真菌感染的传统技术通常基于微生物学方法,在设备齐全的微生物学实验室中进行,包括使用平板计数或直接电镀技术进行真菌计数,在适当的培养基中进行分离,并通过形态学特征识别属和种水平,包括宏观特征(颜色、大小、菌落外观)和微观特征(分生孢子、分生孢子、分生孢子头)(Pitt & Hocking, 2009, pp. 1e519;Samson et al.,2004, pp.1e389;Samson et al., 2006)。这些方法可能在实验室中给出准确的结果;然而,其中大多数都需要熟练的人员(Tao等人,2018)。它们也昂贵、耗时且对测试样品具有破坏性,因此不可能用于大规模的无损筛选检测或在线分拣和生产系统中的集成(Tao等人,2018)。因此,迫切需要有效、快速和无损的检测方法来识别感染了黄曲霉毒素真菌的产品。
光学方法已经证明了以快速和非破坏性的方式实时评估食品质量和安全属性的巨大潜力(Femenias等人,2020;Huang et al., 2008;陶等,2018;陶 & Ngadi, 2017,2018)。已有多项研究报道利用光学技术检测各种食品和农产品中的细菌污染和真菌感染,并指出了它们的潜力(Fengou等人,2019;Panagou et al., 2011;陶等,2018;陶和彭,2015;Tito et al.,2012)。在大多数报告的研究中,感染非黄曲霉毒素真菌的样本未包括在分析中。换句话说,在建立预测模型的统计分析中,一般忽略了感染了非黄曲霉毒素真菌的商品对识别感染了黄曲霉毒素真菌的商品的影响。然而,在现实世界中,在作物、种子或土壤中,非黄曲霉毒素真菌与黄曲霉毒素真菌共存(Abbas 等 ,2004,2005;Abbas, Zablotowicz, & Locke, 2004;Pildain et al., 2004),表明在相关研究中纳入非黄曲霉毒素真菌感染的样本的必要性。据我们所知,同时感染了黄曲霉毒素和非黄曲霉毒素真菌的商品来评估所提出方法有效性的研究仍然很少。只有少数报告发表,表明荧光高光谱成像、400至1000 nm之间的反射高光谱成像和可见(Vis)-近红外(NIR)光谱在区分感染了黄曲霉毒素的商品和健康商品方面的潜力。以及感染了非黄曲霉毒素真菌的商品(Jin等人,2009;陶等,2019a, 2019b;Yao等人,2013)。我们最近的研究结果表明,900e2500 nm光谱范围内的NIR高光谱成像具有区分黄曲霉毒素和非黄曲霉毒素真菌感染的玉米籽粒的潜力(陶, Yao, Hruska等,2019)。然而,在这项初步研究中,健康玉米粒没有被包括在内,因此,利用NIR高光谱区分感染了黄曲霉毒素的玉米籽粒与健康玉米粒以及感染了非黄曲霉毒素的玉米籽粒的潜力仍然未知。此外,在早期的研究中也没有解决籽粒侧对鉴别结果的影响。
因此,本研究的总体目标是系统地研究NIR高光谱成像在鉴定感染了黄曲霉毒素的玉米籽粒、健康籽粒和感染了非黄曲霉毒素的玉米籽粒中的潜力。具体目标是:
1)建立有效的判别模型来识别感染了黄曲霉毒素真菌的玉米籽粒;建立了3级和2级两类判别模型。这3类模型检验了NIR高光谱成像区分不同处理玉米籽粒的能力,即控制、非黄曲霉毒素和引起黄曲霉毒素的真菌感染。2类模型的进一步建立为未来的实际实施提供了一种简化的选择,重点关注黄曲霉毒素感染与否,因为非黄曲霉毒素感染的玉米粒只表明质量较低,但没有黄曲霉毒素污染的食品安全问题;
2)在NIR高光谱成像的基础上,识别最具信息量的光谱变量,并利用所选择的光谱变量建立简化模型;
3)提出了一种可视化预测核类标号的方法。
2. 材料与方法
2.1. 样品制备
以黄曲霉AF13(致黄曲霉毒素)和AF36(非致黄曲霉毒素)两株黄曲霉分别作为接种物,进行实验室人工接种。本研究选用这两种菌株是因为它们是可靠且一致的产黄曲霉毒素(AF13)和不产黄曲霉毒素(AF36)真菌。真菌菌株来自美国农业部(新奥尔良,LA)南部地区研究服务处(SRRC)、农业研究服务处(ARS)的食品和饲料安全研究单位。两株分离菌分别在30℃的塑料培养皿中马铃薯葡萄糖琼脂(PDA)培养基上培养在暗色培养箱中。生长5天后,收获分生孢子,将其悬浮在稀释为410-6分生孢子mL1的无菌蒸馏水中,用血细胞计测定。
玉米籽粒(杂交:先锋1184YHR)于2012年在USA密西西比州斯通维尔的ARS大田站收获。在使用前,将收获的玉米粒干燥至含水量低于15%,并保存在低温(6℃)中。本研究共使用玉米籽粒900粒,分3个处理,分别接种AF13菌300粒、AF36菌300粒、无菌蒸馏水300粒作为对照。然后分别在30℃和100%相对湿度条件下培养3、5、8天,每处理300粒各100粒。接种日记录为第0天,因此下文分别将培养3、5、8天的籽粒分别称为接种后第3天、第5天和第8天。接种真菌菌株前,将所有玉米籽粒用70%乙醇表面消毒,然后用蒸馏水冲洗3次。各处理组玉米粒浸泡接种,搅拌1 min,每组玉米粒用塑料托盘在湿室中单独孵育。每隔一天向每个培养室中加入蒸馏水,以保持水分恒定。在上述接种后当天,从培养箱中取出接种过af13的100粒、接种过af36的100粒和对照的100粒,转移到单独标记的硬币信封中(1粒/信封),置于60℃的烘箱中2天,以终止真菌生长。在进行高光谱成像系统扫描前,对所有玉米粒表面进行擦拭,去除霉菌的外部痕迹。
2.2. 高光谱成像系统
本研究采用900-2500nm光谱范围的线扫描NIR高光谱成像系统。NIR高光谱成像系统由成像光谱仪(Micro-Hyperspec®SWIR, Headwall Photonics Inc.,USA)、16位碲化汞镉(MCT)探测器、25毫米焦距镜头、卤素照明光源、配备控制器的移动平台、系统控制软件、支撑框架和计算机组成。该成像系统的光谱分辨率为9.6 nm。相机的分辨率为384×166像素,其中第一轴为空间维度,第二轴为光谱维度。曝光时间、扫描长度、移动速度等图像采集参数通过系统控制软件设置。
2.3. 采集高光谱图像
本研究采用反射模式获取高光谱图像。在采集玉米籽粒的高光谱图像之前,先获取了白色和深色参考图像,以纠正成像系统光强和暗电流分布不均匀的影响。从白色反射率参考标准中获得白色参考图像,通过将相机镜头完全覆盖其不透明帽来获得深色参考图像。使用以下公式计算测试样品的相对反射率(ElMasry et al., 2009):
采集完白色和深色参考图像后,分别采集玉米籽粒胚乳和胚芽侧面的高光谱图像。每组100粒在两个独立的样品盘上成像,每个盘由72个仁孔组成。玉米籽粒成像所用的曝光时间为8.5 ms。通过系统控制软件计算样品移动速度为32.682 mm s1。每个采集到的图像的像素大小近似为485384,485的第一个维度表示图像长度,对应于实际移动长度185mm,第二个维度表示图像宽度。
2.4. 数据分析方法
2.4.1. 单个核的平均吸光度光谱提取
如上所述,每组玉米粒在两个单独的样品盘中一起成像。因此,获得的高光谱图像被分割成单个玉米籽粒并编号。使用阈值法分别为每个玉米核创建二值掩码,将核数据与背景分离。选择玉米籽粒表现出近似最高反射率值的波长,为每个籽粒创建掩码。首先通过除以每个核图像的最大强度,对所选波长的每个核图像的所有像素的强度进行归一化,然后将每个归一化核图像的所有像素的平均值作为每个核的二值掩模创建的分割阈值。进一步,将包含少于100个像素的区域视为噪声,并从每个核的创建掩码中删除。得到的掩码被保存为所有单个内核的最终掩码数据。掩膜区域内的高光谱数据是每个玉米籽粒的选定感兴趣区域(ROI),随后从每个玉米籽粒相应的ROI提取平均反射光谱。最后,将得到的反射率转换为吸光度,并利用吸光度光谱进行进一步的数据处理。
2.4.2. 光谱预处理
衍生物有能力去除光谱中的加性和乘法效应,并且已经在分析光谱中使用了几十年(Rinnan等人,2009)。去导数主要用于解决峰重叠(或增强分辨率),并消除样品之间的恒定和线性基线漂移。一阶导数(FD)通常被认为是去除基线;二阶导数(SD)去除基线和线性趋势(Rinnan等人,2009)。因此,分别对单个玉米籽粒的原始吸光度光谱进行FD和SD预处理。进一步,为了降低导数变换产生的光谱噪声,随后对导数变换后的光谱进行7点SavitzkyeGolay (SG)平滑处理。在FD - sg平滑预处理光谱的基础上进行SD变换。
2.4.3. 变量选择
由于并非所有的光谱变量都与鉴定黄曲霉毒素侵染玉米籽粒相关,其中一些可能是噪声或包含不相关和冗余的信息,因此本研究采用RF算法来确定信息丰富的光谱变量。RF与PLS相结合,是一种以迭代方式进行随机选择的变量选择方法。RF算法计算每个变量的选择概率,可以作为变量重要性的度量(Li等人,2012)。此外,基于对从模型空间中采样的大量子模型的分析,RF可以被视为模型总体分析(MPA)的实现(Li等人,2012)。
简而言之,RF分三步工作:(1)从原始数据集中随机初始化一个变量子集;(2)它基于初始化的变量子集提出一个候选变量子集,并以一定的概率用新的候选子集更新初始化的子集。这一步循环,直到N次迭代完成;(3)计算每个变量的选择概率(Li等,2012)。经过N次迭代,总共可以得到N个变量子集。在这N个变量子集中选择的第j个变量j = 1,2,…, p的频率用Nj表示。对于每个变量,其选择概率使用以下公式计算:
对于RF计算,迭代次数(N)是一个非常重要的因素,需要足够大才能实现收敛。在目前的工作中,迭代次数被设置为10000次。
2.4.4. 判别模型的开发和评估
本研究采用基于PLS回归的线性分类算法PLS-DA建立判别模型。该算法已广泛应用于光谱数据分析,最近得到了越来越多的关注(Ambrose et al.,2016;Erkinbaev et al., 2017;Serranti等,2013;Williams et al., 2009)。该方法的详细描述已在其他地方引用(Ballabio & conni, 2013),因此此处不显示。采用10倍交叉验证法确定各PLS-DA模型的最优潜变量数(lv),并采用交叉验证中全局错误率最小的lv建立判别模型。
利用 FD + sg 和 SD + sg 的原始吸光度和预处理吸光度建立全光谱PLS-DA模型。由于光谱范围末端的信噪比可能较低,因此本研究仅使用了925~2484 nm之间的164个光谱点进行建模。图1给出了开发全光谱PLS-DA模型的流程图。如图1所示,判别模型的开发是基于是否从核的同侧获得吸光度光谱的条件。如果图像是从同一核侧(s)获取的,则模型开发将包括3种情况,即两侧的胚乳、胚芽和平均值。这三种类型的模型将分别使用从胚乳、胚芽侧或两侧的平均值获得的吸光度来开发和评估。然而,对同一核侧进行成像的假设代表了核成像的理想条件,而更现实和实用的条件将包括随机对不同核侧进行成像。因此,使用从不同核边获得的吸光度,将专门针对后一种条件开发更通用的判别模型。对于后一种情况,在一个核的胚乳和胚芽侧面提取的光谱被视为两个独立的样本。因此,与前一种条件下的数据集相比,这种条件下的数据集的样本量增加了一倍,即在后一种条件下,完整的数据集总共有1800个样本。
图1.全光谱吸光度的3级和2级判别模型的开发流程图。
对于上面提到的两种条件,分别开发了3类和2类判别模型。如图1所示,无论感染时间如何,3类判别模型中的3类分别指的是对照、af36接种和af13接种的籽粒。2类判别模型中的2类分别代表黄曲霉毒素阴性和阳性,阴性类包括对照和af36接种的籽粒,阳性类包括af13接种的籽粒,与感染时间无关。在开发判别模型时,按照3:1的样本数比,将每一类的完整数据集随机分成2个子集,即校准集和预测集。总共进行了100轮随机数据分裂,相应的,使用从每个分裂中生成的校准集和预测集,开发和评估了100个判别模型。因此,对于成像核侧相同(s)的第一种条件,分别建立了3个3100个(两端的内/胚芽/平均值 原始/FD到sg /SD到sg预处理光谱 每类数据100个随机分割)全光谱PLS-DA模型,分别用于3级和2级判别。在后一种情况下,分别建立了3个100个(原始/ FD ~ sg /SD ~ sg预处理光谱 每类数据100个随机分割)全光谱PLS-DA模型,用于3级和2级判别。
由于玉米籽粒不同侧面随机成像的情况代表了玉米籽粒较为自然的情况,因此在与全光谱得到的最优组合的基础上进行上述RF算法,选择最重要/信息量最大的光谱变量,简化判别模型。在此步骤中建立了两种简化的RF-PLSDA模型。第一种RF-PLSDA模型是全光谱PLS-DA模型的直接简化,在每100次运行中使用由RF单独排序的许多最重要的光谱变量。具体来说,RF算法对每个随机分割的数据集分别执行,并且从每个RF运行中获得的一些最重要的频谱变量专门用于该数据集,用于RF-PLSDA模型的开发和预测。由于100次随机分割的校准集之间存在差异,每一次RF的光谱变量排序结果可能不同,第二类RF-PLSDA模型进一步考虑了每一次运行中一些最重要的光谱变量的出现频率。在建立第二类RF-PLSDA模型时,仅当变量在全部100次运行中均被一致列为最重要变量时,才会被考虑并用于模型建立。因此,第二类RF-PLSDA模型是在第一类RF-PLSDA模型的基础上建立的,可以看作是RF-PLSDA模型的进一步升级。与第一类RF-PLSDA模型相比,第二类模型在实际实施中被认为更加一般化和简化,因为它在选择信息光谱变量时纳入了相对较大尺寸的玉米核中存在的各种信息。为便于后续章节表述,将统一采用以下命名方式:"频选100光谱变量"指代在随机青蛙算法100次运行中均被选为最重要变量的光谱特征;"I型RF-PLSDA模型"和"II型RF-PLSDA模型"分别对应基于变量优选的第一类和第二类随机青蛙偏最小二乘判别分析模型。
2.4.5. 对模型性能的评价
首先对每个建立的模型计算类精度和整体精度的指标,如下式所示。然后,计算每种模型100次运行时的校准和预测精度的均值和标准差(STD),并用于评估模型的性能。平均预测精度越高,STD值越小,表明模型越准确,鲁棒性越强。
3. 结果与讨论
3.1. 获取的高光谱图像及平均光谱提取
共18组不同的图像,即3张32(3次处理;对照/ af36接种/af13接种3次孵育;第3天/第5天/第8天2粒侧;内精子/胚芽),每组100粒。图2为第8天的1097 nm高光谱原始图像。详细图,子图。2(a)-©分别为对照、af36接种和af13接种的籽粒胚乳侧面图像和亚图。2(d)-(f)为相应的胚芽侧图像。从这些图像中,无法观察到对照、af36接种和af13接种3个处理之间的差异。因此,我们从高光谱图像中分别提取每个玉米籽粒的光谱信息,并在下面的章节中进行进一步处理。
图2-第8天1097 nm玉米籽粒的原始高光谱图像:a)胚乳侧对照;b)胚乳侧接种的af36;c)从胚乳侧接种af13;D)胚芽侧对照;e)从胚芽侧接种af36接种;f)从胚芽侧接种af13。
以“D3_AF13_Endo”(第3天af13接种的籽粒内端)单盘样品为例,图3给出了获取单个籽粒平均吸光度光谱的详细步骤和结果,以及每一步的结果。由于核在1097 nm处显示出大约最高的反射率值,因此使用该波长的核图像为每个核创建掩膜。子图3(a)是单托盘样品在1097 nm处的原始图像,该图像首先根据其在完整图像中的位置被分割成单个核。子图3(b)-(d)是在1097 nm处对72个单个核进行分割的图像,为72个单个核创建的二值掩码,以及应用相应掩码后在1097 nm处的单个核图像。可以观察到,创建的掩码(子图3©)和应用掩码后的内核图像(子图3(d))与原始内核图像(子图3(b))对应得很好。得到的72个单独核的平均反射率和变换吸光度光谱分别显示在子图3(e)和(f)中。
图3-提取单个核平均吸光度光谱的数据处理流程:A)单盘核的原始图像(1097 nm), b)单个核的分割图像(1097 nm), c)创建单个核的二值掩模,d)应用掩模后的单个核图像(1097 nm), e)提取单个核的平均反射光谱,f)变换单个核的吸光度光谱。
3.2. 吸光度光谱的表征
不同组核在第3、5和8天的原始和预处理吸光度光谱均值分别如图4e6所示。其中,子图(a)、(b)和©分别为采用无(原始光谱)、FD - þSG和SD - þSG预处理方法后的胚乳侧吸收光谱,子图(d)、(e)和(f)为胚芽侧相应的吸收光谱。总体而言,无论样品处理、孵育时间和核侧如何,不同组核的主要吸光度光谱图都是相似的。原始吸光度光谱在子图4(a)、(d)、5(a)、(d)、6(a)和(d)中没有明显差异。fd法例和SD法例预处理后的光谱也存在类似现象,分别在子图4(b)、(e)、5(b)、(e)、6(b)和(e)以及子图4 (c) 、(f)、5(c)、(f)、6(c)和(f)中显示。
图4-第3天不同组玉米籽粒原始和预处理后的平均吸光度光谱平均值:a)原始胚乳侧光谱;b) FD - sg平滑预处理的胚乳侧光谱;c)经SD ~ sg平滑预处理的胚乳侧光谱;D)原始胚侧光谱;e) FD - sg平滑预处理的菌侧光谱;f)经SD ~ sg平滑预处理的菌侧光谱(表示1690-1824 nm区域;表示2254-2398 nm区域)。
图5 - 不同组玉米籽粒原始和预处理后第5天的平均吸光度光谱平均值:a)原始胚乳侧光谱;b) FD - sg平滑预处理的胚乳侧光谱;c)经SD ~ sg平滑预处理的胚乳侧光谱;D)原始胚侧光谱;e) FD - sg平滑预处理的菌侧光谱;f)经SD ~ sg平滑预处理的菌侧光谱(表示1690-1824 nm区域;表示2254-2398 nm区域)。
图6 - 不同组玉米籽粒原始和预处理后第8天的平均吸光度光谱平均值:a)原始胚乳侧光谱;b) FD - sg平滑预处理的胚乳侧光谱;c)经SD ~ sg平滑处理的胚乳侧光谱;D)原始胚侧光谱;e) FD - sg平滑预处理的菌侧光谱;f)经SD ~ sg平滑预处理的菌侧光谱(表示1690-1824 nm区域;表示2254-2398 nm区域)。
从不同基团的原始吸光度光谱中可以看出,吸光度峰主要集中在1001、1202、1470、1776、1929、2092和2321 nm波长附近。总体而言,本研究使用近红外高光谱成像获得的900 ~ 2500 nm的吸光度光谱与我们之前使用Vis-NIR光谱获得玉米籽粒吸光度的研究一致(Tao, Yao, Zhu, et al.,2019)。1470 nm和1929 nm处的两个主要吸光度峰对应于玉米蛋白质分子中可能包含的NeH拉伸的第一谐波吸收(Aenugu等,2011;Kumaravelu & Gopal, 2017),玉米淀粉中的OeH拉伸/HOH变形组合,以及水中的OeH弯曲第二泛音(Aenugu等,2011)。1202和2092 nm波长附近的中度吸收可归为CeH拉伸、OeH组合和OeH弯曲/CeO拉伸组合的第二泛音(Aenugu等,2011)。1776 nm和2321 nm附近相对平坦但宽的光谱峰与玉米籽粒纤维素中CeH拉伸的第一泛音以及玉米淀粉中包含的CeH拉伸/CH2变形组合有关(Aenugu et al., 2011)。cogdill et al.(2004)认为,1001 nm附近的吸收峰是由于玉米籽粒中所含淀粉的吸收所致。与原始吸光度光谱相比,经过导数变换后的预处理吸光度光谱峰要丰富得多,如图4e6的(b)、©、(e)、(f)子图所示。
比较从玉米籽粒胚乳和胚芽侧面获得的吸光度平均值,无论处理和孵育时间如何,在两个波段上观察到吸光度模式的一些差异。图4-6标注了这两个波段,即1690-1824和2254-2398 nm。为了清晰起见,在这两个波段上专门绘制了第3天核的原始和预处理吸光度平均值,如图图7和图8所示。因此,可以清楚地观察到胚乳和胚侧光谱之间存在的差异,如子图7(a),(d), 7(b),(e), 7©,(f), 8(a),(d), 8(b),(e), 8©,(f)所示。第5天和第8天籽粒的胚乳和胚芽侧的吸光度差异与第3天籽粒观察到的无现象相似,因此此处不显示。在籽粒两侧观察到的吸收差异可能是由于玉米籽粒的胚乳侧和胚芽侧具有不同的化学成分。根据Gwirtz和Garcia-Casal(2014)的研究,玉米籽粒的胚乳主要是被蛋白质基质包围的淀粉,而胚芽除了含有用于新玉米植株生长发育的酶和营养物质外,还富含脂肪。
图7 - 第3天不同组玉米籽粒在标记范围I (1690-1824 nm)内的原始和预处理平均吸光度光谱平均值:a)原始胚乳侧光谱;b) FD - sg平滑预处理的胚乳侧光谱;c)经SD ~ sg平滑预处理的胚乳侧光谱;D)原始胚侧光谱;e) FD - sg平滑预处理的菌侧光谱;f) SD - sg平滑预处理的菌侧光谱。
图8 - 第3天不同组玉米籽粒在标记范围II (2254-2398 nm)上的原始和预处理平均吸光度光谱均值:a)原始胚乳侧光谱;b) FD - sg平滑预处理的胚乳侧光谱;c)经SD ~ sg平滑预处理的胚乳侧光谱;D)原始胚侧光谱;e) FD - sg平滑预处理的菌侧光谱;f) SD - sg平滑预处理的菌侧光谱。
如图7(a)、(d)所示,不同处理的胚乳侧均在1738 nm处出现小的吸收谷,而胚乳侧则不存在该吸收谷表示。另外,在1776 nm处,胚乳侧吸光度均值呈下降趋势,而胚乳侧吸光度均值保持稳定。1738 nm处的吸收谷可能是由于玉米籽粒胚芽侧含硫(S)氨基酸含量较低所致,Aenugu等(2011)认为1738nm处的吸收谷对应于SeH拉伸的第一泛音。1776 nm附近的吸收与纤维素损失有关(Aenugu et al., 2011),因此,该波段下玉米籽粒两侧的吸收差异可能源于其纤维素含量的差异。两粒侧在标记范围II上的吸收差异,特别是在2273-2359 nm区域,差异更为显著,这可能是由于两粒侧包括淀粉、蛋白质、油和纤维素在内的几种成分的含量差异所致。根据Aenugu等人(2011)的研究,这可能是因为2273 - 2359 nm之间的吸收与淀粉、蛋白质、油和纤维素中可能含有的几种键拉伸和弯曲有关。
3.3. 判别模型的结果
3.3.1. 全光谱模型
(1)基于同一核侧的光谱
如上所述,利用从同一核侧(s)获取的全光谱(原始或预处理)建立了3类和2类PLS-DA模型,每种情况下共建立了3种3(双方的内/胚芽/平均值原始/ FD sg /SD þSG预处理光谱)类型的判别模型。3类和2类模型的校准结果如表1所示,其中精度为100次随机运行的平均值。表1的括号中还计算了100次运行的相应STD。如表1所示,使用所有不同类型吸光度光谱获得的平均总体校准精度在3类模型中高于94%,在2类模型中高于96%。3类和2类校正模型的性传播疾病最大分别为0.6%和0.5%,表明采用100个随机分割数据源建立的判别模型是稳定的。2类模型的平均总体校正精度在96.4% ~ 99.0%之间,STD范围为0.3-0.5%;3类模型的总体校正精度在94.7% ~ 98.4%之间,STD范围为0.4-0.6%。
括号外数值为100次运行的平均准确率(%),括号内数值为对应的标准差(STD)。
采用随机划分获得的预测样本对各模型进行独立评估。基于100次随机运行的预测准确率,以相同方式计算各模型类型的均值及标准差。如表2所示(另见图9和图10),三类与二类判别模型的平均预测准确率及其对应标准差如下:总体而言,所得预测准确率与校准准确率相近但略低。对于三类模型,其平均总体预测准确率介于90.0%至96.3%之间,标准差为1.3%至1.9%。对于2类模型,总体的预测准确率平均值为93.4% ~ 97.8%,STD为1.0-1.5%。
图9 - 全光谱下3类PLSDA模型的预测精度分别为:(a)原始吸光度,(b) FD ~ sg平滑预处理吸光度,( c ) SD ~ sg平滑预处理吸光度。
图10 - 全光谱下2类PLSDA模型的预测精度分别为:(a)原始吸光度,(b) FD ~ sg平滑预处理吸光度,( c ) SD ~ sg平滑预处理吸光度。
相比之下,2类判别模型的平均总体预测精度略高于相应的3类判别模型。虽然使用了不同的非黄曲霉毒素真菌菌株,这一现象与我们之前的研究一致,在1120-2470nm区域的吸光光谱在一步区分“对照”接种的af38(黄曲霉毒素阴性)和af13接种的af38(黄曲霉毒素阳性)籽粒方面优于两步区分对照。af13接种和af38接种的籽粒(Tao,Yao,朱,等,2019)。所建立的2类模型优于相应的3类模型,可能是由于2类模型只将籽粒分为产黄曲霉毒素的阴性和阳性两类,从而避免了在3类判别分析中进一步区分对照籽粒和接种非产黄曲霉毒素的籽粒时可能产生的分类误差。此外,对于3类和2类模型,使用核边和FD - sg预处理方法建立的模型都优于使用其他类型的光谱。
与使用胚乳侧光谱获得的预测精度相比,使用胚芽侧光谱获得的精度略高。这可能是由于籽粒胚芽/胚与胚乳组分存在差异所致。与胚乳区域相比,玉米籽粒的胚芽/胚区域通常含有较高的含油量和较低浓度的蛋白质、糖、脂类、维生素和矿物质(Belitz et al., 2004),因此,真菌生长速度在不同的基质(本例中为胚乳和胚芽/胚)上可能存在差异。该结果与我们(Tao, Yao, 朱等,2019)对1120e2470 nm吸收光谱的二级鉴别结果一致,而与两步三级鉴别结果不一致。需要注意的是,这两项研究除了样品、使用的仪器、光谱范围和光谱预处理方面的差异外,3类判别分析中提取的光谱和采用的方法也存在差异。具体而言,在本研究中,核的平均光谱是每侧所有像元的均值,因此,种侧光谱包含了种侧的种/胚和胚乳区域信息,可以看作是种/胚和胚乳的混合信息。在我们之前的研究中,胚乳和胚乳侧光谱是用Vis-NIR光谱仪(即点扫描仪器)收集的,因此收集的信息可能不像本研究中那样全面。此外,在之前的研究中,我们采用两步的方式实现了3类区分,即第一步对产黄曲霉毒素阴性和阳性的果仁进行分类,第二步对健康和af38接种(非产黄曲霉毒素)的果仁进行分类。这种方法与本研究中的一步3类判别不同,因为两步法实际上分别建立了两个2类模型,每一步建立的模型只需要判别两个指定的类别(第一步的黄曲霉生菌阴性和-阳性类别;健康对照和af38接种类别(第二步)。而对于本研究的一步3类模型,只有一个模型(而不是两步方式的2个模型)需要在一步中区分所有3个类别。
(2)基于不同核边的光谱
表3给出了基于不同核侧吸光度光谱建立的判别模型的标定和预测结果。总体而言,使用来自核不同侧面的光谱获得的分类精度是可以接受的,尽管比使用来自同一核侧面的光谱的分类精度略低。在不考虑核侧的情况下,使用FD þSG预处理吸光度,3级校准的最佳平均总体精度为93.8%,3级预测的最佳平均总体精度为91.5%。相应的STD校正为0.5%,预测为1.3%。2类模型的建模结果略好于3类模型。FD - sg预处理后的2类模型的平均总体精度与3类模型相似,也达到了最好的水平。对于2类分类,模型校准的最佳平均总体精度为96.6%,预测的平均总体精度为95.1%。相应的STD校正为0.3%,预测为1.0%。
对比发现,采用FD ~ sg平滑法对吸光度进行预处理后建立的模型在3级和2级模型中均表现最佳,这与上述结果一致。与基于同一粒侧(s)的上述结果相比,本节获得的结果显示了建立一个通用判别模型来检测黄曲霉毒素感染的玉米籽粒的可能性,其中另一个因素,即纳入了成像的籽粒侧,尽管在籽粒两侧之间存在吸光度光谱差异。
3.3.2. 变量选择和简化RF-PLSDA模型
上述结果表明,近红外高光谱成像结合一种常见的判别模型(不考虑成像的核侧和真菌感染时间)识别黄曲霉毒素感染的玉米籽粒的潜力,因此使用RF算法来选择最具信息量的光谱变量。RF算法是在上述最优组合的基础上进行的,即利用不同核侧FD - sg平滑预处理吸光度的2类分类情况。根据RF对每次随机运行的光谱变量排序结果,分别建立I-RF-PLSDA模型并进行评价。图11描述了100次随机运行的平均预测精度随RF排序的最重要光谱变量数量增加的变化情况。简化型I-RF-PLSDA模型中最重要的光谱变量个数的研究范围在30 ~ 120之间。从图11中可以看出,随着I-RF-PLSDA型模型中最重要的光谱变量数量的增加,所有3种类型的平均预测精度(即负、正和总体精度)都呈现出类似的变化规律。如图11所示,随着最重要光谱变量的使用数量在30 ~ 120之间增加,上述3种类型的平均预测精度先逐渐增加,然后保持相对稳定。相比之下,在研究的30-120范围内,正类的平均预测精度比负类和整体精度的提高更为显著。当使用RF排序的最重要的30个光谱变量建立模型时,I-RF-PLSDA型模型在负类、正类和总体精度上的平均预测精度分别为92.6%、77.9%和87.7%。从图11可以看出,在使用最重要的55个光谱变量建立模型之前,所有3种类型的平均预测精度逐渐增加,整体精度以每增加5个变量平均1.2%的速度增加。在最重要的55个光谱变量之后,随着光谱变量数量的增加,平均总体精度仅略有变化。利用55个最重要的光谱变量建立I-RF-PLSDA模型时,负类、正类和总体精度的平均预测准确率分别为96.0%、89.4%和93.8%。此外,当使用最重要的100个光谱变量时,95.2%的平均整体预测精度开始略高于对应全光谱获得的平均整体精度(95.1%)(见图11)。
图11 - 2类I-RF-PLSDA模型基于核的不同侧面FD - sg平滑预处理谱,随着最重要变量数的增加,平均预测精度的变化。
由于每次RF随机运行的频谱变量排序结果可能不同,因此进一步采用频率-100变量建立II-RF-PLSDA模型。针对II-RF-PLSDA型模型,研究了100次随机运行中按RF排序的最重要的55和100个变量的情况。在RF每次随机运行中最重要的55个光谱变量中,总共有25个变量在100次运行中一致出现。因此,这25个光谱变量被命名为"频率100变量",是从55个最重要光谱变量中筛选所得,并进一步用于建立II型RF-PLSDA模型。图12显示了25个频率-100的频谱变量以及这些变量在100次运行中对应的选择概率。如子图12(b)所示,在100次随机运行中,这25个变量的选择概率都在0.85以上,大部分值都高于0.90。这25个频率-100的谱变量分别为953、973、1020、1106、1183、1202、1365、1393、1403、1556、1566、1623、1642、1661、1738、1805、1824、1862、1872、2044、2053、2245、2254、2292和2398 nm,它们被认为在区分黄曲霉毒素生成的真菌阴性和阳性核方面更为通用和有用。953、973和1020 nm的短波长分别对应ArOH、H2O和RNH2的第三泛音区。波长分别为1183、1202、1393和1403 nm对CH3、CH2、CH、ArOH和H2O;的第二泛音吸收,1623 nm和1642 nm与ArCH和CH3的第一泛音和第二泛音有关。1661、1738、1872和2044 nm的波长对应于CH3的第一泛音区;Ch2,CH, sh;RCO2H;CONH2(H)分别。在2050 nm之后选择的较长波长对应于CONH2(H)、CH3、CH2和CH几个键的组合波段区域,在这25个光谱变量中,1106、1824、1862、2044、2053、2245、2254、2292和2398 nm的波长与我们之前研究中选择的最优波长一致(Tao,Yao, Zhu等,2019),其中这些最佳波长是通过1120-2470 nm区域上的竞争自适应重加权采样(CARS)确定的,以便分别从胚乳或胚芽侧区分“control - gr -38接种”和af13接种的玉米籽粒。本研究与我们之前的研究(Tao, Yao, Zhu, et al., 2019)所获得的光谱变量差异,除了所执行的算法和光谱范围的差异外,可能是由于本研究中包含的核条件变化更多。首先,在我们之前的研究中,接种的籽粒均匀孵育8天,而在本研究中,接种的籽粒孵育了三个不同的时间间隔,以增加关于真菌感染水平的变化信息。此外,在我们之前的研究中,分别使用胚乳侧或胚芽侧光谱选择最佳波长,而在本研究中,变量选择过程是对从籽粒不同侧面(胚乳和胚芽侧)提取的光谱进行的。最后,如前所述,在这一步中考虑了所选变量在100次随机运行中的出现频率,而在我们之前的研究中没有考虑。
图12 - 根据不同核侧FD ~ sg平滑预处理后的谱图,100次随机运行中选取频率为100的变量及相应的选择概率:a) 25个确定变量,b)选择概率。
因此,在建立I-RF-PLSDA型模型时,除了使用每一次运行中排名的所有55个最重要的频谱变量外,只使用25个频率-100变量来建立II-RF-PLSDA型模型。利用100个随机分割数据集建立II-RF-PLSDA模型并进行评价,阴性类、阳性类和总体准确率的平均预测准确率分别为91.2%、64.4%和82.3%,相应的std发生率分别为1.6%、3.2%和1.3%。在由RF确定的100个最重要的光谱变量中,共有67个变量在100次随机运行中一致出现,因此被命名为本例的frequency-100变量。使用67个频率-100变量,II-RF-PLSDA模型在负类、正类和总体精度方面的平均预测精度分别为96.7%、91.4%和94.9%,相应的std为1.0%、2.0%和0.9%。
3.3.3. 预测核类的可视化
预测的玉米籽粒类别的可视化是通过用不同的颜色标记籽粒来实现的。由于本研究同时建立了3类和2类模型,因此分别以3类和2类可视化两种模式进行可视化。在3类可视化模式下,绿色、棕色和红色标记的籽粒分别代表未感染籽粒、非产毒真菌感染籽粒和产毒真菌感染籽粒。在2级可视化模式下,用蓝色和红色标记的果仁分别代表负果仁和正果仁。图13和14展示了每种可视化模式的示例。图13给出了一个三级可视化的例子,其中通过FDþSG平滑对双方光谱进行预处理,得到预测结果。如图13所示,75个控制核中有6个被错误地分类为另外两组;75个af36感染的核中有2个被误分类为对照核;75个af13感染的核中有1个被错误地归类为af36感染的核。这些可视化结果对应于对照、af36感染和af13感染类的预测准确率分别为92.0%、97.3%和98.7%。在这个例子中,共有9个核被错误分类;因此,获得了96.0%的总体准确率。
图13 - 基于3类PLS-DA模型预测的玉米籽粒类别可视化:a)实际控制粒,b)实际接种af36粒,c)实际af13接种粒(框内表示误分类粒)。
图14 - 基于2类PLS-DA模型的玉米籽粒预测类别可视化:a)实际负核,b)实际正核(框内表示错误分类的核)。
图14给出了一个2类可视化的例子,其中预测结果是基于FD þSG平滑对双方光谱的预处理手段获得的。如图14所示,150个负核中有2个被误分类为正核,即假阳性;75个阳性核中有2个被错误地分类为阴性核,即假阴性。这些可视化结果对应于阴性类和阳性类的预测准确率分别为98.7%和97.3%。在这个例子中,总共有4个核被错误分类;因此,获得了98.2%的总体准确率。
4. 结论
本研究结果表明,在925-2484 nm区域,与使用SD - þSG平滑处理的原始吸光度和预处理吸光度相比,基于FD þSG平滑处理的吸光度建立的全光谱模型在3级和2级分类上都表现更好。在1690-1824和2254-2398 nm光谱区域内,观察到玉米籽粒内精子侧和胚芽侧的吸光度差异。当使用来自同一粒侧(s)的光谱时,无论真菌感染期如何,100次随机运行的3级和2级预测的最佳平均总体精度分别达到96.3%和97.8%。当不考虑玉米籽粒侧,即随机使用不同籽粒侧获得的光谱时,预测结果略低,3类和2类预测的最佳总体平均精度分别为91.5%和95.1%。算法选择最具信息量的光谱变量进行2类判别,并利用所选择的变量建立简化的RF-PLSDA模型。利用最重要的30、55和100个光谱变量(按RF排序)建立I-RF-PLSDA模型时,平均总体预测精度分别达到87.7%、93.8%和95.2%。在每100次RF运行中确定的最重要的55个和100个频谱变量中,共有25个和67个频谱变量,即命名的频率-100个频谱变量一致出现,因此用于II-RF-PLSDA模型的建立。使用这25个和67个频率-100变量,II-RF-PLSDA模型的平均总体预测精度分别为82.3%和94.9%。因此,本研究结果表明,在不考虑潜伏期和成像仁侧的情况下,近红外高光谱成像在区分接种了黄曲霉毒素真菌的玉米籽粒与接种了非黄曲霉毒素真菌的健康玉米籽粒和玉米籽粒方面具有潜力。使用选定的光谱变量进一步简化的RF-PLSDA模型的性能显示了向更具成本效益和用户友好的多光谱成像仪器过渡的可能性;不过,特征波长的数量仍需进一步细化。此外,需要指出的是,在这项工作中只研究了一个玉米品种;需要对其他玉米品种和其他类型的农产品进行进一步研究,以推广该技术在检测受黄曲霉毒素感染的产品方面的潜力。