打开文本图片集
摘要:为探索近红外光谱技术(near infrared spectroscopy,简称NIRS)在无损检测烟草种子蛋白含量方面的应用,研究120份烟草种子的近红外光谱,利用光谱影响值法(Leverage)对异常光谱进行处理后,在4 000~9 000 cm-1 波数,利用主成分回归法(简称PCR)建立烟草种子蛋白质含量的定标模型,并采用外部独立验证的方式对模型进行检验。结果表明,标准正态变量转换法(简称SNV)处理结合De-trending算法下,建立的烟草种子蛋白含量定标模型的确定系数高达99.86%,校正标准差、预测标准差分别为0.71、0.68,校正集、验证集的预测值与化学测定值间均达极显著正相关,说明该近红外光谱定量分析模型效果较好,可用于烟草种子粗蛋白的测定。
关键词:近红外;烟草种子;主成分分析法;模型
中图分类号:S572.01 文献标志码: A
文章编号:1002-1302(2016)11-0376-04
近红外光谱(near infrared spectroscopy,简称NIRS)分析技术[1-3],是20世纪80年代后期迅速发展起来的一项物理测试技术,在种子内含物、种子活力及贮藏年份分析方面得到广泛应用,如小麦蛋白、硬度、水分、氨基酸[4-8],水稻种子淀粉、蛋白[9-11],大豆蛋白[12],油菜、棉籽种子含油量、氨基酸[13-16]等,具有无损、快速、成本低等优点。目前,关于烟草种子品种性状如蛋白、脂肪、含水量等的测定都是基于化学法测定,费时、繁琐。本研究旨在利用Spectrum Two FT-IR型近红外光谱仪和配套分析软件建立烟草种子蛋白质含量的定标模型,并对其进行验证,为烟草种子内部品质检测提供一种快速、简易的方法。
1 材料与方法
1.1 供试材料
收集MS云烟87、MS K326父本烟株花粉,晾干,4 ℃保存备用。分别在MS云烟87母本、MS K326母本烟株最佳授粉时期,选同一片区含蕾期烟株授粉,授粉时,用棉签蘸取花粉均匀涂抹于母本柱头上,对同一天授粉花朵进行挂牌标记,分别采集授粉后7、14、21、23、25、27、29、31、33、35 d所得蒴果,每个成熟阶段收集3份。
选择相同花序的云烟97、红花大金元花朵(含蕾期),挂牌标记,分别在盛开期过后7、14、21、23、25、27、29、31、33、35 d 对蒴果进行采收,每个成熟阶段收集3份。
4个品种烟株共获得120份烟草种子。所有种子采收及处理工作均在玉溪中烟种子公司西双版纳冬繁基地进行。
1.2 红外光谱测试仪器及建模软件
近红外光谱扫描采用珀金埃尔默仪器生产的Spectrum Two FT-IR光谱仪,建模软件为系统配套的Spectrum Quant+。
1.3 测定方法
1.3.1 样品化学特征值常规测定 蛋白质含量分析采用凯氏定氮法测试[17],每份样品测定3次,取其平均值,允许的相对误差不得大于3%。
1.3.2 红外光谱特征数据采集 开机预热至少30 min,待单束光图形或能量值稳定后,开始光谱采集。设定试验参数如下:扫描波段为4 000~10 000 cm-1,分辨率为16,累积量为32。使用仪器内置参比,将上述120份处理好的样品依次放置在光谱仪样品盘上,对样品进行扫描。为降低装样不均匀产生的误差,每个样品扫描5次,取平均值,每次扫描前要进行背景消除。收集各个样品的光谱特征数据。
1.3.3 光谱数据的预处理 近红外光谱易受样品均匀度、基线漂移和偏移、光散射、仪器噪音等非目标因素的干扰[18]。因此,在构建校正模型前,须对原始光谱进行预处理,提高信噪比,进而优化模型的预测性能。分别采用标准化处理法如标准正态变量转换法(简称SNV)、乘积分散校正法(简称MSC)与基线校正方法如一阶导数和二阶导数等相结合的方法对所采集的光谱数据进行预处理。最后,根据定标模型的预测效果选出最佳数据预处理方法。
在建模软件“Influence”图形中,观察校正集中各样本对模型的影响。“Leverage”较大可能由于样本中某些特征峰过强或过弱,或者存在某些異常峰;软件中“Distance”是Cook"s距离,用类衡量从校正集中移除该样本时回归模型的改变程度。如果2个阈值都超出,说明该样本的光谱有问题,应剔除。在建模软件“Validation Leverage Ratio”图形中,将验证集中权重过大的样本,即与校正集样本权重的比值明显大于1的样本从验证集中移除。通过最小二乘法对原光谱进行线性拟合,从而扣除原光谱中的线性漂移(De-trending算法)。
1.3.4 定标模型的建立 分别采用线性相关的主成分分析法(简称PCR)、偏最小二乘法(简称PLS)对经过不同预处理的光谱数据进行回归分析,从120份样品中挑选校正集和验证集样品,比例为3 ∶1,进行外部独立验证。模型建立后以确定系数R2、校正标准差(简称SEE)、验证标准差(简称SEP)来评价优劣。确定系数越接近1,校正标准差和验证标准差越小,则说明回归模型的定量分析结果越准确。
2 结果与分析
2.1 烟草种子的近红外光谱
在4 000~10 000 cm-1波谱区内,烟草种子近红外漫反射光谱曲线各波段表现出独特吸收特征(图1),这为烟草种子蛋白质含量的定量分析提供了丰富的信息基础。从图1中还可以看出,在4 000~9 000 cm-1范围内,烟草种子大量含氢基团的合频区、1倍频区、部分高倍频区均形成强烈的吸收,模型的建立选择此波段范围;而9 000~10 000 cm-1范围相对来说无明显吸收。
2.2 不同预处理方法的结果比较
根据Cooks距离和影响值法、残差法综合分析后,剔除1个对模型影响过大或具有异常吸收峰的验证集红外光谱,为保证验证集在校正集中均匀分散,再将2个样品设置为验证样品,即实际建模的校正集为88份样品,验证集为31份。以主成分分析法建立回归模型,改变波段范围、光谱归一化方法、基线校正方法,研究模型的R2、SEE、SEP变化(表1)。考虑到平滑处理虽然可以提高光谱的信噪比,但是会造成吸收峰增宽,降低谱图特征性,影响峰强度,所以所有光谱未进行平滑处理。
由表1可以看出,以主成分分析法建立的烟草种子回归模型确定系数都较高,在91.75%~99.86%之间,说明模型线性相关性较高;而SNV与MSC 2种归一化方法比较,SNV处理模型的确定系数明显更高;但是导数处理进行基线校正反而使模型效果下降。另外,在确定最优前处理方法后,根据留一法交互验证(图2),主因子数为20个时,模型的SEE、SEP最低。
总的来说,在4 000~9 000 cm-1波谱范围内,通过SNV即标准正态变量转换法,将每个样本的光谱数据进行标准正态化,使各波数变量处的吸光度均值为0,方差为1,通过最小二乘法对原光谱进行线性拟合,从而扣除原光谱中的线性漂移(De-trending算法),控制主因子数为20个时,回归模型最成功,确定系数R2达到99.83%,校正标准差为0.71,预测标准差为0.68。
2.3 不同回归方法结果的比较
根据表1结果,选择几种确定系数高,校正偏差小的预处理方法,采用PLS建立回归模型,并与主成分回归法比较。
表2结果表明,同样处理方法下,偏最小二乘法回归模型的确定系数为90.66%~92.08%,比主成分回归法低很多,而校正标准差在0.97~1.04之间,预测标准差在 1.14~4.00间,明显比主成分回归法高很多,说明主成分回归模型更加适用于烟草种子蛋白含量的定量分析。
2.4 近红外定标模型外部验证
建立的模型是否适用,主要通过外部验证来评价,以检验样品近红外光谱法预测值与化学值的相关性及预测效果。由表3可以看出,31个外部验证样品化学法和最优模型预测的蛋白含量绝对误差的绝对值在0.01%~1.79%之间,相对误差的绝对值在0.09%~11.77%之间,它们的平均绝对误差均在标准方法允许的范围内,说明这个定标方程的预测效果较好,且准确度和精度较高,可以在实际中应用。
以烟草种子蛋白质含量的化学值为横坐标、模型回归值为纵坐标,得校正集、验证集的散点图(图3、图4)。在图3、图4中,校正集和验证集的试验点均匀分布在直线两侧,且偏离不大,表明119份烟草种子蛋白质含量的近红外定标模型预测值与化学方法测定值呈线性相关,且校正集相关系数r=0.97,回归方程为y=0.97x+0.39,验证集相关系数r=0.95,回归方程为y=0.96 x+0.58,相关性均达到极显著水平,表明近红外定标模型测定的结果准确可靠。
3 讨论与结论
研究采用主成分回归法建立了烟草种子蛋白含量的近红外光谱定标模型,4 000~9 000 cm-1波谱范围内,SNV结合De-trending算法下,模型的确定系数R2可达到99.83%,而校正标准差、预测标准差分别为0.71、0.68,可用于烟草种子蛋白含量的无损检测。
本研究标准样品数目为119个(剔除1个异常值),校正集88个,验证集31个,包含4个主栽品种10个成熟阶段种子,蛋白含量范围在6%~18%,具有较好的代表性。定标模型建立时,样品数量的多少和化学值范围直接影响分析的准确性和普适性[19-20]。因此,有关研究结果只是初步的,为提高定标精度、扩大模型的预测范围,应在以后的应用研究中不断丰富校正集。
参考文献:
[1]贾 婉,毛培胜. 近红外光谱技术在种子质量检测方面的研究进展[J]. 种子,2013,32(11):46-51.
[2]孙 群,王 庆,薛卫青,等. 无损检测技术在种子质量检验上的应用研究进展[J]. 中国农业大学学报,2012,17(3):1-6.
[3]朱丽伟,马文广,胡 晋,等. 近红外光谱技术检测种子质量的应用研究进展[J]. 光谱学与光谱分析,2015,35(2):346-349.
[4]郑咏梅,张 军,李荣福,等. 小麦近红外特征波长提取及蛋白质含量测定[J]. 激光与红外,2003,33(2):125-127.
[5]任红波. 近红外仪快速测定小麦蛋白及硬度[J]. 黑龙江农业科学,2003(3):17-18.
[6]吴静珠,吴胜男,刘翠玲,等. 近红外和高光谱技术用于小麦籽粒蛋白含量预测探索[J]. 传感器与微系统,2013,32(2):60-62.
[7]张玉荣,付 玲,周显青. 基于BP神经网络小麦含水量的近红外检测方法[J]. 河南工业大学学报:自然科学版,2013,34(1):17-20.
[8]李军涛,杨文军,陈义强,等. 近红外反射光谱技术快速测定小麦中必需氨基酸含量的研究[J]. 中国畜牧杂志,2014,50(9):50-55.
[9]黄道强,周少川,李 宏,等. 近红外分析技术辅助水稻直链淀粉含量育种方法研究[J]. 中国稻米,2004(1):17-18.
[10]肖 昕,谢新华,陈 奕,等. 应用近红外透射光譜法测定水稻种子直链淀粉含量的初步研究[J]. 中国农业科学,2004,37(11):1709-1712.
[11]谢新华,肖 昕,刘彦卓,等. 小批量稻谷种子蛋白质含量的近红外透射光谱分析[J]. 湖北农业科学,2004(2):16-18.
[12]王秀荣,廖 红,严小龙. 应用近红外光谱分析法测定大豆种子蛋白质和脂肪含量的研究[J]. 大豆科学,2005,24(3):199-201.
[13]陈文杰,谭小力,王竹云,等. 用傅立叶变换近红外光谱仪测定油菜种子品质指标的研究[J]. 陕西农业科学,2002(8):6-9.
[14]黄庄荣,沙 莎,荣正勤,等. 基于近红外技术快速无损分析整粒棉籽中的脂肪酸含量[J]. 分析化学,2013,41(6):922-926.
[15]商连光,李军会,王玉美,等. 棉籽油分含量近红外无损检测分析模型与应用[J]. 光谱学与光谱分析,2015,35(3):609-612.
[16]黄庄荣,陈进红,刘海英,等. 棉籽17种氨基酸含量的NIRS定标模型构建与测定方法研究[J]. 光谱学与光谱分析,2011,31(10):2692-2696.
[17]禹山林,朱雨杰,闵 平,等. 傅立叶近红外漫反射非破坏性测定花生种子蛋白质及含油量[J]. 花生学报,2003,32(增刊):138-143.
[18]李君霞,闵顺耕,张洪亮,等. 水稻糙米粗蛋白近红外光谱定量分析模型的优化研究[J]. 光谱学与光谱分析,2006,26(5):833-837.
[19]禹山林,朱雨杰,闵 平,等. 傅立叶近红外漫反射非破坏性测定花生种子主要脂肪酸含量[J]. 花生学报,2010,39(1):11-14,48.
[20]魏良明. 普通玉米籽粒品质性状的遗传及其近红外测定方法的研究[D]. 北京:中国农业大学,2003.