第10章基于近红外的淀粉含水量的定量分析方法研究

4.1引言

含水量是淀粉品质的重要指标，其含量直接影响着淀粉的品质，目前国标法测淀粉水分含量是凭借称量淀粉样品干燥后损失的质量，用样品损失质量占样品原质量的百分比表示。其测试原理是将样品放在130～133℃的电热烘箱内干燥90min，得到样品的损失质量。

（1）主要仪器

金属碟(或称量瓶)、干燥箱、干燥器、分析天平。

（2）操作步骤

金属碟(或称量瓶)在130℃下干燥并在干燥器内冷却后，精确称取碟和盖子的质量，把(5±0.25)g经充分混合的样品倒入碟内并均匀分布在碟表面上(样品中不能含有硬块和团状物，碟内部尽量最少暴露于外界)，盖上盖子迅速精确称取碟和测试物的质量。将盛有样品的敞口碟和盖子放入已预热到130℃的干燥箱内，在130～133℃下干燥90min，然后迅速盖上盖子放入干燥器内，经30～45min后，碟在干燥器内冷却至室温。将碟从干燥器内取出，2min内精确称重。

（3）结果计算

淀粉的水分按下式计算：w=m1－m2m1－m0×100%（4.1）式中w——样品的水分含量，％；

m0——干燥后空碟和盖的质量，g；

m1——干燥前带有样品的碟和盖的质量，g；

m2——干燥后带有样品的碟和盖的质量，g。

对同一样品进行两次测定，其结果之差的绝对值应不超过平均结果的02％。测定结果应为测定的算术平均值。

从上面可以了解到国标法测淀粉含水量耗时、费力，而且浪费样本，因此需要研究一种快速无损的检测方法。而淀粉中分子在NIR谱区的吸收主要由分子中含氢基团（C-H、N-H、O-H、S-H等）的组合频和倍频吸收组成，淀粉水分结构中的O-H对NIR光谱中的合频信息贡献较大，其数量反应了淀粉中水分的含量。

因此本研究结合近红外光谱的优点，基于偏最小二乘法（PLS）建立了淀粉中淀粉含水量的定量分析模型，并分析比较了不同数据预处理方法和不同波长对模型预测能力的影响。

4.2基于偏最小二乘法的建模方法

4.2.1PLS原理

PLS法首先将n个样品m个组分的浓度矩阵Y=(yiy)n×m,扫描光谱得到n个样品p个波长点处吸光度矩阵X=(xij)n×p分解成特征向量形式如式42所示。Y=UQ+E

X+TP+E（4.2）U——n行d列的浓度特征因子矩阵；

T——n行d列的吸光度特征因子矩阵；

Q——d×m阶浓度载荷阵；

P——d×p阶吸光度载荷阵；

F——n×m浓度残差阵；

E——n×p吸光度残差阵。

分解Y和X，建立回归模型如式4.3所示。U=TB+Ed（4.3）Ed——随机误差阵；

B——d维对角回归系数阵。

X为吸光度向量，浓度如式4.4所示。Y=xUXTBQ（4.4）4.2.2PLS具体算法

一、校准部分

（1）标准化吸光度矩阵X和浓度矩阵Y；

（2）令维数n=0，进行迭代计算后再令n=n+1，U的初始向量设为Y的某列；

（3）求X的权向量Wk如式4.5所示。WTk=UTX（4.5）（4）计算t，如式46所示。t=XWTk（4.6）（5）q为Y的载荷矩阵，如式4.7所示。q=UTY（4.7）（6）Y的特征向量U，如式4.8所示。U=Yqq（4.8）（7）若t－told>10－6U，转（3）；否则继续执行下列程序；

（8）计算X和Y的特征向量t，并且Bk为u的系数，如式49所示。Bk=tTUt（4.9）（9）P为X的载荷向量，如式4.10所示。P=tTX（4.10）（10）计算X和Y的残差，将其作为新的X和Y，如式4.11所示。X=X－tp

Y=Bktq（4.11）（11）分析并确定k的最佳主因子数。

二、待测样品组分的确定

（1）标准化吸光度向量x；

（2）令k=0，y=0，且再令k=k+1，如式4.12所示。t=xWTk

y=y+Bktq

x=x－tp（4.12）（3）若k<d转（2），否则停止迭代。

4.3实验部分

（1）实验材料

实验收集了由56个来自不同品牌，不同厂家，不同批次的淀粉样品（包括土豆淀粉、玉米淀粉、红薯淀粉、绿豆淀粉等）组成的样品集。

（2）水含量测定

本实验的样品水实际含量均用国标法测得。即采用烘箱法对56个样本的水含量进行测定，得到的结果作为校正模型建立时水的真实含量。

（3）光谱采集

将56个原始样品各20g分别装入近红外分析仪的固体测量池进行淀粉样品近红外光谱采集，样品杯选用减少光谱散射的高性能样品杯，采用透反射采样模式，对12500～4000cm-1谱区扫描，分辨率为8cm-1，扫描64次。淀粉样品光谱图如图41所示：

图4.1淀粉样品光谱图

4.4模型建立及预测

4.4.1淀粉含水量NIR模型的建立与分析

（1）样品集数据的分析

为了使得所建立的校正模型对未知样品有良好的预测能力，校正集样品的淀粉含水量变化范围应大于未知样品的含量变化范围，并且淀粉的含量在整个变化范围内是均匀的。基于此，在56个原始的淀粉样品中按约为3∶1的比例划分校正集样本和预测集样本。其中，按浓度梯度法在不同的含水量范围内选取42个淀粉样品用于建立校正模型，剩下的14个样品用于预测该模型。

（2）最佳主成分数的确定

在建立偏最小二乘校正模型时，其中最主要的问题之一就是主成分数目的确定。其中第一种成分尤为重要，随着主成分数的增加，其重要程度依次递减，后面的很多主成分其实大部分到表征的是噪声信息。因为如果选取主成分过少，则无法反应出待测样品的特征组分产生的光谱变化，模型的精度不够，其预测准确度会随之降低，这种情况称为欠拟合。如果选取的主成分数过多，则会加进一些噪声的主成分，不能得到稳定的模型，其预测能力同样会随之降低，这种情况称为过拟合。

可以采用交互验证的方法确定最佳主成分数，最小的校正标准偏差（RMSECV）为最佳主成分数，如果几个主成分数的RMSECV近似，则可选取最小的为最佳主成分数。RMSECV表示建模时采用不同的主成分数该模型理论上达到的最佳预测准确度。RMSECV的计算方法如式4.13所示。RMSECV=(-y)T(-y)d（4.13）另外：k=n－k（4.14）——校正集样品的预测值；

y——校正集样品的真实值；

d——校正模型的自由度；

n——校正集样品数；

k——主成分数。

（3）淀粉NIR模型的建立

经全波段NIR光谱扫描得到光谱信息，如图4.2所示。

图4.2样品原始光谱

四、光谱数据的预处理

用OPUS65光谱分析软件进行数据预处理分析，经过波长最优化后选择波长范围为8439.4～7941.8cm-1、6464.5～5970.8cm-1和5481～3999.8cm-1的波段进行分析建模，校正集样本经预处理和波长最优化后的光谱图如图4.3所示。

图4.3经预处理后的样品光谱图

五、建立与实际淀粉含水量数据的比较组

(1)在建立定量分析2方法中的组分建立一个比较组comp.1,单位为mg，用于添加用烘箱法测得的淀粉样品实际含水量的数据。如图4.4所示

图4.4建立比较组comp.1

(2)用GBT12087-2008淀粉水分测定——烘箱法对44个训练样品的实际含水量进行测定，将测得的数据填进比较组分列中。如图4.5所示。

图4.5将烘箱法测得的淀粉训练样本实际含水量数据填入比较组comp.1

六、光谱数据的预处理

经光谱最优化分析，结合偏最小二乘法，分别使用一阶导数、消除常数偏移量、多元散射校正法、矢量归一化等预处理方法建立分析模型。以各模型的决定系数R2和正交标准差RMSECV作为模型精度的评价指标。处理光谱后，建立的模型具有相对其他预处理方式更好的模型精度，R2为99.55，RMSECV为1.0301,其训练结果较为精确。

图4.6因子数与RMSECV关系

图4.7淀粉含水量的预测值与化学值相关曲线

七、淀粉NIR模型的校验

将利用浓度梯度法选取的14个预测集样品代入模型中进行淀粉含量的预测，得到预测决定系数R2为99.97，正交标准差RMSEP为0.0104，其预测值与标准值如图4.8所示，预测曲线与标准曲线夹角很小，可见预测值趋近于真实值，并且样品散点密集的分布在曲线两侧，预测样品均在校正模型的可预测范围内，无超出预测范围样品，该模型具有较好的适用性。

图4.8个预测集样品真实值与预测值的相关曲线

表4.1样品淀粉含量的真实值与预测值

样品编号真实值预测值42.2442.233782.12.0803121.9951.9903162.5292.5284203.2563.2668242.4922.4792282.9812.9765322.3192.3074361.8441.8335402.352.3552442.2262.2173482.5212.5203522.9392.925562.0532.0657

4.4.2不同预处理方法对模型预测准确性的影响

在对样本含水量建立校正模型时，不同的预处理方法，得到了不同的最佳主成分数，其主成分数与RMSECV关系如下图4.9所示。

图4.9.1多元散射校正

图4.9.2消除常量偏移量

图4.9.3矢量归一

图4.9.4一阶导数和矢量归一

图4.9.5一二阶导数、矢量归一、多元散射校正与消除常数偏移量结合

经光谱最优化分析，一阶导数、二阶导数、多元散射校正法和矢量归一化等预处理方法得到的校正模型，其决定系数和正交标准差均未达到较高的预测精度，而采用一二阶导数、矢量归一、多元散射校正与消除常数偏移量结合的方法却得到较高精度的校正模型。

4.5小结

本章主要研究了NIR光谱分析技术对淀粉中含水量的预测，分别建立定量分析模型并取得了如下结论：

（1）本章详细介绍了偏最小二乘法的原理和具体算法，在对算法的深入了解下，结合偏最小二乘法进一步探索预测模型的建立方法和优化手段。

（2）针对大量样本的建模，研究了样本集的划分方法，并通过浓度梯度法，根据样本中淀粉和含水量的分布，反复选取校正集和预测集样本，使得校正集样本中包含未知样本所包含的特征组分，为之后所建模型的预测能力提供可靠的前提，避免因建立不稳定的模型而浪费宝贵的时间。

（3）本章探讨了最佳因子数对模型的重要作用。详细论述了最佳因子数的概念，对预测模型建立产生影响的原因。并在建立含水量的定量模型时，在不同的预处理方法的前提下用实例研究了最佳因子数对模型预测能力的影响。

（4）本章研究了不同预处理方法对模型预测准确性的影响，分析比较了使用一阶导数、消除常数偏移量、多元散射校正法、矢量归一化等预处理方法建立分析模型对淀粉样品含水量预测的结果，并优化选择最优的预处理方法。

</d转（2），否则停止迭代。

第10章 基于近红外的淀粉含水量的定量分析方法研究

第10章基于近红外的淀粉含水量的定量分析方法研究