第8章基于近红外的淀粉种类定性分析方法研究(1)

3.1引言

淀粉是以谷类、薯类、豆类为原料，不经过任何化学方法处理，也不改变淀粉内在的物理和化学特性加工而成的。它是日常生活中必不可少的作料之一，如煎炸烹炒，做汤勾芡都少不了要用到淀粉。随着食用淀粉在现代食品加工业中的广泛应用，淀粉生产和加工贸易取得了较大的发展。常见的产品主要有玉米淀粉、马铃薯淀粉、红薯淀粉和绿豆淀粉等，不同种类的淀粉价格差别较大，有的相差高达10倍以上，但是不同种类淀粉颗粒的宏观外观和普通物化指标差别不明显，无法辨认。由于缺乏相应的食用淀粉鉴别检验技术标准，国内淀粉市场严格监管很难执行。一些不法商家为追求利润，常把廉价的、大量的玉米淀粉包装成土豆淀粉或绿豆淀粉来销售，从而提高销售价格，从中牟取暴利。为保护合法生产经营者和消费者的利益，有必要进行淀粉种类的鉴别。传统的感官评定方法一方面需要经验，另一方面其检测结果受主观因素影响较大，准确度难以保证。而常规的理化分析方法不仅费时费力，还破坏样品。因此有必要研究一种简单、快速、无损的淀粉种类鉴别技术。

近红外光谱(Near Infrared,NIR)分析技术是20世纪90年代以来发展最快、最引人注目的光谱分析技术，它以其快速、高效、取样简单以及无污染等独特的分析优点，已广泛应用于农业、食品、医药、石油、化工、烟草、化妆品等行业。在定性分析方面，近红外光谱技术已被应用于苹果、水稻、酸奶和黄酒等的品种鉴别，而对于淀粉品种的鉴别方面还少见报导。

3.2基于聚类分析的淀粉定性分析研究

3.2.1聚类分析

在对众多样本进行模式识别时，人们通常事先并不知道样品内在的分类。其中无监督模式识别方法在未知训练集样本的类别的情况下，同样可以对样本进行分类识别。聚类分析法便是无监督模式识别法的代表，其应用十分广泛。分析流程如图3.1所示。

一、聚类分析法的原理

在多维空间中，相似的样本彼此距离应小些，反之，不相似的样本彼此间的距离会相对较大。也即常说的“物以类聚”，有效地将同类和异类分开，合理地按样品独有的特性来进行合理地分类。

这里的样本相似表示样本间的亲疏程度，通常用相似系数和距离来表征，将每一个样本看成n个变量的一个点，在这样的空间中计算样本间的亲疏程度。相似系数用夹角的余弦值或相关系数表示。

夹角余弦如式3.1所示。cosαij=∑nk=1xikxjk∑nk=1x2ik∑nk=1x2jk（3.1）xik——第i个样本的第k个特征变量。

相似系数如式3.2所示。rij=∑nk=1xik－ixjk－j∑nk=1xik－i2∑nk=1xjk－j2（3.2）i——第i个样本所有特征变量的均值；

j——第j个样本所有特征变量的均值。

距离则多用欧式距离和马氏距离来表示。

欧式距离如式3.3所示。Dij=∑nk=1xik－xjk2（3.3）马氏距离如式3.4，3.5所示。Mij=xi－xjV－1xi－xjT（3.4）

Vij=1n－1∑nk=1xik－ixjk－j（3.5）Xi——第ｉ个样本的行向量；

Yj——第j个样本的行向量；

V-1——协方差矩阵的逆矩阵。

二、系统聚类分析

系统聚类是聚类分析中应用最为广泛的一种方法，其基本思想是：首先默认每个样本各自分别为一个小类，按特定方法规定类之间的距离。由于开始认为每个样本都是一个类，这就意味着类间距是等价的，经过计算，选择类间距最小的两个样本合成一个新的类，再计算该类与其他类的距离，将距离最近的两类再合并，重新计算类间距。这样每经过一次合并，就减少一个类别，直到所有的样本都归为一类。得到的结果常用谱系图表示，根据一定的原则，选择合理的分类阈值来确定最后系统聚类分析的分类结果。

图3.2系统聚类分析流程

根据类间距离的不同定义方式，系统聚类法可分为：最短距离法、最长距离法、中间距离法、重心法和方差平方和法。

1.最短距离法：两个不同类中最短距离的两个样本间的距离定义为该两类之间的距离。其计算如式36所示。Dγi=minDpi,Dqi,i≠p,q（3.6）2.最长距离法：两个不同类中最长距离的两个样本间的距离定义为该两类之间的距离。其计算公式为Dγi=maxDpi,Dqi,i≠p,q（3.7）3.中间距离法：类与类间的距离采取折中的方法，既不选取两类中距离最近的两个样本，也不选取两类中距离最远的两个样本的距离。

4.重心法：每类在物理意义上都会存在重心，两类的重心间的距离作为类间的相似性。

5.方差平方和法：也称为Ward法，该法认定准确的分类应满足类内方差尽可能小，而类间方差尽可能大，其计算如式3.8所示。Dγi=np+ni×D2pi+ni+nq×D2qi－ni×D2pqnp+nq+ni（3.8）r——类p和类q聚成的新类；

Dpi——类p和类i的光谱距离；

Dqi——类q和类i的光谱距离；

Dγi——是类r和类i的光谱距离；

np——类p中聚类光谱的数量；

nq——类q中聚类光谱的数量；

ni——类i中聚类光谱的数量。

3.2.2方法设计

（1）实验仪器

采用德国布鲁克光学仪器公司傅立叶变换近红外光谱仪，漫反射样品杯附件，OPUS6.5光谱采集及分析软件。

（2）实验样品

实验用玉米淀粉和土豆淀粉均是从市场购买不同品牌或同一品牌不同批次的淀粉，将其编号,1～26号为土豆淀粉样品,27～58号为玉米淀粉样品。

（3）光谱采集

将上述淀粉样品放置在旋转样品台的样品杯中,然后进行近红外光谱采集。波数范围12500～4000cm-1,波长间隔8cm-1,扫描64次后取平均，环境温度23～25℃。

3.2.3光谱采集

26个土豆淀粉样品和32个玉米淀粉样品的近红外漫反射光谱图如图33。由图可以看出,在12500～4000cm-1范围内较为相似，具有许多淀粉之间的相似信息，峰形、峰位差别很小，无法直接鉴别。利用化学计量学方法将原光谱进行数学处理，采用聚类算法进行鉴别，能突出样品之间化学成分的细小差异，从而达到鉴别的目的。

图3.358个样品的近红外漫反射光谱图324聚类分析模型的建立

运用聚类分析软件，从土豆淀粉中选择22个样品的原始光谱用作建模，土豆淀粉中的6号、11号、17号和23号用作预测。从玉米淀粉中选择28个样品的原始光谱用作建模，玉米淀粉中的30号、36号、41号和50号用作预测，进行聚类分析。光谱预处理方法选择矢量归一法，光谱范围选择9000～4000cm-1。聚类后结果如图34。从图中可以看出，聚类结果与实际样本分类情况完全一样，准确率100%。

图3.4聚类分析结果

3.2.5模型预测能力的验证

为检验聚类分析模型的预测能力,考察模型对预测集样品的准确率，用该模型分别对6号、11号、17号、23号土豆淀粉样品和30号、36号、41号和50号玉米淀粉进行验证，验证结果如图35。从预测的结果可以看到预测准确率达到100%。

(a)

(b)

(c)

(d)

(e)

(f)(g)

(h)

（a）6号土豆淀粉预测结果（b）11号土豆淀粉预测结果

（c）17号玉米淀粉预测结果（d）23号玉米淀粉预测结果

（e）30号土豆淀粉预测结果（f）36号土豆淀粉预测结果

（g）41号玉米淀粉预测结果（h）50号玉米淀粉预测结果

图3.5淀粉样品预测结果

研究采用近红外光谱结合聚类分析法进行了土豆淀粉和玉米淀粉的鉴别，鉴别结果准确率达到100%，此方法比常规鉴别法简便、准确，且更具有科学性，从而为淀粉种类的鉴定提供了一种新的方法和手段。由于本实验研究的淀粉种类、品牌、批次以及产地有限，无法完全代表淀粉种类的多样性，因此需要进一步收集扩充淀粉样品的种类、品牌、批次以及产地，考察淀粉的多样性和鉴别的准确率，使该方法成为一种淀粉种类鉴别的可靠手段。应用近红外光谱技术快速鉴别淀粉种类，这是一项适合中国食品市场管理的极有应用前景的技术。

3.3基于支持向量机的淀粉定性分析研究

3.3.1SVM原理

针对传统学习方法处理有限样本数据，高维数，非线性等问题的困难，Vapnik等人建立在统计学习理论和结构风险最小化准则基础上提出的一种新的机器学习方法——支持向量机（support vector machine, SVM）。其基本思想是在样本空间或特征空间中，构造一个最优决策的超平面，使得该超平面到不同类样本集之间的距离最大，从而使算法的泛化能力得到提高。该方法是一个凸二次优化问题，能够得到全局最优解。此外，支持向量机较传统的神经网络具有收敛速度快，容易训练，不需要预设网络结构等优点。因此支持向量机在模式识别、数据挖掘、函数逼近和图像处理方面都得到了广泛的应用。

一、线性支持向量机

1.硬间隔支持向量分类机

假设m个样本数据S=xi,yii=1,2,3,…,m，其中xi∈Rn,yi∈－1,1。如图3.6所示。

图3.6二维空间优化超平面

图3.6中，方形点和圆形点分别代表两类样本数据,H为分类线，H1,H2分别为过各类样本点中距离分类线最近的样本且平行于分类线的直线。直线H1和H2之间的距离叫做分类间隔(Margin)。分类的目的是寻找一个最优分类面能够正确分开两类样本，并且使得分类间隔最大［43］。如果存在分类面H:ωTx+b=0使得ωTxi+b≥1,yi=1

ωTxi+b≤－1,yi=－1（3.9）则称训练集是线性可分的。式（3.9）可以统一表示为yiωTxi+b≥1,i=1,…,m（3.10）其中使等号成立的样本点称做支持向量。由于超平面H1和H2之间的间隔为2ω，为了求取最优超平面，我们需要最大化2ω，即最小化12ω2。最优分类面的求解可以转化为下面二次规划问题，如式3.11所示。minQω=12ω2

styiωTxi+b≥1,i=1,…,m（3.11）为了求解约束规划问题（3.11），我们定义Lagrange函数，如式3.12所示。Lω,b,α=12ωTω－∑mi=1αiyiωTxi+b－1（3.12）其中αi≥0是Lagrange乘子。分别对ω和b求偏导等于0，二次规划问题（3.11）可以转化为其对偶问题。如式3.13所示。maxQa=∑mi=1αi－12∑mi,j=1αiαjyiyjxTixj

st∑mi=1yiαi=0

αi≥0,i=1,…,m（3.13）同时，其解还应满足Kaush-Kuhn-Tucker(KKT)互补条件，如式314所示。αiyiωTxi+b－1=0,i=1,…,m（3.14）其中αi>0所对应的训练数据即为支持向量。最优分类决策函数如式315所示。fx=∑i∈SαiyixTix+b（3.15）S为支持向量集合。偏置项b如式316所示。b=yi－ωTxi（3.16）式中xi为支持向量。为了提高b的精度，我们可以取其平均值，如式3.17所示。b=1S∑i∈Syi－ωTxi（3.17）2.软间隔支持向量分类机

当样本数据不能被线性函数完全分开时，我们采用Vapnik提出的软间隔分类的概念，在式（3.11）中引入非负松弛因子ξi，如图3.7所示。

图3.7二维空间的不可分情况

第8章 基于近红外的淀粉种类定性分析方法研究(1)

第8章基于近红外的淀粉种类定性分析方法研究(1)