高光谱

莱森光学

服务热线:
86-0755-32932785
高光谱成像技术在烟叶和杂物分类中的应用

销售&售后服务

      手机:13243893087

      电话:0755-32932785

      传真:0755-32932785

      邮箱:info@lisenoptics.com

推荐产品

高光谱成像技术在烟叶和杂物分类中的应用

    烟叶在采收、运输和加工过程中,不可避免地会混入非烟叶杂物。非烟叶杂物的混入,不仅对烟叶复烤加工中的设备造成影响,其灼烧产生的有害物质更会严重影响人体的健康 。非烟叶杂物一般分为三类:一类杂物包括金属、塑料、昆虫等;二类杂物包括纸、石头、麻绳等;三类杂物包括非烟叶杂草等。为了保障卷烟的吸食安全,烟草行业对烟叶中杂物含量提出了严格的管控要求,其标准为:一类杂物含量为0,二、三类杂物含量小于等于0.00665%。目前卷烟生产加工线上采用的除杂方式主要有风力除杂、光电除杂、磁力除杂和人工挑选除杂,其中风力除杂、光电除杂、磁力除杂均是针对杂物的特定属性差异进行的有针对性识别和剔除,如比重的差异、颜色的差异和磁性的差异等,一种除杂方式只能识别和剔除某一类杂物。高光谱成像技术(Hyperspectral imagingHSI)是图像与光谱技术相结合的三维信息获取技术,具有图谱合一、检测速度快、对样品无侵入、无污染等特点。相较于近红外光谱仪等传统光谱分析设备,高光谱成像仪可以在提供光谱信息的同时,显示出该光谱所在像元位置,提供物品的空间分布信息,实现不同被测物可视化成像;可以利用空间信息,对每条光谱追根溯源,更加完整地探测不同物质、不同位置光谱的差异。利用高光谱成像仪对烟叶进行检测分析,近年来已在烟草行业中得到了应用。在鲜烟叶光谱特性方面,孙阳等利用可见近红外便携式地物光谱仪分析不同颜色鲜烟叶的光谱特性,同时运用相关分析和逐步回归分析的方法对高光谱特征参数、鲜烟叶颜色参数和烟叶成熟度进行了研究。在烟草病毒检测方面,朱红艳等利用可见波段成像光谱仪采集健康烟叶和感染烟草花叶病毒烟叶信息,运用机器学习的方法对烟叶感染疾病的程度进行评估,并取得了较好的效果。打叶复烤过程中,也可利用高光谱成像仪进行成像,对高光谱图像空间维中的烟叶和杂物的像元进行光谱分析,利用不同物质独特的光谱特征,对烟叶和杂物进行判别,以保证烟叶的纯净度。因此,基于高光谱成像技术提出了一种分类方法,以达到准确识别烟叶、杂物的目的,可以为实现对不特定杂物的剔除提供技术基础。

 

    1 高光谱成像系统组成

    高光谱成像系统如图1所示。系统主要包括高光谱成像仪、卤钨灯光源、暗箱、样品台、电控移动平台、数据采集卡和计算机。其中,高光谱成像仪由准直镜、分光计、聚焦透镜、InGaAs CCD相机组成,采集波长范围1000~2500 nm,共288个波段,像素数384×288(空间维×光谱维),光谱分辨率12nm;烟叶和杂物等实验样品由河南中烟工业有限责任公司提供。为保证烟叶和杂物样本成像清晰不失真,设置CCD相机曝光时间为20ms,调节物距至47cm,电控平台移动速率为1.7 cm·s–1

烟叶高光谱成像效果如图2所示,系统所成图像为包含图像空间信息与像元光谱信息的三维数据立方体。

1 高光谱成像系统

2 三维高光谱图像及光谱


    2 高光谱图像处理方法

    2.1 高光谱图像黑白校正

    在实验过程中,高光谱成像系统受到光源在不同波段反射强度不同、镜头所含暗电流等因素影响,会在采集图像光谱维中产生较大噪声,影响实验精度。因此,实验前对高光谱图像进行黑白校正来保证实验结果的准确性。校正过程中,首先关闭近红外高光谱相机镜头盖,采集反射率为0的全黑标定图像(B)。然后打开镜头盖,扫描校准白板,采集反射率为99%的全白标定图像(W),标定图像如图3所示。最后通过黑白校正公式处理,获得校正后的高光谱图像信息,其公式如下:

    式中:R为校正后高光谱图像;I为未校正高光谱图像。

3 全白标定图像(左)与全黑标定图像(右)


    2.2 高光谱图像预处理

    成像系统所采集的原始高光谱图像中掺有较多冗杂光谱信息,这给计算效率和计算精度带来很大影响。对高光谱图像进行预处理,可以有效减少甚至消除背景、噪声等对图像带来的干扰,为后续图像分类提供高质量的数据源,为数据分析奠定良好基础。本研究中对经黑白校正后的光谱数据进行Savitzky-Golay平滑滤波(SG)以去除噪声带来的影响;对平滑滤波后的光谱数据进行多元散射校正(MSC),以消除样品不均匀所产生的散射现象。

    

    2.2.1  Savitzky-Golay平滑滤波算法

    存在11个上述方程,构成k元线性方程组。利用最小二乘法对方程组进行求解,并对窗内数据进行最佳拟合。使用SG平滑滤波算法可以有效消除光谱数据中的噪声,其平滑效果如图4所示。

    本方法中,为避免光谱波形失真,滤波阶数设置为0;为保证滤波后光谱噪声最小,引入均方误差(MSE)对光谱数据变化程度进行评价,选取合适的窗宽对信号进行拟合。其中 MSE值越小,光谱噪声越小。选取滤波核中心点数m= 12345,窗宽n=2m+1=357911时,对MSE值进行计算,结果如表1所示。

1 不同窗宽对应的均方误差

窗宽

3

5

7

9

11

MSE

0.172 365

0.172 364

0.172 364

0.172 361

0.172 357

    滤波核中心点个数m=5,窗宽n=11时均方误差值最小,MSE值等于0.172 357。对各测量点x=(– 5, – 4, … ,0, … , 4, 5),采用k-1次多项式对窗口内所包含的数据点进行拟合运算,即满足:

    存在11个上述方程,构成k元线性方程组。利用最小二乘法对方程组进行求解,并对窗内数据进行最佳拟合。使用SG平滑滤波算法可以有效消除光谱数据中的噪声,其平滑效果如图4所示。

4 滤波前后烟叶光谱信息


    2.2.2 多元散射校正(MSC)算法

    相同物质光谱波形趋于一致,但是选取同种物质的不同像元,光谱中吸光度却有所差异。这是由于样品外形不固定,卤钨光源漫反射导致的杂散现象引起的。为避免杂散现象对光谱信息造成影响,采用多元散射校正算法对样品近红外光谱进行修正。通过计算ROI区域中样品光谱的平均光谱和进行一元线性回归,最终完成多元散射校正。将散射信息校正至同一水平,使得光谱向平均光谱靠拢,即可大幅提高光谱信息信噪比。具体处理过程如下:

    计算待校正光谱的平均光谱:

    一元线性回归:

    多元散射校正:

    式中:A为定标光谱数据矩阵;Ai,j表示样品经SG平滑处理后近红外光谱在各个波长点处求平均值所得到的平均光谱矢量;mi和bi分别表示所测近红外光谱与平均光谱进行一元线性回归后所得到的相对偏移系数与平移量。
    烟叶近红外光谱经多元散射校正前后的结果如图5、图6所示。由图5可以看出,在对相同物质(烟叶)不同像元处进行光谱信息提取时,其吸光度差异较大,光谱间存在基线漂移、倾斜等现象,这主要是由各光谱中散射信息差异引起的。采用MSC算法对光谱信息进行处理,如图6所示,可以看出烟叶散射信息校正至同一水平,烟叶光谱向平均光谱靠拢,光谱信息信噪比大幅提高。

图5 多元散射校正前烟叶吸光度


图6 多元散射校正后烟叶吸光度


    2.3 基于支持向量机(SVM)算法的图像分类

    SVM是一种建立在统计学理论基础上的机器学习方法。SVM可以自主找寻有较大分类能力的支持向量,并由此构造分类器,最大化类与类之间的间隔,因此SVM具有较高分类准确度。SVM算法本质是求解目标函数最优化问题,基本思想在于通过核函数的定义,将样本输入空间映射到高维空间中,然后在高维空间中选取新的最优分类面作为决策面,对不同类数据进行分离,常见核函数分为4种:①线性核函数:K(xi,x)=xi·y;②多项式核函数:K(xi,x)=(y(xi,x)+m)d, d=1,2… …;③径向基核函数:K(xi,x)=exp(-‖xi-x‖²/2δ²;④Sigmoid核函数:K(xi,x)= tanh(y(xi·x)+m)。
    提取不同物质光谱信息,建立光谱库文件。分别使用以上4种核函数进行分类实验,并通过高光谱影像分析软件ENVI 5.3对样品进行分类精度统计。利用混淆矩阵(Confusion matrix),通过总体分类精度值(OA)和卡帕系数(Kappa)对烟叶和杂物分类精度进行表征。将高光谱图像信息与光谱库文件光谱信息进行比对,分类精度结果如表2~表5所示。
表2 采用线性核函数时烟叶和杂物的混淆矩阵

类别

烟叶

塑料盖

金属片

匝带

蜗牛

皮筋

背板

总计

烟叶

9 635

0

0

0

21

0

0

9 656

塑料盖

0

660

0

0

0

0

0

662

金属片

0

0

341

0

0

0

0

341

匝带

0

2

0

90

25

0

2

119

蜗牛

24

0

0

5

244

0

9

282

皮筋

0

0

0

0

0

52

1

53

背板

0

0

0

9

0

0

15 389

15 398

总计

9 659

662

341

104

290

52

15 401

26 509

    式中:N为总像元个数26509;C为分类数7;xi+、x+i为混淆矩阵中每行、每列之和;xii为混淆矩阵中对角阵元素。


表3 采用多项式核函数时烟叶和杂物的混淆矩阵

类别

烟叶

塑料盖

金属片

匝带

蜗牛

皮筋

背板

总计

烟叶

9 639

0

0

0

17

0

0

9 656

塑料盖

0

662

0

0

0

0

0

662

金属片

0

0

341

0

0

0

0

341

匝带

0

0

0

97

18

0

0

115

蜗牛

20

0

0

5

255

0

6

286

皮筋

0

0

0

0

0

52

0

52

背板

0

0

0

2

0

0

15 395

15 397

总计

9 659

662

341

104

290

52

15 401

26 509


表4 采用径向基核函数时烟叶和杂物的混淆矩阵

类别

烟叶

塑料盖

金属片

匝带

蜗牛

皮筋

背板

总计

烟叶

9 639

0

0

0

0

0

0

9 639

塑料盖

0

662

0

0

0

0

0

662

金属片

0

0

341

0

0

0

0

341

匝带

0

0

0

102

0

0

0

102

蜗牛

13

0

0

0

290

0

0

303

皮筋

0

0

0

0

0

52

0

52

背板

7

0

0

0

0

0

15 401

15 410

总计

9 659

662

341

104

290

52

15 401

26 509


表5 采用Sigmoid核函数时烟叶和杂物的混淆矩阵

类别

烟叶

塑料盖

金属片

匝带

蜗牛

皮筋

背板

总计

烟叶

9 635

0

0

0

21

0

0

9 656

塑料盖

0

660

0

0

0

0

0

660

金属片

0

0

341

0

0

0

0

341

匝带

0

2

0

90

25

0

3

120

蜗牛

24

0

0

5

244

0

9

282

皮筋

0

0

0

0

0

52

0

52

背板

7

0

0

9

0

0

15 389

15 398

总计

9 659

662

341

104

290

52

15 401

26 509


    通过4种核函数对比实验,分别计算混淆矩阵中总体分类精度和卡帕系数,可以得出结论:采用径向基核函数对烟叶和杂物的分类效果最佳,总体分类精度值为 99.92%,卡帕系数为 0.998。


    2.4 检测结果

    依次经过Savitzky-Golay卷积平滑滤波,多元散射校正算法预处理后,利用支持向量机对烟叶和杂物进行分类。对每种物质的特征吸收光谱进行标记,其中烟叶和杂物的波形有明显的差别,具体如图7所示。



图7 烟叶和杂物吸收峰标记

    对图7进行光谱分析可知,在1200nm处,塑料瓶盖与塑料匝带均出现吸收峰,尤其瓶盖吸收峰最为强烈,故依据此峰,可辨识瓶盖和匝带。1430nm、1870nm作为大气水分吸收带,烟叶与蜗牛受影响较为明显,但烟叶吸光度较高,故依据此波段,可分辨烟叶与蜗牛。金属片在近红外波段一直保持较高吸光度,且在1150nm、2050nm处具有反射峰,区别极为明显。皮筋在1000~1250nm吸光度保持上升趋势,在2000nm处有小的反射峰存在,该峰可作为皮筋的判别依据。综上,除烟叶和蜗牛外,其余样品均具有较大区分度。通过总体分类精度值和卡帕系数可知,样本分类结果与光谱区分度具有高度一致性,总体分类精度较高。烟叶在轮廓处存在误区分现象,分类效果图如图8所示。选取烟叶轮廓处误识别像元,导出光谱信息与蜗牛光谱信息进行比对,如图9所示。从图9可以看出,由于烟叶轮廓处受到单位像元内物质混合、光强较弱和吸光度较低等因素影响,烟叶轮廓、蜗牛的光谱曲线发生重合叠加,从而导致误识别现象发生。在后续的工作中,将进一步在烟叶和蜗牛光谱数据处理的过程中加入特征识别算法,以便将烟叶轮廓和蜗牛进行有效的区分。


图8 烟叶和杂物成像效果图



图9 烟叶误识别像元和蜗牛光谱信息


    3 结论

    本研究提出了一种基于高光谱成像技术的烟叶和杂物识别分类方法。采用Savitzky-Golay平滑算法、多元散射校正算法对提取的感兴趣区域数据进行预处理;通过支持向量机实现烟叶和杂物的识别分类,针对常用的4种核函数对其进行寻优和分类预测,分析结果显示使用径向基核函数时分类效果最佳,其总体分类精度达99.92%,卡帕系数为0.998。研究结果表明,在高光谱成像技术的基础上使用支持向量机可以对烟叶、塑料橡胶制品和金属制品等进行有效分类,有助于实现烟叶中非特定杂物的剔除。