摘要

基于近红外光谱技术对木材产地进行识别必须依赖于光谱数据预处理方法和校准模型,然而大多数采用近红外光谱技术识别木材产地的研究工作都是采用经典的线性模型。构建木材地理溯源系统有利于促进木材市场的良性发展,打击乱砍滥伐,保护濒危树种。为提高木材产地识别效率,提出一种基于近红外光谱技术结合机器学习的木材产地识别方法。首先建立木材产地的光谱数据集,采集来自两种不同产地的樟子松、泡桐、榉木、柚木、椴木和臭椿的光谱数据,每个树种构成一个数据集,并将特征维度降至2维,以探索各数据集的数据分布情况;其次对原始光谱数据进行特征工程,即分别采用主成分分析法和线性判别分析法对高维光谱数据进行降维处理,以提高模型的泛化能力,并对比两种降维技术对模型准确率的影响;最后构建木材产地鉴别模型,分别从非线性算法、回归算法、分类算法、概率算法、集成算法和深度学习算法六个角度选取了支持向量机、逻辑回归、 K最近邻、朴素贝叶斯、随机森林和人工神经网络6种算法建立模型,采用学习曲线、网格搜索法、 K折交叉验证等算法优化模型参数以提高模型识别准确率及稳健性,并从模型的准确率与运行时间两个层面来评估模型效果。结果表明,基于近红外光谱技术结合机器学习是识别木材地理来源的有效手段,樟子松、泡桐、榉木、柚木、椴木和臭椿的准确率分别达到98.3%、 100%、 100%、 100%、 100%、 98.3%,相应的模型运行时间分别为0.183、 0.182、 0.181、 0.182、 11.424和12.969 s。综合分析6种模型在各数据集上的表现,发现非线性的支持向量机和人工神经网络模型比其余模型更具有优势。其中,基于人工神经网络构建的木材产地鉴别模型表现优异,在各数据集中识别率最高,但运行时间远多于其余算法。