近期,中科院合肥研究院智能所离子束生物工程与绿色农业研究中心吴跃进研究员课题组围绕近红外光谱分析技术,提出一种基于组合移动窗口和智能优化算法相结合的变量选择算法。相关工作已在光谱学期刊Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy在线发表。
近年来,随着光谱技术的发展,光谱数据呈现数量高、维度高、复杂度高等特点。光谱数据中不仅包含大量的噪声和干扰变量,而且当样本数量远小于变量数量时,寻找最优变量子集将成为NP-hard问题,对光谱数据挖掘和光谱定量分析提出了挑战。提取关键变量信息减少数据维度不仅可以提高光谱定量分析能力,而且可以选取特征光谱,降低仪器研发成本,提高经济效益。
这项工作改进传统粒子群算法(PSO),提出变维度的粒子群算法(VDPSO),结合组合移动窗口策略实现光谱数据变量的快速选择。该算法可以在不同维度上搜索数据空间,降低限入局部极值和过拟合的风险。与四种高性能变量选择算法BOSS,VCPA,iVISSA和IRF进行比较,结果表明该算法可以选择最优的光谱信息,提升模型的预测能力。该算法有望进一步应用于基因组学、蛋白质组学、代谢组学和定量构效关系(QSAR)等学科数据分析中。
该研究工作得到安徽省重点研究开发计划、中国科学院战略性先导科技专项、国家自然科学基金等资金支持。
文章链接:https://doi.org/10.1016/j.saa.2020.118986
不同算法选择的变量区间