发布信息

用于基于光谱测量来预测样品特性的系统和方法与流程 专利技术说明

作者:admin      2023-06-29 09:36:43     240



测量装置的制造及其应用技术1.本发明总体上涉及样品的光谱测量,并且更具体地涉及使用通过近红外(nir)或中红外(mir)光谱测量获得的所测量的光谱来预测样品特性。背景技术:2.光谱学中的问题是从样品获得的近红外(nir)或中红外(mir)光谱或其它光谱测量数据的多变量校准创建和评估。常见的nir应用的实例是在化学分析领域,并且解决了样品的化学特性或物理特性的定量分析,即,奶粉或动物饲料中的脂肪、蛋白质和水含量、汽油中的苯含量等。对于光谱方法,如nir、mir、xrf等,二级分析方法需要校准,以便建立一个或多个所测量的值(光谱)与样品特性(浓度、密度、粘度等)之间的关系。存在用于此目的的单变量或多变量校准程序,所述校准程序主要基于相关性和回归性。3.用于解决多变量校准的现有技术方法通常基于以下算法中的任何算法:[0004]-pls(偏最小二乘或投影到潜在结构):通常用于nir光谱法。pls模型总是线性地工作,即,通过回归计算线性地建立待校准特性与潜在变量(pls评分)之间的关系。通常,样品的组分也是所述样品的特性。[0005]-svr(支持向量回归):基于基于内核的svm(支持向量机)算法。根据内核,可以线性地或非线性地创建模型。在许多情况下,svr允许在更大和更异构的数据集的情况下创建比pls更精确的模型。[0006]-局部回归、local和lwr(局部加权回归):最终基于pls,但使用光谱文库(光谱数据)来首先找到与待分析的光谱匹配的光谱。利用这些,计算局部模型并且评估光谱。pls线性地工作,但通过局部选择与分析光谱匹配的校准光谱,避免了非线性效应。另一使用局部回归的方法是基于通过主成分分析或pls得出的潜在变量(评分)。[0007]-ann(人工神经网络):基于可能的若干层内部神经元(模仿人脑的功能)。此类模型可以被训练用于光谱评估。这也实现了非线性建模,即,模型从不是严格线性的。[0008]ann使用随机内部起始值来进行训练并且因此不如pls或局部回归那样是确定性的,这可能是个缺点。[0009]所有现有方法都直接使用光谱来产生校准品,在具有合理计算时间的pls的情况下,这是标准的。使用svr、局部回归和ann,计算时间变得明显长于使用pls。根据设置,计算时间的增加可能是按倍数计或甚至按数量级计。进一步地,还必须对光谱进行预处理。也就是说,必须进行光谱范围选择,并且在任何情况下都需要进行数据预处理(推导、归一化)。[0010]在局部回归实施方案(例如,local)的情况下,模型必须含有所有原始光谱,这使得非常大的文件必须在漫长的过程中分布在nir仪器的网络中。[0011]通过测量nir或mir光谱并且将此类光谱与通过初步分析方法确定的相应样品特性一起存储来建立包含样品数据库的文库所需的努力非常大。为了防止未经授权访问所述文库,需要强大的数据保护机制,这减缓了任何新评估的实施(例如,新测量样品的分析或预测)。技术实现要素:[0012]因此,需要提供用于根据从样品获得的nir/mir光谱确定此类样品特性的系统和方法,所述系统和方法克服了用于光谱测量数据的现有技术多变量校准方法的上述缺点。本文公开的方法建议对小波变换的nir光谱和潜在的其它光谱测量数据进行多变量校准和评估,而不是直接使用所获得的光谱(如现有技术中那样)。也就是说,不是评估光谱而是评估小波变换的光谱,这具有如启用现有技术方法不可能的各种滤波器和信号选择程序等优点。具体地,在使用滤波函数来相对于原始信号(光谱)滤除信息价值较小的某些小波带和/或小波系数的实施例中,可能有利的是不可能从存储在相应文库中的小波变换的校准集导出原始校准光谱。也就是说,此类实施例防止对原始光谱的未授权访问,而无需另外的数据保护机制。[0013]在一个实施例中,提供了一种计算机实施的方法,所述方法用于预测(估计)特定样品类型的样品的特性值。所述预测基于从所述样品获得的nir/mir光谱。可以用nir/mir光谱分析的样品特性包含但不限于以下(在所述样品中)的浓度:测量样品中的特定化合物、碘值、ph值,水、蛋白质、脂肪、纤维、灰分、脂肪酸和游离脂肪酸的含量;或包括密度、粘度、辛烷值和十六烷值的与浓度无关的另一特性(可通过nir/mir光谱测量)。所述方法可以由实施功能模块以执行以下描述的功能的计算机系统来执行。[0014]所述方法开始于对所获得的光谱应用小波变换。例如,所述小波变换可以是离散小波变换(dwt),但也可以使用其它小波变换类型(例如,连续或多尺度小波变换(cwt)、小波包变换)。结果,计算了多个小波带中的小波系数的样品集。通常,小波变换允许在含有的频率上分析信号,但与傅里叶变换(fourier transformation)相反,已知频率在信号中的位置(参见u.depczynski,k.jetter,k.molt和a.niemoeller,使用遗传算法通过小波系数回归对近红外光谱进行定量分析(quantitative analysis of near infrared spectra by wavelet coefficient regression using a genetic algorithm),《化学计量学和智能实验室系统(chemometrics and intelligent laboratory systems)》47,179-187,1999)。小波本身具有紧支集,这意指所述小波不是周期性的。光谱的小波变换产生低通表示带和所谓的详细带。所述低通表示带(j=0)的小波系数是所谓的近似或缩放系数。所述近似或缩放系数是信号的低通表示。此类近似系数没有为后面的建模和预测步骤提供有价值的信息,并且没有进一步用于本文所描述的方法。关于所述信号的细节的有价值的信息在始于带j=1的详细带中的小波系数中找到。在以下描述中,带j=1总是被称为最低带。[0015]存在若干具有许多可能的小波类型和形状的家族。例如,对于小波变换,可以使用最简单的haar小波和常见的其它daubechies类型来分解光谱并且直接使用系数,并且可以使用任何其它包含更复杂的小波的小波类型。然而,在本文公开的方法的上下文中,所述小波类型不太相关,但仍可能对所描述的过程的结果和复杂性产生影响。所述小波变换速度很快,并且适用于每个单独的单个光谱。也就是说,任何光谱都可以被单独地变换为在文库中待使用的对应的小波变换光谱,并且可以进一步被用于新样品光谱的后续预测步骤中。换句话说,文库不依赖于数据集,而经典的pls或其它依赖于因子分析(方差分析)的多变量方法,例如pca(主成分分析)依赖于数据集,在所述多变量方法中通过添加或删除样品来改变文库需要完全重新计算文库(例如,重新计算评分和负荷)。也就是说,在小波空间中,可以将每个校准集添加到文库中或从文库中删除,而不影响文库的其它校准集。对于所述小波变换,根本不需要对光谱进行预处理,这简化了校准和优化过程。[0016]然后,所述系统访问具有定义校准系数空间的多个小波系数校准集的文库。所述文库可以是系统的内置部分,或者所述文库可以由具有适当访问接口的远程存储设备提供。使用小波局部回归(wlr)通过从校准样品获得的相应nir/mir光谱的小波变换来计算校准集。除了用于与所述样品相同样品类型的校准样品的校准集之外,所述文库还可以包含用于其它样品类型的校准集。每个校准集与相应校准样品的一个或多个参考特性值相关联。参考特性值是通过使用参考方法(主要分析方法)测量(或分析)的值。每个校准集表示多维小波系数空间中的点,其中特定校准集的系数表示此点在多维小波系数中的坐标。当然,所述样品集也表示此多维空间中的点。对于饲料和饲料成分、谷物和其它农产品或食品以及土壤等应用领域,有数千种光谱可用,并且需要考虑许多材料和成品配方。本文公开的方法允许在一个文库中覆盖许多样品类型,并且避免了如上述现有技术方法中所提出的大量单个pls模型的创建。[0017]wlr文库的构建不需要任何类型的建模或其它化学计量步骤。可以对从校准样品获得的光谱进行内插,并且然后使用小波变换将所述光谱变换成校准集。文库的校准集应该覆盖一个或多个相同的光谱范围。所述文库覆盖所测量的光谱的整个光谱范围,但更大的子范围或多个子范围可能足以作为输入。测量的nir光谱的典型光谱范围为10000cm-1至4000cm-1,并且测量的mir光谱的典型光谱范围为4000cm-1至400cm-1。可以对所述光谱进行内插,以获得2n个数据点,这对于小波变换可能是有利的,但不是强制性的。这也允许在由于分辨率不相等引起的光谱差异不太大的情况下将分辨率略有不同的光谱用于文库。每个校准集(小波变换的校准光谱)在文库中由在小波带中分选的小波系数的向量表示。这些小波系数跨越所述多维小波系数空间,其中(从所述样品获得的)新光谱可以被局部化,这允许根据如下所描述的最近邻创建局部pls模型。[0018]基于所述文库的校准集,所述系统现在创建所述样品的待确定特性的局部pls模型。已知局部回归方法,如lwr(局部加权回归)或shenk和westerhaus的local方法(参见shenk js,westerhaus mo和berzaghi p.“nir仪器的local校准程序的研究(investigation of alocal calibration procedure for nir instruments)”《近红外光谱仪杂志(j.near infrared spectrosc)》,5,223-232,1997;berzaghi p,shenk js和westerhaus mo.“利用近红外多产品数据库进行local预测(local prediction with near infrared multi-product databases)”《近红外光谱仪杂志》;8,1-9,2000)。本文公开的方法基于pls,但使用所述文库来首先在多维小波空间中识别待分析的所获得的光谱的合适的校准集(样品集的k个最近邻(knn))。利用此类识别的光谱,计算局部pls模型,并且评估待分析的(所获得的)光谱。[0019]更详细地说,为了创建局部pls模型,所述系统首先在校准系数空间中识别样品集的预定义数量的最近邻。例如,可以基于它们的校准集与样品集之间的数学距离来识别所述最近邻。这种数学距离是构成许多多变量数据分析方法的基础的多维空间中对象之间距离的度量。通常,n维空间中任意两点之间的距离可以通过闵可夫斯基等式(minkowski equation)来计算。闵可夫斯基距离存在三种特殊情况:城市街区距离(曼哈顿距离(manhattan distance))、汉明距离(hamming distance)和欧几里德距离(euclidean distance)。[0020]在实际实验中,所述最近邻的预定义数量k选自25至1000的范围。有利地,所预定义数量k选自100至300的范围。当使用200个最近邻创建模型时,可以实现非常好的结果。然后基于所选择的k个最近邻(knn)及其相关联的参考特性值来计算局部pls模型。[0021]k个最近邻校准集的局部选择允许提前最小化或甚至避免非线性效应,因为在假设k个最近邻与样品相似的情况下,所创建的局部pls模型需要覆盖与所选择的knn的光谱方差相关的较低光谱方差。此方法在以下方面可能是有利的:[0022]-如果文库针对每种样品类型包含足够数量的校准样品(小波变换),则可以很容易地组合不同产物(样品)和样品类型的许多光谱。[0023]-平均而言,局部pls模型方法示出了较低的方法误差(例如,rmsep),并且因此比使用基于(校准样品的)相同全局数据集的全局pls模型的方法更精确(准确)。[0024]-用进另外的校准集更新文库可以由本文公开的系统的用户容易地完成,并且不需要任何中央文库提供者的活动(如重新计算所述文库)。[0025]最后,所述系统通过将局部pls模型应用于样品集来预测所述样品的待确定特性值。通常,局部pls模型包含加权系数或回归系数。这些系数形成所谓的b向量,所述b向量表示作为pls建模的结果的pls模型,在使用小波系数空间的情况下,所述b向量的大小对应于基础小波系数的数量(例如,60个小波系数)。应当注意,在光谱维度中工作的现有技术方法中,所述b向量很容易达到500或更大的大小(对应于相应光谱的基础数据点)。通过多变量局部pls模型,每个数据点(即,每个小波系数)接收加权。然后将此加权应用于所获得的样品光谱的小波变换。即,将所述b向量与所获得的样品光谱的小波变换相乘。通过将现在加权的系数相加并且将所谓的b0系数相加来获得预测结果。[0026]不需要但是可能进行光谱范围选择或数据预处理。由于pls通过各个系数的加权自适应地工作,因此在所选带中不必选择任何系数,然而可以使用滤波或阈值化。所述小波系数的归一化也有助于构建文库和分析所获得的样品光谱。一些任选的实施例实施此类另外的滤波函数,所述滤波函数允许出于如下文所描述的各种目的对小波系数进行滤波。[0027]在一个实施例中,可以通过使用向量归一化来归一化样品集的小波系数。[0028]在一个实施例中,对于校准集的每个小波系数,可以确定所选择的k个最近邻的相应方差。然后在创建用于进行特性值预测的局部pls模型时不使用小波系数中方差低于最大方差的5%的小波系数。此函数允许滤除在整个数据集上未示出方差的小波系数,例如,表示校准集中的基线或总吸光度区域的小波系数。由于此滤波准则独立于样品特性,因此通常可用于减少用于局部pls模型的小波系数的数量。[0029]在一个实施例中,确定所选择的k个最近邻的与相应校准样品的实际所关注的特性的相关性。当创建局部pls模型时,不使用相关性低于预定义相关性阈值的小波系数。合适的相关性阈值为大约85%。换句话说,使用通过相关性r2进行的选择允许仅考虑相关性高于相关性阈值的系数。滤除相关性太低的小波系数提高了局部pls模型的预测精度,因为不使用不相关且受噪声影响的小波系数。由于此滤波准则取决于样品特性,因此可以用于减少用于特定特性的专用局部pls模型的小波系数的数量。[0030]在一个实施例中,应用小波变换包括为所选择的k个最近邻计算样品集的最高小波带的小波系数的通用阈值。donoho和johnstone提出了作为阈值参数的通用阈值(参见小波收缩的理想空间自适应(ideal spatial adaptation by wavelet shrinkage),《生物统计学(biometrika)》,第81卷,第3期,1994年9月,第425-455页)。通用阈值充当滤波函数,所述滤波函数允许在创建局部pls模型时忽略具有值低于所述计算的通用阈值的所有小波系数。此阈值化滤波函数允许截断具有与噪声相当的太小值的小波系数。同样,此滤波准则独立于样品特性,并且还可以用于减少用于局部pls模型的小波系数的数量。[0031]在一个实施例中,可以设置对应特性的局部pls模型的秩。一个选项是手动将特性和整个文库的秩设置为全局秩。然而,此选项基于反复试验,并且非常耗时。更有利的选项是自动化且新的方法,其中文库中的每个校准集均具有秩,所述秩是由整个文库针对所有相应的校准集关于相应的特性的交叉验证来确定的。然后可以基于所识别的最近邻的秩来计算用于确定所述样品的所述特性值的所创建的局部pls模型的秩。在一个实施方案中,所创建的局部pls模型的秩可以被计算为与大多数最近邻相关联的秩。在可替代的实施方案中,系统可以将秩计算为多维小波系数空间中样品集的最近邻的秩的舍入平均值。所计算的局部pls模型的秩通常在1至35的范围内,有利地,所述秩在2至15的范围内。在创建所述文库时,执行所谓的交叉验证。也就是说,用wlr分析每个校准集本身,并且通过将秩依赖性结果与校准集的已知参考值进行比较并且找到最低绝对差来确定适当的秩。此最佳秩保存于每个校准集的文库中。当创建用于分析(所述样品的)新光谱的新局部pls模型时,通过多数原则确定的秩或局部pls模型的舍入平均秩可以用于光谱分析。在扩展文库时,仅需要对新的校准集或新的特性参考值进行新的交叉验证。[0032]在一个实施例中,当创建局部pls模型并且预测样品特性值时,至少忽略所计算的样品集的最低小波带和最高小波带。小波带的这种选择通常至少忽略最低和最高带,因为所述最低和最高带并不含有相关信息,因为nir/mir信号几乎总是反映在此类极端带之间的小波带中。根据用户输入,所述系统可以接收一个或多个另外的待忽略的较高带。通过选择用于特性值预测分析的小波带(wlr的参数),逐带选择系数,然后使用所述系数。例如,所述系统可以仅使用一个小波带的系数来进行文库中的最近邻搜索,以保持低计算时间。knn上的最近邻搜索随着维数的增加呈指数级下降。中等小波带已经可以表示最重要的光谱信息(具有足够的方差),以使用适当的knn识别文库中的适当区域。然而,多个小波带可以用于局部pls建模,因为这提供了更多的信息,并且变量的数量增加不会给局部建模的pls计算带来负担。[0033]光谱的小波变换和截断完整的小波带以及任选的初始滤波在存储文库时会使得数据压缩,而不会丢失重要的nir/mir相关信息。当在文件大小仍然是互联网连接较差地区的主题的仪器网络中提供此类文库时,这是有利的。[0034]通常,可以使用变换到任何小波类型的小波变换。这包含但不限于以下小波类型:haar小波;daubechies小波db2、db4、db6和db8;morlets小波;symlets小波;coiflets小波;和双正交小波。也可以使用其它小波类型。[0035]在一个实施例中,提供了一种用于基于从特定样品类型的样品获得的nir/mir光谱来预测所述样品的特性值的计算机程序产品。所述计算机程序产品具有计算机可读指令,所述计算机可读指令当被加载到计算装置的存储器中并且由所述计算装置的一个或多个处理器处理时使所述计算装置执行本文公开的计算机实施的方法的方法步骤。[0036]在一个实施例中,提供了一种用于基于从特定样品类型的样品获得的nir/mir光谱来预测所述样品的特性值的计算系统。所述系统具有适于执行本文公开的计算机实施的方法的方法步骤的功能模块。例如,所述计算机系统具有用于加载所述计算机程序产品的存储器和用于运行所述程序以实施所述功能模块的一个或多个处理器。[0037]本发明的其它方面将通过所附权利要求中具体描述的要素和组合来实现和获得。应当理解,前述一般描述和以下具体描述两者均仅是示范性和解释性的,并且不是对所描述的本发明的限制。附图说明[0038]图1包含了用于基于从样品中获得的nir/mir光谱来预测所述样品的特性值的计算机系统的示例性实施例的框图;[0039]图2是用于基于从样品中获得的nir/mir光谱来预测所述样品的特性值的计算机实施的方法的简化流程图;[0040]图3展示了常见的daubechies小波家族的小波类型的实例;[0041]图4展示了daubechies 4小波在三个低频小波带上的扩张变化和平移;[0042]图5a、5b展示了对于组合两个吸收带、基线和噪声的光谱向具有小波系数的若干带(级)的小波变换;[0043]图6a至6j展示了对于从不同糖产品样品获得的多个nir光谱向具有小波系数的若干带(级)的小波变换;[0044]图7是根据实施例的具有定义校准系数空间的小波系数的多个校准集的文库的结构的示意性概图;图8展示了用于确定关于相应校准样品的特定特性的校准集的最佳秩的方案;并且[0045]图9是示出可以与本文所描述的技术一起使用的通用计算机装置和通用移动计算机装置的实例的图。具体实施方式[0046]图1展示了用于基于通过使用适当的nir/mir光谱仪200从样品201获得的nir/mir光谱211来预测所述样品201的特性值的计算机系统100的示例性实施例的框图。样品201可以具有多种特性。在本文所描述的实例中,所关注的特性是待预测相应特性值的特性p1。可以基于nir/mir光谱的特性的实例包含(但不限于)在所测量的样品中特定化合物的浓度、碘值、ph值,水、蛋白质、脂肪、纤维、灰分、脂肪酸和游离脂肪酸的含量;或包括密度、粘度、辛烷值和十六烷值的与浓度无关的另一特性。实例中的样品201具有样品类型st1。[0047]图2是用于基于从样品中获得的nir/mir光谱来预测所述样品的特性值的计算机实施的方法1000的简化流程图。所述方法1000可以由图1的系统100执行。现在在方法1000的简化流程图的上下文中描述图1的系统100。因此,以下描述参考图1和图2中使用的附图标记。因此,系统100被配置为当将相应的计算机程序加载到所述系统的存储器中并且用所述系统的处理装置执行所述程序时执行方法1000。[0048]小波变换模块将小波变换110应用于所获得的光谱211,并且由此计算多个小波带b0、b1、b2中的小波系数的样品集111。样品集111被展示为具有三个小波带。然而,通常小波带的数量较高。简要地转到图3,示出了常见daubechies小波家族的三种不同的示例小波类型dt1、dt2和dt4。dt1展示了daubechies 1型(通常称为haar)。dt2和dt4分别展示了daubechies 2型和4型。此类简单的小波变换类型可以用于操作小波变换110,因为它们用于分解直接使用样品集的所计算的小波系数的光谱211。具体地,当使用离散小波变换时,小波变换和样品集111的系数是正交的。对于其它类型的小波变换,仍然有可能选择正交的系数。小波变换的这种特性是有利的,因为所述特性允许在稍后的pls或多变量方法的建模步骤中根据需要选择或组合小波变换。任选地,可以通过使用向量归一化来归一化样品集的小波系数。[0049]简要地转到图4,展示了daubechies 4小波在三个低频小波带j=0、j=1和j=2上的扩张变化和平移。j=0的小波带可以在宽度上适应以覆盖较高带中信号中的不同频率分量。例如,小波的宽度在带j=1中减小,并且在带j=2中再次减小。窄尺度小波也可以分析较高的频率。通过在信号上平移小波,可以在光谱的不同位置分析此频率。类似地,带j=2中的甚至更窄的小波可以用于分析四个不同光谱位置(k=0至k=3)处的光谱。[0050]简要地转到图5a、5b,通过使用具有光谱f的实例进一步解释小波变换110,所述光谱f包含两个吸收带501、502、基线(从0至1024个数据点延伸的弯曲弓形曲线503)和叠加到基线的一些噪声。为了便于解释,已通过模拟获得示例光谱f。[0051]小波变换的小波系数在从低频率带(j=1)开始的小波带(或级)中被分选,其中只有一个或两个系数覆盖信号(模拟光谱f)的整个光谱范围。如前所提及的,带j=0的系数是与本文公开的方法和系统无关的所谓的近似或缩放系数,并且因此被另外的处理步骤忽略。在所述实例中,带j=1具有系数3、4,带j=2具有系数5至8,带j=3具有系数9至16等等。系数的数量在下一个较高的带中总是加倍,并且相应的分析频率增加。图5b的实例中的最高带(j=8,j=7)主要示出了噪声。然而,在平滑光谱的情况下,此类最高频带也可能包含一些有价值的信息。有价值的系数是值高于仅代表噪声的值的系数。在模拟光谱f中,可以很容易地看到哪些系数是重要的或有价值的,因为所述系数含有关于两个吸收带的信息。带j=3以下的小波带主要表示基线信息或不太重要的低频率信息。另一方面,较高的带j=7和j=8主要表示噪声。也就是说,关于光谱f中的两个吸收峰的有价值的信息在带j=3至j=6中。[0052]在图6b至6j所展示的实例中,示出了从图6a所示出的真实nir光谱中获得的九个小波带(带1至带9)。图6a示出了四个nir光谱601至604,其中每个nir光谱由不同的线型表示。图6b至6j中的小波变换针对相应小波变换使用对应线型。同样对于真实nir光谱601至604的小波变换,其结果类似,因为结果表明有价值的信息分布在不同的带上,但总是在预期的位置。小波系数模式的形状随着所分析的频率而改变,并且允许选择对于要校准的给定特性有利的此类小波系数。应当注意,当样品的吸光度增加时,小波系数增加。也就是说,比尔定律(beer's law)仍然有效。[0053]简要地转到图1和2,系统100访问1200具有定义校准系数空间311的小波系数的多个校准集311-1至311-n、311c的文库300。所述文库也可以是系统100的内置组成部分,或者所述文库可以存储在远程存储设备上,所述远程存储设备可以通过适当的接口被系统100访问。例如,文库300可以存储在公共或私有云服务器上,并且系统100可以分别通过因特网或通过内联网访问所述文库。校准集311-1至311-n、311c已经通过从校准样品中获得的相应nir/mir光谱300-1至300-n的小波变换来计算。所述文库至少包含与测量样品201的特定样品类型st1相关的校准集。每个校准集至少与相应校准样品的特定特性的一个参考特性值pv-1至pv-n相关联。然而,对于校准样品,可能已经测量了多个特性的多个参考特性值,并且将其与相应的校准集一起存储在文库中。[0054]简要地转到图7,与通过小波变换从所获得的nir/mir光谱导出的样品集ss1一起示出了文库300的方案。样品集ss1包含带b0至bm中的小波系数。文库300中的校准集cs1至csn具有与样品集ss1相同的结构。每个校准集包含从带b0至bm中的相应校准光谱计算的小波系数。另外,对于每个校准集,存储相应校准样品的一个或多个特性p1、p2的一个或多个参考值。如前所提及的,通过使用合适的参考(校准)方法测量参考值。[0055]简要地转到图1和2,计算机系统100的pls建模器模块120现在基于从文库300检索的信息创建1300所述样品201的待确定特性值的局部pls模型121。在第一步骤中,所述pls建模器121在校准系数空间311中选择1310样品集的预定义数量k的最近邻311k(knn)。在图1中,示出了简化的二维系数空间311。实际上,系数空间311是多维的,其维数对应于带b0至bm中的小波系数的数量(参见图7)。在图1中,系数空间311中对应于小波变换的样品光谱的系数的点由黑圆点311s展示。所有其它的白色填充圆311c和斑点填充圆311k是表示系数空间311中的校准集的点。因此,所选择的k个最近邻由斑点填充圆311k表示。如前所提及的,已经用在100至300的范围内的k实现了非常好的结果,其中200示出了最有利的结果。knn的选择基于多维空间311中样品点311s与任何校准集之间的数学距离。例如,此类数学距离可以通过闵可夫斯基给出的等式来计算:[0056][0057]其中等式1中的k是坐标的指数,并且p确定距离的类型。[0058]p=2的闵可夫斯基距离的变量对应于熟知的欧几里德距离,例如,所述欧几里德距离可以用作确定校准集与样品集之间的距离。有关闵可夫斯基距离计算的更多细节可以在以下中找到:“统计基础-距离和相似性测量(fundamentals of statistics-distance and similarity measures)”,其可在http://www.statistics4u.com/fundstat_eng/cc_distance_meas.html.获得。[0059]pls建模器120最终将距点311s距离最短的k个校准集选择为多维系数空间311中的knn。在一个实施例中,选择1310knn可以仅使用单个小波带的小波系数,而局部pls模型121的以下计算1320可以使用多个小波带的小波系数。[0060]在下一个步骤中,pls建模器最终基于所选择的k个最近邻311k及其相关联的参考特性值来计算1320局部pls模型121。通常,pls建模器可以使用校准集的所有带的所有小波系数进行此计算。使用多个小波带进行局部pls建模是有利的,因为由此提供了更多的信息。应当注意,本领域技术人员通常知道如何基于多维空间中的多个向量来计算局部pls模型。通常,对于具有许多校准集(通常为数百或数千)的大型数据集,或者当组合不同样品或样品类型的许多校准集时,局部pls模型方法示出了较低的方法误差(例如,较低的预测rmsep的均方根误差),并且因此比使用相同校准集的基于全局pls模型的方法更准确。[0061]当计算局部pls模型时,pls建模器可以进一步将任选的滤波函数122应用于knn校准集。在图7的上下文中简要描述了两个任选的滤波器实施例。在一个实施例中,对于校准集csn的每个小波系数,计算与相应校准样品的特性p1的相应相关性cor-csn-p1。针对所有所选择的k个最近邻计算此相关性。具有低于预定义相关性阈值的相关性的小波系数然后并未被pls建模器用于创建局部pls模型。换句话说,只有处于或高于预定义阈值的校准小波系数才用于计算局部pls模型。pls建模器可以使用相关性高于相关阈值的小波系数。适当的相关阈值是0.85,但也可以使用其它阈值。通过小波系数的相关性系数r2(例如与相应nir样品的浓度值或其它特性值)进行的滤波可以用于消除非相关或低相关系数,并且减少计算时间并改进结果。间接地,此实施例也是用于滤除在数据集中不具有一定方差的系数的滤波器。[0062]在另外的实施例中,对于校准集csn的每个小波系数,为所选择的k个最近邻确定相应的方差var-csn。例如,当为所选择的k个最近邻创建局部pls模型时,可以不使用(即,滤除)小波系数中方差低于最大方差的5%的小波系数。滤除在knn校准集上示出低或无方差的小波系数允许消除表示基础光谱中的基线或总吸收区域的此类系数,并且进一步减少计算时间。[0063]另外的滤波实施例可以使用硬阈值化(hard-thresholding)或收缩(参见小波收缩的理想空间自适应,《生物统计学》,第81卷,第3期,1994年9月,第425-455页)来处理太小的小波系数。例如,小于最高带中的小波系数的平均值的校准集的小波系数可能表示噪声,并且可以在创建局部pls模型时在不丢失相关信息的情况下进行滤除。也就是说,这种滤波允许消除基础信号中不贡献相关信息的部分,并且进一步节省计算时间。[0064]在仍另外的滤波实施例中,当创建局部pls模型时,pls建模器可以完全忽略相应校准集的至少最低小波带和最高小波带。如前所提及的,最低和最高带通常不会提供有价值的信息。系统100还可以向系统的用户提供用户接口,用于接收指示在创建局部pls模型时待忽略的另外的带的用户输入。例如,分析图6g至6j中的带6至9的用户可以认识到这些带示出了显著的冗余,并且因此提供了用户输入:除了最高带9之外,当创建局部pls模型时,pls建模器还将忽略带7和8。[0065]当建立文库300时,交叉验证模块320(cv)可以与文库相关联,使得可以执行所谓的交叉验证。在此类交叉验证中,使用wlr分析每个校准集,并且通过将相应校准集的秩依赖性结果与相应已知参考值进行比较来确定适当的秩。在此实施例中,最佳秩可以与文库中的每个校准集一起保存。图7进一步展示了文库300的扩展,其中除了特性p1、p2的参考值之外,存储了相应校准集的对应秩r1、r2。换句话说,在此实施例中,文库300中的每个校准集cs1至csn均具有与对应特性相关联的秩r1,所述秩是通过对应局部回归模型针对相应校准集关于对应特性p1、p2的交叉验证来确定的。当在此实施例中使用基于相应校准nir/mir光谱的新校准集来扩展文库时,新的交叉验证变得必要,但这仅很对那些新集。[0066]图8展示了用于确定关于相应校准样品的特定特性的校准集的最佳秩801的方案800。将pls模型的秩定义为用于pls模型的因子的数量。在多变量校准中选择最佳数量的因子(或负荷)可以避免局部pls模型的拟合不足或过拟合。如果使用太少的因子,则会获得拟合不足的模型,这意指所述模型没有充分覆盖数据中重要的和分析物相关的可变性。如果使用太多的变量或因子,可能会获得过度拟合的模型,其中噪声和微小或不相关的变化包含在所述模型中。这两种情况都会导致对测量的nir/mir样品的预测不佳。可以通过绘制待建模的(相应校准集的)特性的参考值与预测值(由具有相应因子数的局部pls模型预测的值)之间的绝对差与如图8的实例所示的pls因子的数量的关系来确定最佳的因子数(即,最佳秩)。最佳秩是绘制的曲线具有最小值的因子数。在所述实例中,通过具有秩10的局部pls模型获得最佳结果。[0067]当pls建模器创建局部pls模型时,用于确定样品的待确定特性值的所创建的局部pls模型的秩可以通过使用与所选择的k个最近邻中的大多数相关联的秩或者通过将所述秩计算为所选择的k个最近邻的秩的舍入平均值来确定。[0068]与现有技术的光谱基方法相比,本文公开的具有校准集(原始校准谱的小波变换)的校准文库实现了显著的数据减少。当使用上文所公开的各种任选的小波系数滤波机制时,实现了高达90%的数据压缩率。一方面,这允许在分析从相应样品中获得的新nir/mir光谱时显著加快用于创建局部pls模型的计算。另一方面,所述滤波机制允许在网络中的相应nir/mir装置上分布文库。此类联网的nir/mir装置变得越来越重要,并且数据负荷不仅与存储容量有关,而且更重要的是与文库的全局分布有关。这具体受到传输具有校准的装置设置所需的时间的限制。仅基于小波变换的校准集建立文库是无模型方法,所述无模型方法允许通过简单地向所述文库中添加新的校准集来轻松扩展所述文库,而无需对整个文库执行任何另外的操作(对于基于由主成分分析或pls导出的潜在变量(评分)的局部回归方法,情况是如此)。在此上下文中,有利地,本文公开的方法还允许系统的用户在使用全局秩设置的情况下使用他们自己的校准数据来扩展文库,而不需要任何集中式供应商端更新过程。[0069]回到图1,系统100的预测器模块130通过将局部pls模型121应用于样品集111来最终预测1400样品201的待确定特性值pv1。本领域技术人员“将局部pls模型应用于样品集”理解为执行部分最小二乘回归,例如,在维基百科中的以下链接中所描述的:https://en.wikipedia.org/wiki/partial_least_squares_regression:[0070]“偏最小二乘回归(pls回归)是一种与主成分回归有一定关系的统计方法;代替找到响应与自变量之间最大方差的超平面,而是通过将所预测的变量和可观察变量投影到新空间来找到线性回归模型。因为x和y数据都被投影到新的空间,所以pls系列方法被称为双线性因子模型。pls用于找到两个矩阵(x和y)之间的基本关系,即潜在变量方法来对这两个空间中的协方差结构建模。pls模型将试图找到x空间中的多维方向,所述方向解释了y空间中的最大多维方差方向。当预测器的矩阵的变量比观测值多,并且当x值之间存在多重共线性时,pls回归特别适合。相比之下,标准回归在这些情况下会失败(除非其被正则化)。”[0071]“存在许多pls变量,用于估计因子和负荷矩阵t、u、p和q。大多数pls变量将x与y之间的线性回归估计构建为[0072]在文库300还存储校准集的最佳秩的实施例中,用于确定所述样品的特性值的所创建的局部pls模型的秩是基于k个最近邻的秩r1来计算的。因此,与所选择的k个最近邻中的大多数相关联的秩被用于进行预测的局部pls模型的秩,或者局部pls模型的秩被计算为所选择的k个最近邻的秩的舍入平均值。[0073]图9是示出可以与在此所描述的技术一起使用的通用计算机装置900和通用移动计算机装置950的实例的图。在一些实施例中,计算装置900可以涉及系统100(参见图1)。计算装置950旨在表示各种形式的移动装置,如个人数字助理、蜂窝电话、智能手机和其它类似的计算装置。在本公开的上下文中,计算装置950可以提供i/o装置,用于用户与计算装置950进行交互(例如,用于接收小波带的选择)。这里示出的组件、它们的连接和关系以及它们的功能仅是示范性的,并且不意味着限制本文件中描述和/或要求保护的本发明的实施方案。[0074]计算装置900包含处理器902、存储器904、存储装置906、连接到存储器904和高速扩展端口910的高速接口908以及连接到低速总线914和存储装置906的低速接口912。组件902、904、906、908、910和912中的每一个组件使用各种总线互连,并且适当地安装在共用母板上或以其它方式安装。处理器902可以处理用于在计算装置900内执行的指令,所述指令包含存储在存储器904中或存储装置906上以在外部输入/输出装置(如耦接到高速接口908的显示器916)上显示图形用户界面(gui)的图形信息的指令。在其它实施方案中,多个处理器和/或多条总线在适当时可以连同多个存储器和多种类型的存储器一起使用。另外,多个计算装置900可以连接在一起,其中每个装置提供必要操作的部分(例如服务器组、一组刀片服务器或多处理器系统)。[0075]存储器904存储计算装置900内的信息。在一个实施方案中,存储器904是一个或多个易失性存储器单元。在另一实施方案中,存储器904是一个或多个非易失性存储器单元。存储器904也可以是另一种形式的计算机可读介质,如磁盘或光盘。[0076]存储装置906能够为计算装置900提供大容量存储。在一个实施方案中,存储装置906可以是或者含有计算机可读媒体,如软盘装置、硬盘装置、光盘装置或磁带装置、闪速存储器或其它类似的固态存储器装置、或包含存储区域网络或其它配置中的装置的装置阵列。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含指令,所述指令当被执行时执行一个或多个方法,如上文所述的方法。信息载体是计算机或机器可读介质,如存储器904、存储装置906或处理器902上的存储器。[0077]高速控制器908管理计算装置900的带宽密集型操作,而低速控制器912管理更低带宽的密集型操作。这种功能分配仅是示范性的。在一个实施方案中,高速控制器908耦接到存储器904、显示器916(例如,通过图形处理器或加速器),并耦接到可接受各种扩展卡(未示出)的高速扩展端口910。在所述实施方案中,低速控制器912耦接到存储装置906和低速扩展端口914。低速扩展端口可以例如通过网络适配器耦接到一或多个输入/输出装置,如键盘、指向装置、扫描仪或联网装置(如交换机或路由器),所述低速扩展端口可以包含各种通信端口(例如通用串行总线(usb)、蓝牙、以太网、无线以太网)。[0078]计算装置900可以以多种不同的形式实施,如图所示。例如,它可以实现为标准服务器920,或者也可以在一组此类服务器中多次实施。计算装置还可以实施为机架服务器系统924的一部分。另外,计算装置可以实施在如膝上型计算机922等个人计算机中。可替代地,计算装置900的组件可以与如装置950等移动装置(未示出)中的其它组件组合。此些装置中的每个装置可以含有计算装置900、950中的一个或多个,并且整个系统可以由彼此通信的多个计算装置900、950构成。[0079]计算装置950包含处理器952、存储器964、输入/输出装置(如显示器954)、通信接口966和收发器968以及其它组件。装置950还可以设置有用于提供另外的存储的存储装置,如微型驱动器或其它装置。组件950、952、964、954、966和968中的每一个组件使用各种总线互连,并且若干组件可适当地安装在共用母板上或以其它方式安装。[0080]处理器952可以执行移动计算装置950内的指令,所述指令包含存储在存储器964中的指令。所述处理器可以实施为包含单独的以及多个模拟和数字处理器的芯片的芯片组。处理器可以提供例如装置950的其它组件的协调,如用户接口的控制,由装置950运行的应用,以及由装置950进行的无线通信。[0081]处理器952可以通过耦接到显示器954的控制接口958和显示器接口956与用户通信。显示器954可以是例如tft lcd(薄膜晶体管液晶显示器)或oled(有机发光二极管)显示器或其它适合的显示技术。显示器接口956可以包括用于驱动显示器954向用户呈现图形和其它信息的适当的电路系统。控制接口958可以从用户接收命令并转换命令以提交到处理器952。另外,外部接口962可以提供与处理器952进行通信,以实现装置950与其它装置的近区域通信。外部接口962例如可以在一些实施方案中提供有线通信,或者在其它实施方案中提供无线通信,并且还可以使用多个接口。[0082]存储器964存储计算装置950内的信息。存储器964可以实施为一个或多个计算机可读媒体、一个或多个易失性存储器单元或者一个或多个非易失性存储器单元中的一个或多个。还可以提供扩展存储器984,并通过扩展接口982将所述扩展存储器连接到装置950,所述扩展接口可以包括例如simm(单列直插存储器模块)卡接口。此类扩展存储器984可以为装置950提供额外的存储空间或者还可以为装置950存储应用或其它信息。具体地,扩展存储器984可以包含用于实行或补充上文中描述的进程的指令并且还可以包含安全信息。因此,例如,扩展存储器984可以充当装置950的安全模块并且可以用允许安全使用装置950的指令进行编程。另外,安全应用可以连同另外的信息一起经由simm卡提供,如以不可破解的方式将标识信息置于simm卡中。[0083]所述存储器可以包括例如闪速存储器和/或nvram存储器,如下所述。在一个实施方案中,计算机程序产品被有形地体现在信息载体中。计算机程序产品含有当被执行时执行一个或多个方法(如以上所描述的那些)的指令。信息载体是计算机可读介质或机器可读介质,如可以例如通过收发器968或外部接口962来接收的存储器964、扩展存储器984或处理器952上的存储器。[0084]装置950可以通过通信接口966进行无线通信,所述通信接口在必要时可以包括数字信号处理电路。通信接口966可提供各种模式或协议下的通信,例如gsm语音呼叫,sms、ems或mms消息传递、cdma、tdma、pdc、wcdma、cdma2000或gprs等。此类通信可以例如通过射频收发器968发生。另外,短程通信可以如使用蓝牙、wifi或其它此收发器(未示出)发生。另外,gps(全球定位系统)接收器模块980可向装置950提供额外的与导航和位置相关的无线数据,所述数据可由装置950上运行的应用适当地使用。[0085]装置950还可以使用音频编解码器960音频通信,所述音频编解码器可以接收来自用户的语音信息并将其转换为可用的数字信息。音频编码解码器960同样可以如通过例如装置950的听筒中的扬声器为用户生成可听声音。此声音可以包含来自语音电话呼叫的声音,可以包含记录的声音(例如语音消息、音乐文件等)并且还可以包含在装置950上运行的应用所生成的声音。[0086]计算装置950可以以多种不同的形式实施,如图所示。例如,移动计算装置可以实施为蜂窝电话980。移动计算装置还可以实施为智能电话982、个人数字助理或其它类似的移动装置的一部分。[0087]此处所描述的系统和技术的各种实施方案可以在数字电子电路、集成电路、专门设计的asic(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实施方案可以包含可在可编程系统上执行和/或解释的一个或多个计算机程序中的实施方案,所述可编程系统包含至少一个可编程处理器、至少一个输入装置以及至少一个输出装置,所述至少一个可编程处理器可以是专用的或通用的,耦接以从存储系统接收数据和指令并向所述存储系统传输数据和指令。[0088]这些计算机程序(也被称作程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令,并且可以用高级程序和/或目标定向的编程语言和/或用汇编/机器语言实施。如本文所使用的,术语“机器可读介质”、“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、设备和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。[0089]为了提供与用户的交互,这里描述的系统和技术可以在具有用于向用户显示信息的显示器装置(例如,crt(阴极射线管)或lcd(液晶显示器)监视器)以及通过其用户可以向计算机提供输入的键盘和指向装置(例如,鼠标或轨迹球)的计算机上实施。还可以使用其它类装置来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且来自用户的输入可以以任何形式接收,包含声音输入、语音输入或触觉输入。[0090]可以在计算装置中实施这里描述的系统和技术,所述计算装置包括后端组件(例如,作为数据服务器),或包括中间件组件(例如,应用服务器),或包括前端组件(例如,具有图形用户接口或web浏览器的客户端计算机,用户可以通过所述图形用户界面或web浏览器与这里描述的系统和技术的实施方案进行交互),或者此类后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如,通信网络)互连。通信网络的实例包含局域网(lan)、广域网(wan)和因特网。[0091]所述计算装置可以包含客户端和服务器。客户端和服务器大体上远离彼此且通常通过通信网络交互。客户端与服务器的关系借助于在各别计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部