医药医疗技术的改进;医疗器械制造及应用技术1.本发明涉及用于确定肽免疫原性的方法、系统和计算机程序产品,以及其用于癌症治疗、病毒接种等的应用。背景技术:2.t细胞表位预测在免疫实验设计和疫苗制备中发挥重要作用。3.目前,大多数表位预测研究集中于肽加工和呈递,例如蛋白酶体切割,与抗原加工相关的转运蛋白(tap)和主要组织相容性复合物(mhc)结合。4.然而,迄今为止,表位免疫原性的机制仍不清楚。通常认为t细胞免疫原性可能受到靶肽的外来性、可及性、分子量和结构、分子构象、化学性质和物理性质的不同程度的影响。5.对于疫苗开发(即癌症疫苗,病毒疫苗),重要的是鉴定可引发免疫应答的肽。疫苗的效力高度依赖于表位的免疫原性,即可能的靶肽引发免疫应答的能力。免疫原性测试的当前技术水平涉及劳动和时间密集的测定,并且需要实验室环境中的安全措施。6.目前鉴定能够引发免疫应答的肽的策略使用对mhc分子的预测的结合亲和力(ic50)。在us 2013330335,us 2016132631和us 2019346442中讨论了这种策略的示例。然而,并非所有具有高(预测的)结合亲和力的肽也引发免疫应答。7.使用预测肽是否可能呈递在mhc上的这种结合预测模型,并假定那些选择的肽也是免疫原性的肿瘤新抗原(neoantigen),导致大量假阳性预测。通过用于预测mhc上的肽结合/呈递的这种模型鉴定的所述肿瘤新抗原的少至5%也能够引发免疫应答,这突出了更好鉴定真正免疫原性肽的需要。8.iedb免疫原性预测器和ineo-epp是两种公众可获得的免疫原性预测工具。iedb免疫原性预测器是简单的模型,其基于肽的氨基酸的位置和性质来评价肽。它基于免疫原性肽与非免疫原性肽中氨基酸的按位置富集。所得的肽免疫原性分值是其单个氨基酸分值的总和。ineo-epp是在hla-i免疫原性肽上训练的随机森林分类器,其中提取了几种特征,如氨基酸物理化学性质和洗脱配体可能性百分等级(el等级(%))评分。ineo-epp使用一系列肽以及hla等位基因作为输入。对于抗原预测,可以使用9种主要hla-i超型(a1,a2,a3,a24,b7,b27,b44,b58,b62)。9.然而,与本发明的预测器系统相比,两种预测工具的性能都明显不足。本发明旨在提供优于现有技术的改进的免疫原性预测工具。技术实现要素:10.在第一方面,本发明涉及根据权利要求1所述的用于测定肽的免疫原性的计算机执行方法。11.在第二方面,本发明涉及根据权利要求12所述的用于测定肽的免疫原性的计算机系统。12.在第三方面,本发明涉及根据权利要求13所述的用于确定肽的免疫原性的计算机程序产品。13.在第四方面,本发明涉及根据权利要求14所述的用于确定受试者的癌症治疗的应用,特别是通过确定由受试者的肿瘤细胞呈递的肿瘤新抗原的免疫原性来进行。14.在第五方面,本发明涉及根据权利要求15所述的用于筛选疫苗接种靶标上的病毒或细菌的应用,特别是通过测定来自病毒或细菌蛋白的表位的免疫原性进行筛选。15.在第六方面,本发明涉及根据权利要求16所述的用于表征受试者的自身免疫响应的应用,特别是通过测定由受试者细胞呈递的自身抗原的免疫原性来进行表征。16.在第七个方面,本发明涉及根据权利要求17所述用于在改变肽的氨基酸序列的一个或多个氨基酸,特别是模拟可增加或降低特定肽的免疫原性的氨基酸改变时,评估所述肽的免疫原性改变的应用。17.本发明是有利的,因为机器学习分类器可以通过记录集训练,从而学习基于其氨基酸序列识别肽的免疫原性。这例如显著地简化了疫苗开发过程,因为可以基于充分了解的免疫原性指征来选择肽。此外,与本领域已知的其它免疫原性肽分类器相比,基准化测试(benchmarking)显示本发明的机器学习分类器的性能显著改善。18.在权利要求2至11以及整个描述、实施例和附图中讨论了本发明的优选实施方式。附图说明19.图1示出了本发明的示意性工作流程。20.图2到5示出了根据本发明执行的不同配置和分类器的接收机操作特性(roc)和精准率-召回率基准化测试。21.图6显示了本发明和本领域已知的其它免疫原性肽分类器的roc和精准率-召回率基准化测试。22.图7显示sars-cov-2、sars-cov和mers-cov的包膜衍生肽的免疫原性概率的直方图和密度曲线。23.图8显示肽序列标志,显示免疫原性阳性数据集(上图)中9个氨基酸长的肽相对于非免疫原性阴性数据集(下图)中9个氨基酸长的肽的差异氨基酸使用。氨基酸未分组(图8a)、按化学性质分组(图8b)、按电荷分组(图8c)或按大小分组(图8d)。24.图9显示了用于预测免疫原性响应的不同参数与33种肽的elispot结果的相关性,所述33种肽均被预测为由netmhcpan4.0呈递。图9a显示了使用本发明的计算机执行方法、iedb免疫原性预测器和netmhcpan4.0(后者基于受试者的特定hla等位基因或所有hla等位基因),从具有阳性或阴性elispot结果的肽的库中测定的肽的免疫原性的预测可能性。图9b显示了多种不同免疫原性预测器的接受者操作特征(roc)曲线的比较,包括本发明的计算机执行方法、iedb免疫原性预测器和netmhcpan4.0,后者基于受试者的特定hla等位基因或所有hla等位基因。图9c显示了多种不同免疫原性预测器的累积增益图,包括本发明的计算机执行方法、iedb免疫原性预测器和netmhcpan4.0,后者基于受试者的特定hla等位基因或所有hla等位基因。累积增益曲线说明了用样本的最小可能部分识别真阳性的百分比。25.图10显示黑色素瘤患者对ctla-4阻断的应答率与应答持续时间的关系。基于突变的中位数(肿瘤突变负荷tmb),呈递的突变的数目或免疫原性突变的数目,将患者分成两组,表示为“高”(实线)或“低”(虚线)。具体实施方式26.本发明涉及用于确定肽免疫原性的方法、系统和计算机程序产品。此外,本发明涉及所述方法、系统和/或产品用于癌症治疗和病毒接种的应用。在下文中,将详细描述本发明,讨论优选实施方式,并且将通过非限制性示例来说明本发明。27.除非另外定义,否则在公开本发明时使用的所有术语,包括技术和科学术语,具有本发明所属领域的普通技术人员通常理解的含义。通过指导,包括术语定义以更好地理解本发明的教导。28.如本文所用,以下术语具有以下含义:29.如本文所用的“一个”、“一种”和“该”是指单数和复数指示物,除非上下文另有明确说明。举例来说,“隔室”是指一个或多于一个隔室。30.本文所用的“约”是指可测量测量的值,诸如参数、量和持续时间等,意指涵盖指定值的+/-20%以下,优选地+/-10%以下,更优选地+/-5%以下,甚至更优选地+/-1%以下,并且还更优选地+/-0.1%以下的变化,迄今为止此类变化适于在所公开的发明中执行。然而,应当理解,修饰语“约”所指的值本身也被具体公开。31.如本文所用的“包含”、“包括”和“由…组成”与“具有”或“含有”是同义的,并且是包括性或开放式术语,其指定其后内容例如组分的存在,并且不排除或预先排除本领域已知或其中公开的另外的,未列举的要素、成员、步骤等的存在。32.此外,说明书和权利要求书中的术语第一、第二、第三等用于区分相似的元件,而不一定用于描述顺序或时间顺序,除非特别说明。应当理解,如此使用的术语在适当的情况下是可互换的,并且在此描述的本发明的实施方式能够以不同于在此描述或示出的其他顺序操作。33.尽管术语“一个或多个”或“至少一个”,例如一组成员中的一个或多个或至少一个成员本身是清楚的,但通过进一步的示例,该术语尤其涵盖对所述成员中的任一个或对所述成员中的任何两个或更多个的引用,例如所述成员中的任何≥3、≥4、≥5、≥6或≥7等,以及直至所有所述成员。34.由端点表述的数值范围包括该范围内包含的所有数值和评分,以及所表述的端点。35.除非另外定义,否则在公开本发明中使用的所有术语,包括技术和科学术语,具有本发明所属领域的普通技术人员通常理解的含义。通过进一步的指导,包括说明书中使用的术语的定义以更好地理解本发明的教导。本文所用的术语或定义仅用于帮助理解本发明。36.在整个说明书中对“一个实施方式”或“实施方式”的引用意味着结合该实施方式描述的特定特征、结构或特性包括在本发明的至少一个实施方式中。因此,在本说明书中各处出现的短语“在一个实施方式中”或“在实施方式中”不一定都指同一实施方式,而是可以指同一实施方式。此外,在一个或多个实施方式中,特定的特征、结构或特性可以以任何合适的方式组合,这对于本领域技术人员从本公开内容将是显而易见的。此外,虽然在此描述的一些实施方式包括一些但不包括在其他实施方式中的其他特征,但是不同实施方式的特征的组合意味着在本发明的范围内,并且形成不同的实施方式,如本领域技术人员将理解的。例如,在以下权利要求中,任何所要求保护的实施方式可以以任何组合使用。37.在第一方面,本发明涉及用于测定肽的免疫原性的计算机执行方法。该方法优选包括获得所述肽的氨基酸序列的步骤。该方法优选进一步包括针对每个蛋白来源氨基酸获得多个各自与物理化学性质相关的数字索引的步骤。该方法优选还包括获得包含阳性数据集和阴性数据集的训练数据集的步骤,其中所述阳性数据集包括与免疫原性肽的多个氨基酸序列相关的(数字)数据,其中所述阴性数据集包括与非免疫原性肽的多个氨基酸序列相关的(数字)数据。该方法优选还包括在训练数据集上训练数学分类模型的步骤。该方法优选进一步包括通过训练的分类模型确定所述肽引发免疫应答的可能性的步骤。该方法优选还包括对每个蛋白来源氨基酸的数字索引进行主成分分析,以得到每个分析的蛋白来源氨基酸的主成分的步骤。该方法优选进一步包括获得所述训练数据集的氨基酸序列和所述肽的氨基酸序列的特征向量的步骤,其中氨基酸序列的特征向量是通过将所述氨基酸序列的每个氨基酸替换为一个或多个相应的主成分,优选一个或多个主要主成分而获得的。优选地,在训练数据集的特征向量上训练分类模型。优选地,其中对所述肽的特征向量确定所述肽具有免疫原性的可能性。38.在第二方面,本发明涉及用于测定肽的免疫原性的计算机系统。计算机系统被配置成用于执行根据该第一方面的计算机执行方法。39.在第三方面,本发明涉及用于测定肽的免疫原性的计算机程序产品,其中所述计算机程序产品包含指令,当计算机程序产品由计算机执行时,所述指令使计算机执行根据第一方面的计算机执行方法。40.在第四方面,本发明涉及第一方面的计算机执行方法和/或第二方面的计算机系统和/或第三方面的计算机程序产品的应用,用于确定受试者的癌症治疗,特别是通过确定由所述受试者的肿瘤细胞呈递的肿瘤新抗原的免疫原性来进行。41.在第五方面,本发明涉及第一方面的计算机执行方法和/或第二方面的系统和/或第三方面的产品的应用,用于筛选接种靶标上的病毒,特别是通过确定来自病毒蛋白的表位的免疫原性进行筛选。42.在第六方面,本发明涉及第一方面的计算机执行方法和/或第二方面的系统和/或第三方面的产品的应用,用于表征受试者的自身免疫响应,特别是通过确定由受试者的细胞呈递的自身抗原的免疫原性来进行表征。43.在第七方面,本发明涉及第一方面的计算机执行方法和/或第二方面的系统和/或第三方面的产品的应用,用于筛选接种靶标上的细菌,特别是通过测定来自细菌蛋白的表位的免疫原性进行筛选。44.在第八方面,本发明涉及第一方面的计算机执行方法和/或第二方面的系统和/或第三方面的产品的应用,用于在改变肽的氨基酸序列的一个或多个氨基酸时评估所述肽的免疫原性改变。特别地,用于模拟可增加或降低特定肽的免疫原性的氨基酸变化的应用。45.本发明提供了用于确定肽的免疫原性的计算机执行方法、计算机系统和计算机程序产品,以及所述方法、系统或产品中的任一种用于癌症治疗、病毒接种、表征受试者的自身免疫响应、筛选接种靶标上的细菌或其它病原体和用于评估在改变所述肽的氨基酸序列时所述肽的免疫原性改变的应用。本领域普通技术人员将理解,该方法在计算机程序产品中实现并使用计算机系统执行。本领域普通技术人员还清楚,免疫原性预测可用于癌症治疗、病毒接种、表征受试者的自身免疫响应和筛选接种靶标上的细菌。因此,本发明的所有八个方面在下文一起处理。46.本发明的简单的实施方式优选提供获得要对其确定免疫原性的肽的氨基酸序列。优选地,肽是细胞表面呈递的肽。更优选地,细胞表面呈递主要组织相容性复合体(mhc)结合肽。所述肽优选结合mhc i类并引发cd8t细胞应答,或结合mhc ii类并引发cd4 t细胞应答。因此,本发明在一些实施方式中适用于mhc i等位基因,在一些实施方式中适用于mhc ii等位基因。优选地,使用本发明预测免疫原性的肽序列(查询序列)应当已知由mhc呈递。其优点在于所述查询肽将更接近地类似于从其得到训练数据集(见下文)并且已知都在mhc上呈递的肽。因此,涉及免疫原性而非mhc呈递的特性是阳性和阴性肽之间最主要的区别因素(见下文)。47.所述肽可从任何受试者获得。本文所用的“受试者”是指现有技术中已知的术语,其应优选理解为人体或动物体,最优选为人体。如本文所用,“动物”优选指脊椎动物,优选指鸟类和哺乳动物,甚至更优选指哺乳动物。如本文所用,“有需要的受试者”应理解为将受益于(预防性)治疗,例如癌症或病毒接种的受试者。此外,由此确定免疫原性的肽包含氨基酸(aa)序列,并且优选具有9-11个aa的长度,或8-12的长度,或13-25的长度。48.本发明的一个简单实施方式优选提供了为每个蛋白氨基酸获得多个数字索引,其中每个所述数字索引与相应蛋白氨基酸的物理化学性质相关。本文所用的“蛋白来源氨基酸”是在翻译过程中生物合成地掺入蛋白质中的氨基酸。“蛋白来源”意指“产生蛋白”。在已知的生命中,有22个遗传编码的(蛋白来源的)氨基酸,20个在标准遗传密码中,另外2个可以通过特殊的翻译机制掺入。相反,“非蛋白来源氨基酸”是不掺入蛋白质(如gaba,l-dopa或三碘甲腺原氨酸),不掺入替代遗传编码的氨基酸,或不通过标准细胞机制直接产生和分离的氨基酸(如羟脯氨酸)。后者通常由蛋白质的翻译后修饰产生。通过获得关于蛋白来源氨基酸的信息,获得关于受试者的每种肽的“构建块”的信息。因此,肽可包含蛋白来源氨基酸、非蛋白来源氨基酸或两者的组合。49.物理化学性质优选地从本领域已知的数据库获得,例如在“https://www.genome.jp/aaindex/”的aa指数数据库。aa指数是表示氨基酸和氨基酸对的各种物理化学和生物化学特性的数字指数的数据库。aaindex现在由三个区段组成。所关注的区段是包含20个数值的氨基酸索引的aaindex1。物理化学性质的实例包括但绝不限于疏水性、自由能、aa分布等。50.本发明的简单实施方式优选提供在训练数据集上训练分类模型,并通过训练的分类模型确定所述肽引发免疫应答的可能性。在诸如分类算法等数学模型的训练的上下文中,使用以下术语,并且由此借助于指导进一步解释。[0051]“训练集”是用于训练或学习模型的数据观察值集(也称为“记录”,“示例”或“实例”)。分析模型具有需要估计以便进行良好预测的参数。这转化为找到分析模型的最佳参数值。为此,我们使用训练集来找到或估计最佳参数值。一旦我们具有经过训练的模型,我们就可以使用它进行预测。在监督分类任务中,还将类标签(例如,“免疫原性”、“非免疫原性”)附到每个观察值以估计最佳参数值。这允许在有助于识别欺诈案例的模式上训练算法。[0052]“验证集”涉及具有不能直接从数据估计的参数的模型。然而,为了也找到这些参数(称为超参数)的最佳值,使用所谓的验证集。通常,可以识别超参数的一组候选值。人们挑选一个候选值,在训练集上训练模型,并在验证集上评估预测性能。然后,人们挑选下一个候选值,并以类似的方式继续进行,直到所有候选值都已被试完。最后,对于每个候选值,获得预测性能的相应估计。基于在验证集上估计的性能,可以挑选对应于最佳性能的一个候选值。训练集和验证集优选地在整个过程中严格地分开,以便获得可靠的性能估计。即,验证集中的观察值不能在训练集中(或就此而言的测试集中)。作为选择,训练集和验证集不是严格分开的。这例如是交叉验证的情况。[0053]“测试集”,也称为“保留样本”,是用于测试训练模型是否做出良好预测的数据观察值集。也就是说,在模型评估阶段,人们知道测试观察值的真实值,并且人们可以通过将它们与真实值进行比较来检查多少预测值是正确的。重要的是要注意,这里类标签仅用于评估分类模型的预测性能(例如,准确度)。即,测试集中的观察值不能在训练集或验证集中。严格的分开是至关重要的,因为人们希望模型对训练过程中未使用的观测值进行预测。只有当这被保证并且该模型显示出良好的性能时,人们才可以确定该模型也将对新的、以前未见过的数据表现良好。[0054]“保留策略”或“单一训练-测试拆分策略”是指最简单的拆分,因为数据被分成两个子集:一个用于训练,一个用于测试。人们可以用前者训练模型,然后用后者测试模型。注意,训练测试过程只进行一次。该数据拆分是随机进行的,即观察值被随机分配为属于训练集或测试集。通常对于一组候选模型,在测试集上评估性能,并挑选最佳模型。此外,为了考虑过拟合,经常需要比较训练和验证的模型。一些模型具有不能直接从数据估计的参数。它们被称为超参数。人们可以依赖于验证集来找到最佳模型。这里,可以将数据分成三个子集:一个用于训练,一个用于确认,一个用于测试。也以随机方式进行拆分。借助于验证集,人们可以找到具有最佳超参数值的模型(即,模型选择),并且最终在测试集上评估最佳模型。注意,在各种候选模型的集合中选择最佳预测模型的选择是基于在测试集上测量的性能而做出的,例如,人们可能需要判定逻辑回归模型、决策树还是随机森林是最佳性能模型。为了做出该判定,测试集的性能是关键的。当找到最终的预测模型时,可以将其实施在操作系统中,以用于对新的、以前未见过的数据进行预测。[0055]术语“k折交叉验证策略(k-fold cross validation strategy)”是指简单的训练测试拆分的替代方案。它对应于重复的训练-测试拆分,由此测试集被系统地移位。然后对获得的测试集上的性能进行平均。这种策略的优点是每个观察值将在测试集中一次。然而,更重要的是,估计的预测性能变得更可靠,这提供了模型的泛化性能的更好描绘。[0056]本发明的训练数据集至少包括含有免疫原性肽的多个氨基酸序列的阳性数据集。本文所用的“免疫原性”或“免疫响应性”是由作为外来对象被身体免疫系统检测的生物材料产生的。通过细胞上的抗原原性响应检测免疫响应性生物材料如肽。然后发生生物化学级联,由此t辅助细胞向生物材料迁移。因此,训练分类模型以识别免疫原性。[0057]根据一个优选的实施方式,所述阳性数据集的免疫原性肽通过以下方式获得:获得能够诱导t细胞应答的肽的氨基酸序列;获得对应于蛋白质组肽的氨基酸序列;将诱导t细胞应答的氨基酸序列与蛋白质组氨基酸序列进行比较以确定它们之间的匹配;阳性数据集包括除了所述匹配的氨基酸序列以外的诱导t细胞应答的氨基酸序列。优选地,获得的诱导t细胞应答的氨基酸序列是线性序列。[0058]根据确定自身免疫肽免疫原性的实施方式,所述阳性数据集的免疫原性肽通过以下方式获得:获得能够诱导t细胞应答的肽的氨基酸序列;获得对应于蛋白质组肽的氨基酸序列;将诱导t细胞应答的氨基酸序列与蛋白质组氨基酸序列进行比较以确定它们之间的匹配;阳性数据集包括诱导t细胞应答的所述匹配的氨基酸序列。优选地,获得的诱导t细胞应答的氨基酸序列是线性序列。[0059]根据用于测定由突变产生的肽的免疫原性的实施方式,阳性数据集的免疫原性肽通过以下方式获得:获得能够诱导t细胞应答的肽的氨基酸序列;获得对应于蛋白质组肽的氨基酸序列;将诱导t细胞应答的氨基酸序列与蛋白质组氨基酸序列进行比较以确定它们之间的匹配;阳性数据集包括与(例如人)蛋白质组的肽密切相关但不相同的诱导t细胞应答的氨基酸序列。优选地,“紧密相关但不相同”是指允许所述肽之间存在1、2或3个氨基酸错配。本领域技术人员将知道比较查询肽(待评估的肽)与人蛋白质组的肽的方法,以及如何鉴定错配的数目。其优点是通过滤出与人蛋白质组的肽相同的肽,阳性数据集中的肽更接近地类似于感兴趣的肽,所述感兴趣的肽是由于突变而具有改变的序列的肽。[0060]根据实施方式,所述阳性数据集的免疫原性肽通过以下方式获得:获得能够诱导t细胞应答的肽的氨基酸序列;获得对应于蛋白质组肽的氨基酸序列;将诱导t细胞应答的氨基酸序列与蛋白质组氨基酸序列进行比较以确定它们之间的匹配;阳性数据集包括与(例如人)蛋白质组的肽具有1或更多、2或更多、3或更多、4个或更多、5个或更多…错配的诱导t细胞应答的氨基酸序列。本领域技术人员知道比较查询肽(待评估的肽)与(人)蛋白质组的肽的方法以及如何鉴定错配的数目。当需要对外来抗原(例如,如果与人蛋白质组序列相比,非人或非哺乳动物例如细菌或病毒)特异的模型时,可以使用该阳性数据集。关于与(人)蛋白质组的肽具有多个错配的肽获得的所述阳性数据集可以类似于从所述外源(例如细菌或病毒)抗原获得的阳性数据集。[0061]能够诱导t细胞应答的肽可以通过人t细胞试验进行实验表征。t细胞测定可测量细胞因子释放、细胞毒性或定性t细胞与抗原呈递细胞(apc)的结合。用于t细胞测定的细胞因子可选自干扰素γ(ifnγ)、肿瘤坏死因子α(tnfα)、白介素-2(il-2)、白介素-4(il-4)、白介素-5(il-5)、白介素-6(il-6)、白介素-8(il-8)、白介素-10(il-10)、白介素-17(il-17)、白介素-21(il-21)、白介素-22(il-22)、粒酶a和粒酶b。在一些变化形式中,定性t细胞结合可通过mhc多聚体染色来测定。在一些变型中,可以离体或体外进行t细胞测定。由t细胞识别的实验表征的肽可以选自免疫表位数据库(iedb)。[0062]根据优选实施方式,训练数据集还包括阴性数据集。[0063]所述阴性数据集可以通过以下方式获得:获得能够结合和/或呈递在主要组织相容性复合体(mhc)上的肽的氨基酸序列,优选通过诸如结合测定和/或质谱数据的手段鉴定;获得对应于管家蛋白质组肽的氨基酸序列;将所述mhc呈递的/mhc结合的氨基酸序列与管家蛋白质组氨基酸序列进行比较以确定它们之间的匹配;阴性数据集包括它们之间的匹配,即对应于管家蛋白的mhc呈递的氨基酸序列。用于鉴定能够与mhc结合和/或呈递于mhc上的肽的所述结合测定法和/或质谱法可以是本领域已知的任何类型的结合测定法和/或质谱法。结合测定和/或质谱法的类型是本领域技术人员已知的。优选地,获得的mhc呈递的氨基酸序列是线性序列。[0064]在本文中,“管家蛋白质组”是指参与生物体中细胞或细胞组的基本功能的蛋白质组。[0065]根据确定由突变产生的肽的免疫原性的实施方式,阴性数据集通过以下获得:获得能够结合和/或呈递于主要组织相容性复合物上的肽的氨基酸序列;获得对应于蛋白质组肽的氨基酸序列;将所述mhc呈递的/mhc结合的氨基酸序列与所述蛋白质组氨基酸序列进行比较以确定它们之间的匹配;阴性数据集包括与人蛋白质组的肽密切相关但不相同的mhc呈递/mhc结合氨基酸序列。优选地,“紧密相关但不相同”是指允许所述肽之间存在1、2或3个氨基酸错配。本领域技术人员将知道比较查询肽(待评估的肽)与(例如人)蛋白质组的肽的方法以及如何鉴定错配的数目。其优点在于通过滤出与(人)蛋白质组的肽相同的肽,阴性数据集中的肽更接近地类似于由于突变而具有改变的序列的肽。通过选择该阴性数据集,避免了训练分类模型来区分突变肽和非突变肽,而不是免疫原性肽和非免疫原性肽。另一个或相关的优点是阴性数据集将非常类似于将由模型测试的肽,从而增加模型的特异性。[0066]根据一个实施方式,所述否定数据集通过以下获得:获得能够呈递主要组织相容性复合物的肽的氨基酸序列;获得对应于蛋白质组肽的氨基酸序列;将所述mhc呈递的氨基酸序列与所述蛋白质组氨基酸序列进行比较以确定它们之间的匹配;阴性数据集包括与(例如人)蛋白质组的肽具有1个或更多、2个或更多、3个或更多、4个或更多、5个或更多…错配的mhc呈递的氨基酸序列。本领域技术人员将知道比较查询肽(待评估的肽)与(人)蛋白质组的肽的方法以及如何鉴定错配的数目。当需要对外源(非人或非哺乳动物,例如细菌或病毒)抗原特异的模型时,可以使用该阴性数据集。从与人蛋白质组的肽具有多个错配的肽获得的所述阴性数据集可以类似于从所述外源(例如,如果与人蛋白质组序列比较,则为非人或非哺乳动物例如细菌或病毒)抗原获得的阴性数据集。[0067]根据优选实施方式,训练数据集包括阳性和阴性数据集,其中阴性数据集比阳性数据集包括实质上更多的记录。优选地,比例为至少3:1。根据另一实施方式,训练数据集包括阳性数据集和阴性数据集,其中阴性数据集包括与阳性数据集相比类似量的记录,或与阳性数据集相比更少的记录。[0068]根据优选实施方式,分类模型是分类机器学习算法,优选地是监督分类机器学习算法,更优选地,其中机器学习算法是多层感知器分类器、决策树分类器、高斯朴素贝叶斯分类器、高斯过程分类器、随机梯度下降分类器、线性支持向量机、核支持向量机、k最近邻分类器或随机森林分类器中的一个或多个的分类算法。在基准化测试(benchmarking)之后,随机森林分类器显示最佳结果。此外,发明人注意到随机森林分类器算法在特征工程和参数调整方面需要最少的工作量。因此,根据本发明的最优选的分类模型是随机森林分类器。[0069]本发明的一个简单实施方式优选地提供,在训练分类模型之前,对每个蛋白氨基酸的数字索引进行主成分分析,以获得每个分析的蛋白氨基酸的几个主成分。这里使用的“主成分分析”或简称“pca”用于重构最有区别的特征子空间,随后将其用作基于表示的分类中的输入以用于预测。pca改善了数据的预测和可处理性,但是如果被限制为有限数量的主成分,则还消除了噪声。氨基酸特性在主成分中的转变减少维度,并集中于氨基酸之间最独特的特性。[0070]本发明的一个简单的实施方式优选地提供,在训练分类模型之前,获得训练数据集的氨基酸序列和所述肽的氨基酸序列的特征向量,其中氨基酸序列的特征向量是通过用一个或多个主要的相应的主要主成分替换所述氨基酸序列的每个氨基酸而获得的;其中在所述训练数据集的特征向量上训练所述分类模型;并且其中针对所述肽的特征向量确定所述肽具有免疫原性的可能性。将肽翻译成特征向量保留了物理化学性质的位置信息。[0071]优选地,一个或多个主要主成分应理解为一个或多个第一主成分,更优选10个第一主成分,甚至更优选9个第一主成分,甚至更优选8个第一主成分,甚至更优选7个第一主成分,甚至更优选6个第一主成分,甚至更优选5个第一主成分,甚至更优选4个第一主成分,并且最优选3个第一主成分。[0072]因此,通过用2至10个以及其间的任何范围的相应的主要主成分替换所述氨基酸序列的每个氨基酸,获得氨基酸序列的特征向量。最优选地,通过用3个相应的主要主成分替换所述氨基酸序列的每个氨基酸来获得氨基酸序列的特征向量。发明人注意到,在他们的经验中,将特征向量限制为仅前三个主要分量防止了过度的处理要求,同时保留了用于非常精确的预测的足够信息。[0073]另外,在主成分分析之前,优选地将多个数字索引转换为z值,其表征每个特征将符合正常值的概率。[0074]根据一个实施方式,本发明还提供了对用于进一步定义免疫原性和/或非免疫原性肽的特征的无监督训练算法的训练。[0075]根据一个实施方式,本发明还提供了获得在肽水平上的性质,例如肽溶解度、分子量、肽稳定性、肽三维结构、肽在基因组中的全局定位(例如编码为与核中心的距离),与非突变肽的相似性等,其可用于进一步训练分类模型。[0076]如本领域技术人员所清楚的,本发明的计算机执行方法、计算机系统和计算机程序产品可用于鉴定mhc呈递的肽(表位)的组内的免疫原性肽(免疫原性表位)并得到对治疗靶标的鉴定。另外,其可用于评估改变所述肽的氨基酸序列的一个或多个氨基酸时肽的免疫原性改变,特别是模拟可增加或降低特定肽的免疫原性的氨基酸改变。[0077]实施例和附图说明[0078]通过以下非限制性实施例进一步描述本发明,所述实施例进一步说明本发明,并且不旨在也不应将它们解释为限制本发明的范围。[0079]实施例1:优选实施方式[0080]本实施例涉及预测细胞表面呈递的肽引发免疫应答的可能性的优选实施方式。[0081]本实施例接受呈递在细胞表面上的9-11个氨基酸长度的输入肽(通过预测算法或实验确定)。[0082]本实施例的输出是0-1之间的概率评分,描述肽具有免疫原性的可能性。[0083]预处理[0084]对输入进行预处理如下:[0085]在https://www.genome.jp/aaindex/的aaindex数据库下载20种蛋白来源氨基酸的物理化学性质(日期13.2.2017)。aaindex是表示氨基酸和氨基酸对的各种物理化学和生物化学特性的数字指数的数据库。aaindex现在由三个区段构成:aaindex1代表20个数值的氨基酸指数,aaindex2代表氨基酸突变矩阵,aaindex3代表统计蛋白质接触电位。所有数据均来自已发表文献。将来自aaindex1的数值转化为z值(平均值设为0,标准偏差为1)。使用sklearn pca模块对缩放的物理化学性质进行主成分分析以减小数据的维数。然后将肽中的每个氨基酸翻译成相应肽的3个第一主成分的值,得到长度为(9-11)*3的特征向量。如果肽的长度短于11个氨基酸,则缺失的氨基酸被编码为各自在n-末端(肽起始)的三个零。因此,特征向量总是长度为11*3。[0086]监督分类器:[0087]本示例使用了sklearn python软件包的随机森林分类器模块,尤其是:randomforestclassifier(n_estimators=1000,criterion='entropy',max_depth=none,min_samples_split=3,min_samples_leaf=1,max_features=2,bootstrap=false)。[0088]训练分类器[0089]训练数据集包括长度为9、10和11个氨基酸的肽和比阳性肽多3倍的阴性肽。训练数据集被变换成矩阵。将数据集中的每个肽翻译成如上所述的特征向量。因此,矩阵中的每行对应于数据集中的一个肽的特征向量。该矩阵用于训练上述随机森林模型并保存训练的模型。[0090]训练数据[0091]用于训练监督分类器的训练数据构建如下:[0092]阴性数据(非免疫原性肽):[0093]来自内源管家基因的肽被认为是非免疫原性的,因为它们经常存在于所有健康细胞上。因此,阴性训练数据集是由源自所述管家基因的肽构建的,所述管家基因已经显示出呈递在mhc分子上。mhc呈递预测不是本模块的目标。此外,我们不希望它是模块中的一个因素。因此,阳性肽和阴性肽是mhc结合物。从“https://www.iedb.org/database_export_v3.php’”(versionfeb.19,2020)导入mhc结合肽的iedb数据。还将来自智人的肽过滤为线性序列,产生至少一种阳性测定,长度为9、10或11个氨基酸。得到的肽列表仅包含独特的肽。[0094]此外,从https://www.proteinatlas.org/human-proteome/tissue/housekeeping获得管家基因。对这些进行过滤,以排除以“涉及疾病”或“rna癌症特异性”注释的基因。基于来自前一步骤的基因id从uniprot检索管家基因蛋白质的fasta序列,并由这些序列构建blast数据库。然后针对管家基因的blast数据库查询iedb mhc结合肽。所有完全匹配的肽(由这些管家基因产生的肽)作为阴性数据集保留。[0095]阳性数据集(免疫原性肽):[0096]阳性数据(即免疫原性肽)获自iedb数据库(日期为2020年2月19日):具有相关t细胞测定数据的肽。此外,将肽过滤为线性序列,针对人类进行测试,得到至少一种阳性测定,并且长度为9个氨基酸。得到的肽列表仅包含独特的肽。过滤肽后,通过过滤出与人蛋白质的完全匹配,确保与人蛋白质组没有重叠。这通过过滤出与由人蛋白质组制备的blast数据库完全匹配的肽来实现。[0097]图1示出了如上所述的本实施例的工作流程。训练数据集(1)包括阳性数据集(102)和阴性数据集(103)。通过将mhc呈递的氨基酸序列/能够结合和/或呈递在mhc上的肽序列(104)与管家氨基酸序列(housekeeping amino acid sequences)(105)进行比较,以确定它们之间的匹配(106),来获得阴性数据集,其中阴性数据集包含所述匹配的氨基酸序列。阳性数据集通过比较诱导t细胞应答的氨基酸序列(107)与蛋白质组氨基酸序列(108),以确定它们之间的匹配(109)而获得,其中阳性数据集包括除了所述匹配的氨基酸序列以外的诱导t细胞应答的氨基酸序列。在训练数据集中,阴性和阳性数据集以3:1编译(110)的。[0098]图1还示出了根据本实施例的预处理。首先,获得每个蛋白氨基酸的各自与物理化学性质相关的多个数字索引(111)。其次,对于每个蛋白来源氨基酸,对所述数字索引进行主成分分析(112)。因此,确定每个蛋白来源氨基酸的主要数字成分(113)。这些可以随后用于训练数据集(114)中的肽以及感兴趣的肽(115,116)二者的肽到特征翻译。所得的特征矩阵(117)用于训练(118)随机森林分类器(119)以获得经过训练的分类器(120),其可用于通过由此确定的特征向量(121)预测(122)感兴趣的肽的免疫原性。根据本实施例获得的预测优选地显示为评分(123)。[0099]图2示出了本示例的接收机操作特性(roc)。因此,以假阳性率(被称为免疫原性的非免疫原性表位的比例,即1-特异性)的函数显示真阳性率(被称为免疫原性的实际免疫原性表位的比例,即灵敏度)。精准率-召回率曲线示出了对于不同阈值的精准率和召回率之间的折衷。roc曲线的曲线下面积(auc)表面为0.88。[0100]图4示出了在以1:3的比率进行验证的同时,以不同的阳性与阴性数据比率进行训练的roc结果。通过增大阴性数据与阳性数据的比率,结果得到改善。[0101]图5示出了分别使用1、2、3、5、10或20个主成分进行训练和验证的度量。当使用2个或更多主成分时,性能增加。然而,当使用多于10个主成分时,处理显著增加。[0102]实施例2:基准分类器(benchmark classifier)[0103]本示例涉及scikit学习中可用的监督分类算法的性能。[0104]图3示出了本领域已知的不同分类器的接收机操作特性(roc)和精准率-召回率曲线基准化测试。对于每个分类器的实现都遵循了实施例1的工作流程特征。[0105]测试的分类算法包括:多层感知器(mlp)分类器(图3;1*1),随机森林分类器(图3;1*2),k-最近邻分类器(图3;1*3),高斯朴素贝叶斯分类器(图3;2*1),高斯过程分类器(图3;2*2),支持向量分类器(图3;2*3)。相应的auc值为:0.77;0.88;0.73;0.74;0.82;0.82。[0106]尽管所有分类器对于当前工作流程都是有效的,但是随机森林分类器明显优于其它测试的分类器。[0107]实施例3:基准现有技术[0108]本实施例涉及实施例1的工作流相对于本领域已知的其它免疫原性肽分类器的基准化测试。[0109]在基准研究中,将根据实施例1的工作流与两种其它公众可获得的免疫原性预测工具,特别是iedb免疫原性预测值和ineo-epp进行比较。[0110]iedb免疫原性预测值是基于肽的氨基酸的位置和性质来评价肽的模型。ineo-epp是在hla-i免疫原性肽上训练的随机森林分类器,其中提取了几种特征,如氨基酸物理化学性质和洗脱配体可能性百分等级(el等级(%))评分。ineo-epp使用一系列肽以及hla等位基因作为输入。对于抗原预测,可以使用9种主要hla-i超型(a1,a2,a3,a24,b7,b27,b44,b58,b62)。[0111]对于该基准研究,从免疫表位数据库(iedb)(15.06.2020访问)中检索免疫原性肽。为了避免任何工具的训练数据中存在的表位的基准数据的偏差,从最近的2020的出版物中检索抗原表位数据。进一步过滤数据(线性表位,人,阳性t细胞测定),并从数据库早期版本中已经保存的表位中清除。这将阳性肽的数目从2213个减少到64个独特的表位,全部长度为9个氨基酸。作为阴性数据,使用“chowell,d.等,tcr contact residue hydrophobicity is a hallmark of immunogenic cd8+t cell epitopes.proc.natl.acad.sci.u.s.a.112,e1754–e1762(2015)”中公开的非免疫原性肽。数据集中的非免疫原性肽是配体洗脱的mhc-i呈递的自身肽,其已经被抗原加工和mhc结合。对于9-11个氨基酸长度,对它们进行过滤,产生4254个独特的非表位。[0112]由于基准数据集中的所有肽都是mhc结合物,因此它们都可用作实施例1的工作流和iedb免疫原性预测起的输入。对于ineo-epp,对9个hla-i超型进行预测,仅考虑预测的结合物的评分。[0113]根据三个工具的预测评分,构建了接收器操作者特性(roc)曲线,并在图6中示出。曲线显示了对于降低截止值的预测的真阳性和假阳性率。[0114]在三种工具的比较中,根据实施例1的工作流(41)胜过iedb免疫原性预测器(43)和ineo-epp(42)。实施例1的auc为0.84,其接近内部验证0.88auc。iedb免疫原性预测器的auc为0.57。ineo-epp也具有较低的性能(auc为0.65)。[0115]实施例4:癌症疫苗[0116]为了证明实施例1中概述的框架的免疫原性评分的有效性,将该框架应用于来自关于乳腺癌疫苗发表的研究的数据。[0117]该研究,即“dillon,p.m.等.a pilot study of the immunogenicity of a9-peptide breast cancer vaccine plus poly-iclc in early stage breast cancer.j.immunother.cancer 5,1–10(2017)”评价了12名乳腺癌患者对由9种mhc i类限制性乳腺癌相关肽组成的疫苗的免疫应答。通过直接和刺激的干扰素γelispot测定评价对疫苗的cd8+t细胞应答。这种elispot测定定量评价细胞在应答刺激物时的细胞因子分泌频率,因此是评价所述疫苗免疫原性的合适方法。[0118]在刺激的elispot测定中,在11名可评价患者中的4名中检测到肽特异性cd8+t细胞应答。在对修饰的hla-a2 cea571-579肽(yls-d抗原)的应答中观察到两种elispot应答,在对hla-a3cea27-35(hlf抗原)的应答中观察到两种应答。1名患者对hla-a3mage-a196-104有边界响应。[0119]本实施例的框架用于对疫苗中9种肽中每一种的免疫原性进行评分(表1)。如表1所示,产生阳性elispot测定的两种抗原(yls-d和hlf抗原)具有最高的骨架/免疫原性评分。[0120][0121]表1具有elispot应答和框架评分的疫苗肽[0122]实施例5:病毒免疫原性[0123]衍生自病毒蛋白的表位的免疫原性预测允许在疫苗接种靶标上快速筛选新病毒。[0124]实施例1中概述的免疫原性分类器在已经测试的病毒株的免疫原性肽上训练,并可用于预筛选新病毒株的潜在表位的完整列表。它减少了该特定株所需的体外测定的数量,有效地最小化了相关的时间范围和成本。另外,它有助于优化疫苗中可能在更大部分人群中引起免疫应答的靶肽。[0125]为了显示本算法对病毒肽的适用性,将其用于比较sars-cov-2的免疫原性表位与sars-cov和mers-cov的表位。这三种病毒是密切相关的,但能引起不同数量级的症状。实际上,sars-cov的症状(约10%死亡率)比目前的冠状病毒(估计为1.3%)更严重,而mers-cov甚至比它们二者更致命(20.4%-69.2%死亡率)。[0126]在收集sars-cov-2以及sars-cov和mers-cov的包膜蛋白序列后,提取所有可能的9聚体。使这些通过neoms算法运行,来确定哪些可能呈递在感染细胞的表面。随后,本发明的算法根据其预测的免疫原性对所呈递的肽进行分级。检查了这一减少集的所呈递的肽的所得免疫原性可能性分布,如图7所示,sars-cov-2表现出比sars-cov平均更少的潜在免疫原性肽,而sars-cov又具有比mers-cov更少的可能免疫原性肽。这意味着这三种病毒的免疫原性负载似乎与它们的致病性相关,从而证实了“mcmanus,l.m.&mitchell,r.n.pathobiology of human disease:a dynamic encyclopedia of dis-ease mechanisms.in pathobiology of human disease:a dynamic encyclopedia of disease mechanisms.1036(elsevier,2014)”的假说。图7显示sars-cov-2(红色)、sars-cov(蓝色)和mers-cov(绿色)的包膜衍生的细胞表面呈递的肽的免疫原性概率的直方图和相关密度曲线。[0127]实施例6:本发明的阳性和阴性数据集所基于的肽中的差异氨基酸使用[0128]如上所述,阳性和阴性数据集基于假定引起免疫应答(阳性数据集)或假定不引起免疫应答(阴性数据集)的肽。[0129]差异氨基酸用法分析(daglogo:https://doi.org/10.1371/journal.pone.0242030)评估阳性和阴性集的肽中是否存在保守序列模式,以及两组之间这些模式是否不同。为此,阳性数据组基于与人蛋白质组不匹配的免疫原性肽,而阴性数据组基于与人蛋白质组不匹配的mhc呈递肽。[0130]图8显示肽序列标志,显示免疫原性阳性数据集(上图)中9个氨基酸长的肽相对于非免疫原性阴性数据集(下图)中9个氨基酸长的肽的差异氨基酸使用。氨基酸或者未分组(图8a),或者按照化学性质(图8b,酸性,碱性,酰胺基,羟基,含硫,芳香族或脂肪族),电荷分组(图8c;正电,负电或中性的)或大小(图8d;微小,小,中等,大或巨大)。[0131]从图中可以清楚地看出,在构建和训练模型的两组肽之间存在物理化学差异。此外,还显示某些氨基酸或某些位置的氨基酸性质与免疫原性相关。[0132]实施例7:在新生成的数据集上测试本发明的计算机执行方法的效率,并将其与其他可用的方法进行比较[0133]在健康供体t细胞上进行通过elispot测定的33种肽的实验性免疫原性测试。通过负载肽的自体树突细胞进行两轮刺激来进行测定。所有测试均一式两份或一式三份进行。[0134]使用netmhcpan4.0预测所有肽呈递在至少两个供体hla等位基因上,netmhcpan4.0是使用人工神经网络预测肽与mhc分子结合的工具。该工具用天然洗脱的配体和结合亲和力数据训练。它返回两个性质:肽变成天然配体的可能性或预测的结合亲和力。[0135]阳性elispot结果定义为每5×104个细胞最少25个斑点,与对照相比增加至少2倍。在全部预测呈递的33种肽中,8种肽(23.5%)通过elispot测定测试为阳性。[0136]使用本发明的计算机执行方法测定相同肽的免疫原性。阳性数据组基于与人蛋白质组不匹配的免疫原性肽,而阴性数据组基于与人蛋白质组不匹配的mhc呈递肽。[0137]不同评分系统:[0138]-本发明方法的评分:使用本发明的计算机执行方法,计算每种肽的免疫原性评分。[0139]-iedb免疫原性评分:使用iedb免疫原性预测值,计算每种肽的评分。[0140]-netmhcpan等级评分(hla-a*02:01):使用netmhcpan4.0,计算hla-a*02:01等位基因的每种肽的netmhcpan等级评分。[0141]-netmhcpan等级评分(所有供体hla):使用netmhcpan4.0,计算所有供体hla等位基因的每种肽的netmhcpan等级评分,并考虑最低评分。[0142]图9a显示了使用本发明的计算机执行方法测定的具有阳性或阴性elispot结果(p=0.019)的肽库的免疫原性的预测可能性。从这些结果可以清楚地看出,与具有阴性结果的肽(n=25)相比,使用本发明的方法,具有阳性elispot结果的肽(n=8)具有显著更高的免疫原性评分。因此,本发明的计算机执行方法能够区分免疫原性和非免疫原性肽(p=0.019)。iedb和netmhcpan工具的差异不显著。[0143]图9b显示了多种不同免疫原性预测器的接受者操作特征(roc)曲线的比较,包括本发明的计算机执行方法,iedb免疫原性预测器和netmhcpan4.0,后者基于受试者的特定hla等位基因或所有hla等位基因。roc曲线的曲线下面积值(auc值)为:[0144][0145]结果显示,本发明的计算机执行方法区分免疫原性和非免疫原性肽的准确性优于其它方法如iedb免疫原性预测器和netmhcpan4.0的准确性,后者仅预测结合亲和力而非免疫原性。[0146]在随后的步骤中,将通过本发明的方法获得的肽从最高到最低的免疫原性评分排序,并以升程曲线表示。通过elispot测定的所有阳性肽存在于前60%的肽中,使得可以丢弃40%的所有肽而不损失任何真阳性,如图9c所示,图9c显示了群体中真阳性的百分比(作为累积增益)。累积增益曲线说明了用样本的最小可能部分识别真阳性的百分比。与iedb免疫原性预测器和netmhcpan4.0相比,使用本发明的方法导致特异性从23%显著增加至40%而不损失灵敏度,显著减少候选肿瘤新抗原的数目。[0147]结论是,本发明的计算机执行方法允许对呈递的新表位通过它们的免疫原性潜力更好地进行排序,以显著改善肿瘤新表位预测和减少假阳性。通过本发明的计算机执行方法对具有高预测免疫原性的肿瘤新表位的优先次序增加了选择可作用的肿瘤新抗原的可能性。因此,本发明的计算机执行方法在改善用于个性化免疫治疗的靶选择以及提供免疫原性肽负荷作为患者存活和对治疗的响应的改善的生物标记方面是有力的工具。[0148]实施例8:鉴定仍将受益于免疫检查点抑制剂疗法的具有低肿瘤突变负荷的患者[0149]用于选择接受免疫检查点抑制剂疗法(ici)的患者的常用生物标记是》100(ns=非同义)突变的肿瘤突变负荷(tmb),所述免疫检查点抑制剂疗法是一种旨在重新激活患者免疫系统的癌症疗法形式。已经显示高tmb与ici的临床益处相关。然而,有一些具有低tmb的患者将仍然受益于ici,并且鉴定这些患者是至关重要的。[0150]在接受ici的低tmb黑色素瘤患者群组中研究了对治疗的响应的三种潜在生物标志物。[0151]第一个生物标记是tmb(非同义突变的总数)。基于tmb将该群组分为两个大小相等的组,“高”包含50%的具有最高数目突变的患者,“低”包含50%的具有最低数目突变的患者。[0152]图10示出了kaplan meier曲线,其示出了事件在相应时间间隔的概率。可以看出,tmb(图10左图)不是用于鉴定对治疗有响应的患者的良好生物标记。[0153]随后,该实验观察每个患者呈递的突变的数目。对于每个突变产生的9-11个氨基酸长度的所有可能的肽,通过运行netmhcpan4.1获得呈递的突变的数目。如果鉴定出至少一种等级评分《2的肽,则认为存在突变。根据所呈递的突变的数目将该群组分成两个大小相等的组,“高”包含50%的具有最高呈递的突变数目的患者,“低”包含50%的具有最低呈递的突变数目的患者。[0154]图10的中间图显示,所呈递的突变的数目,类似于tmb,不是用于鉴定显示对治疗的响应的患者的良好生物标记。[0155]最后,实验观察每个患者的免疫原性突变数。通过对每个突变产生的9-11个氨基酸长度的所有可能肽运行netmhcpan4.1,获得免疫原性突变的数目。对于所有被认为呈递的肽(等级评分《2),使用本发明的计算机执行方法计算免疫原性评分。如果鉴定出至少一种免疫原性评分》0.75的肽,则认为突变是免疫原性的。根据免疫原性突变的数量将该群组分为两个大小相等的组,“高”包含50%的具有最高数量免疫原性突变的患者,“低”包含50%的具有最低数量免疫原性突变的患者。[0156]图10的右图显示免疫原性突变的数目是比tmb或呈递的突变的数目更好的用于鉴定对治疗显示应答的患者的生物标记。[0157]这表明,驱动对治疗的响应的不仅是肿瘤中突变的绝对数目(特别是在具有低数目突变的患者中尤其如此),还有这些突变的免疫原性潜力。因此,本发明的计算机执行方法,基于突变的免疫原性潜力,因此可用于鉴定仍将受益于免疫检查点抑制剂疗法的具有低肿瘤突变负荷的患者。[0158]本发明决不限于实施例中所述和/或附图中所示的实施方式。相反,根据本发明的方法可以以许多不同的方式实现而不脱离本发明的范围。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
用于确定肽免疫原性的方法、系统和计算机程序产品与流程 专利技术说明
作者:admin
2023-07-05 08:04:45
919