发布信息

基于转录组测序数据的非编码circRNA生物信息分析方法、装置、终端及介质与流程

作者:admin      2022-11-03 09:16:14     547



医药医疗技术的改进;医疗器械制造及应用技术基于转录组测序数据的非编码circrna生物信息分析方法、装置、终端及介质技术领域1.本技术涉及转录组测序技术领域,其鉴定非编码rna,尤其是一种基于非编码circrna转录组测序数据的生物信息分析流程,由外显子反向剪接产生的共价闭合环状rna(circrna)与来自同一基因位点的同源线性rna共表达。背景技术:2.环状rna(circrna)是一类特殊的非编码rna分子,也是rna领域最新的研究热点。与传统的线性rna(linear rna,含5’和3’末端)不同,circrna分子呈封闭环状结构,不受rna外切酶影响,表达更稳定,不易降解。除了反向剪接连接(bsj)位点之外,大多数circrna在序列中与其同源线性rna完全重叠,因此对circrna的计算检测、实验验证和功能评估提出了挑战。3.各种类型的共价闭合环状rna转录本由不同的机制产生。其中,两个主要的环状rna亚组是由真核rna前体以剪接体依赖性方式加工而成的,其中由来自外显子反向剪接的环状rna(circrna)和来自切除的内含子套索的环状内含子rna(cirna)。尽管早在1990年代就发现了这些剪接体依赖性环状rna,但在随后的几十年中只报道了少数。主要是由于它们的环状结构没有3'多腺苷酸化的尾巴,大多数环状rna在早期的转录组学分析中通过多腺苷酸化[poly(a)+]rna的深度测序(称为mrna-seq)被排除在外。而后来有研究通过检查没有多腺苷酸化尾巴的转录组测序rna能够重新发现其存在。通过了解来自广泛表达的反向剪接外显子的circrna的生物发生和潜在生物学意义已成为该领域的焦点。[0004]不同类型的rna-seq数据集已被分别用于分析非多腺苷酸化rna[poly(a)-]、非多腺苷酸化rna与多腺苷酸化rna[核糖-]或rnase r处理后的非多腺苷酸化环状rna[rnaser]。尽管所有三种类型的数据集都适用于识别circrna,但由于rna富集策略的不同,可以在这些rna-seq数据集中检测到不同的rna组。一方面,大多数线性多聚腺苷酸化rna存在于poly(a)+rna-seq数据集中;而在poly(a)-rna-seq数据集中发现circrna与非多聚腺苷酸化rna的其他亚组,例如sno-lncrna和cirna一起存在。另一方面,非多聚腺苷酸化(circ)rna在核糖rna-seq分析中与多聚腺苷酸化rna共同纯化,或者在rnaser rna-seq数据集中主要通过rnase r消化保留。值得注意的是,尽管rnase r通常用于富集环状rna,但发现一些circrna对rnase r处理异常敏感。通过特定的计算方法来识别映射到反向剪接(bsj)位点的片段,已在不同细胞系/组织和跨物种中通过计算检测到数十万个circrna。随后的研究表明,circrna在生物发生、结构和降解方面具有独特的特征。重要的是,一系列证据表明circrna在细胞增殖、大脑功能和先天免疫反应中发挥着重要作用。[0005]几乎所有这些存在的生物信息计算法,例如find_circ、ciri和circexplorer(v1),都被设置为识别与bsj位点特异性对齐的深度测序片段,以便在早期进行circrna注释。为了识别circrna中复杂的选择性反向剪接调控和独特的内部剪接调控,目前有更新或开发了的ciri-as、circexplorer2和circsplice等其他算法以检查替代环化,即多个circrna从一个基因产生的现象基因座包括内部可变剪接事件。而后又有,为了解决同时比较环状和同源线性rna表达的困难,构建了一些有意义的算法,主要是ircexplorer3-clear、ciriquant和dcc,通过标准化到单个同源的表达来量化circrna的相对表达线性rna。目前,仅用于circrna鉴定的相关软件、算法就有十余款,而不同软件之间的鉴定结果差异较大,并且存在很高的假阳性。在众多分析软件中,如何选择一套准确的、可靠的,用于circrna完整分析的软件,是本技术领域内一个亟待解决的问题。技术实现要素:[0006]鉴于以上所述现有技术的缺点,本技术的目的在于提供基于转录组测序数据的非编码circrna生物信息分析方法、装置、终端及介质,用于解决现有技术中如何如何选择一套准确的、可靠的,用于circrna完整分析方法的技术问题。[0007]为实现上述目的及其他相关目的,本技术的第一方面提供一种基于转录组测序数据的非编码circrna生物信息分析方法,包括:对circrna测序原始数据进行质控以得到circrna测序质量数据;构建参考基因组索引,并基于比对算法将所述circrna测序质量数据与所述参考基因组索引比对以得到比对结果;基于circrna鉴定算法对所述比对结果进行鉴定以得到circrna表达量矩阵;基于差异分析算法对所述circrna表达量矩阵进行circrna表达差异分析以得到差异表达的circrna表达模式;对所述差异表达的circrna表达模式进行聚类分析以得到差异circrna序列;基于所述差异circrna序列并根据circrna的位置信息获得宿主基因,并对所述宿主基因进行基因功能富集分析得到对应的富集分析结果;从circbase数据库中提取已知物种的circrna信息,以验证所述富集分析结果的有效性;基于mirbase数据库提取已知物种的circrna信息;若本次分析的物种与所述mirbase数据库提供的数据吻合,则结合所述差异circrna序列进行靶向预测分析。[0008]于本技术的第一方面的一些实施例中,所述circrna测序质量数据的获取过程包括:调用测序数据质控工具对所述circrna测序原始数据的碱基含量和gc含量进行统计与过滤;基于开源软件对质控前的circrna测序原始数据及质控后的circrna测序质量数据的碱基含量、碱基错误率进行统计及图示化。[0009]于本技术的第一方面的一些实施例中,所述基于circrna鉴定算法对所述比对结果进行鉴定是指将比对得到的bam文件或sam文件输入circrna鉴定算法进行circrna鉴定,鉴定方式包括如下任一种:将由bwa比对算法得到的sam文件输入ciri2鉴定算法、ciriquant鉴定算法或者find_circ鉴定算法进行鉴定;将由star比对算法得到的sam文件输入circexplorer2鉴定算法、circ_finder鉴定算法或dcc鉴定算法进行鉴定。[0010]于本技术的第一方面的一些实施例中,所述使用差异分析算法对所述circrna表达量矩阵进行circrna表达差异分析的方式包括:根据生物学重复情况,分别使用适用于生物学重复及适用于无生物学重复的差异分析算法进行circrna表达差异分析得到差异倍数;对所述差异倍数进行统计学检验得到p-value值以判断差异结果的显著水平;将差异分析结果进行图示化展示。[0011]于本技术的第一方面的一些实施例中,使用edger差异分析算法或deseq2差异分析算法等对有生物学重复的生物学实验进行表达差异分析,以及使用degseq差异分析算法对无生物学重复的生物学实验进行表达差异分析,最终获得差异表达的circrna表达模式。[0012]于本技术的第一方面的一些实施例中,所述将差异结果进行图示化展示的方式包括根据差异分析结果绘制对应的差异火山图或差异聚类图并进行展示。[0013]于本技术的第一方面的一些实施例中,所述对所述宿主基因进行基因功能富集分析包括:对所述宿主基因进行go和kegg富集分析,且在分析前调取所有基因组的go和kegg数据库的注释结果;针对分析结果绘制基因go和kegg的柱状图。[0014]为实现上述目的及其他相关目的,本技术的第二方面提供一种基于转录组测序数据的非编码circrna生物信息分析装置,包括:质控模块,用于对circrna测序原始数据进行质控以得到circrna测序质量数据;比对模块,用于构建参考基因组索引,并基于比对算法将所述circrna测序质量数据与所述参考基因组索引比对以得到比对结果;鉴定模块,用于基于circrna鉴定算法对所述比对结果进行鉴定以得到circrna表达量矩阵;差异分析模块,用于基于差异分析算法对所述circrna表达量矩阵进行circrna表达差异分析以得到差异表达的circrna表达模式;聚类模块,用于对所述差异表达的circrna表达模式进行聚类分析以得到差异circrna序列;富集分析模块,用于基于所述差异circrna序列并根据circrna的位置信息获得宿主基因,并对所述宿主基因进行基因功能富集分析得到对应的富集分析结果;验证模块,用于从circbase数据库中提取已知物种的circrna信息,以验证所述富集分析结果的有效性;靶向预测模块,用于基于mirbase数据库提取已知物种的circrna信息;若本次分析的物种与所述mirbase数据库提供的数据吻合,则结合所述差异circrna序列进行靶向预测分析。[0015]为实现上述目的及其他相关目的,本技术的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于转录组测序数据的非编码circrna生物信息分析方法。[0016]为实现上述目的及其他相关目的,本技术的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述基于转录组测序数据的非编码circrna生物信息分析方法。[0017]如上所述,本技术的基于转录组测序数据的非编码circrna生物信息分析方法、装置、终端及介质,具有以下有益效果:本发明通过结合多款circrna鉴定软件,提供多种方法选择的尝试,避免了单纯使用一款circrna鉴定软件带来的的假阳性,使得具有多款软件鉴定支持的结果更为可靠;此外为个别实验中可能存在鉴定circrna过少,提供了更多选择。除此之外,本发明还增加其他有意义性的个性化分析,具体包括差异表达分析、表达模式聚类以及host基因功能富集分析,使得针对circrna分析的流程更加全面、完善。附图说明[0018]图1显示为本技术一实施例中的一种基于转录组测序数据的非编码circrna生物信息分析方法的流程示意图。[0019]图2显示为本技术一实施例中的碱基错误率分布图。[0020]图3显示为本技术一实施例中的所有样本主成分分析图。[0021]图4显示为本技术一实施例中的一个差异组cirncrna差异分析火三图。[0022]图5显示为本技术一实施例中的基于差异circrna表达量模式聚类分布图。[0023]图6显示为本技术一实施例中的其中一个样本的一个circrna与mirna靶向关系圈图。[0024]图7显示为本技术一实施例中的获得host基因进行kegg富集分析柱形图。[0025]图8显示为本技术一实施例中nextflow最终完成整个分析流程的分析耗时及使用内存情况报告截图。[0026]图9显示为本技术一实施例中非编码circrna生物信息分析终端的结构示意图。[0027]图10显示为本技术一实施例中的一种基于转录组测序数据的非编码circrna生物信息分析装置结构示意图。具体实施方式[0028]以下通过特定的具体实例说明本技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本技术的其他优点与功效。本技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。[0029]如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“a、b或c”或者“a、b和/或c”意味着“以下任一个:a;b;c;a和b;a和c;b和c;a、b和c”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。[0030]在本发明中,结合背景技术中不同算法的优势,结合nf-core生物信息学框架,搭建了集合以上不同算法的集成,可以用于处理不同类型的项目,可用于包含动物,植物和人相关的生物学研究,及该工具包在一系列rna-seq数据集上可计算注释和量化circrna。伴随逐渐成熟稳定的测序方式,circrna的生物信息学分析方法也得到了长足发展,区别于常规mrna分析,其首先需要鉴定出来,然后才能进行定量。[0031]本发明从而提供一种更为准确、可靠的circrna整体分析流程。为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。[0032]如图1所示,展示了本发明实施例中的一种基于转录组测序数据的非编码circrna生物信息分析方法的流程示意图;所述非编码circrna生物信息分析方法主要包括如下各步骤:[0033]步骤s11:对circrna测序原始数据进行质控以得到circrna测序质量数据。[0034]于本实施例的一些示例中,所述circrna测序质量数据的获取过程包括如下:[0035]步骤s111:调用测序数据质控工具对所述circrna测序原始数据的碱基含量和gc含量进行统计与过滤。[0036]在一些可选的示例中,所述测序数据质控工具包括但不限于如fastp质控工具或fastqc质控工具等。fastp质控工具是为多线程并行处理而设计的;其从fastq文件中读取的内容将以n(1000)的大小打包;每个包将被池中的一个线程消耗,每个线程都有一个单独的环境来存储它处理的读取的统计值;在处理完所有操作后,这些值将被合并,报告器将生成html和json格式的报告;fastp报告预过滤和后过滤数据的统计值,以便于比较过滤完成后数据质量的变化;fastp质控工具支持se(single-end)和pe(paired-end)数据。fastqc是一款依赖java环境的高质量序列数据的质量控制工具,目的是为高通量测序的原始序列数据提供一种简单的质量控制检查方法,它提供了一组模块化的分析,在后续分析前快速了解数据是否存在任何问题。[0037]进一步地,所述gc含量是指在dna的4种碱基中鸟嘌呤和胞嘧啶所占的比率;gc含量愈高,dna的密度也愈高,同时热及碱不易使之变性,因此利用这一特性便可进行dna的分离或测定。碱基(base)是指嘌呤和嘧啶的衍生物,是核酸、核苷、核苷酸的成分,dna和rna的主要碱基有所不同,胸腺嘧啶是dna的主要嘧啶碱,在rna中极少见;相反,尿嘧啶是rna的主要嘧啶碱,在dna中则是稀有的。[0038]于本实施例中,可根据以下指标对circrna测序原始数据进行质控:[0039](1)将碱基质量值<20的碱基过滤掉;[0040](2)将读长(reads)长度<30的reads过滤掉;[0041](3)将滑动窗口不为4的窗口过滤掉;[0042](4)将低于平均质量阈值20的滑动窗口过滤掉。[0043]步骤s112:基于开源软件fastp并可结合预编写的r脚本(通常以代码的形式出现),对质控前的circrna测序原始数据及质控后的circrna测序质量数据的碱基含量、碱基错误率进行统计及图示化。[0044]步骤s12:构建参考基因组索引,并基于比对算法将所述circrna测序质量数据与所述参考基因组索引比对以得到比对结果。[0045]具体而言,根据预设要求选择参考基因组并基于比对算法构建参考基因组索引;在构建基因组索引后,使用bwa比对算法、hisat2比对算法、bowtie2比对算法或star比对算法中的至少一种算法将质控后的circrna测序质量数据与所述参考基因组索引进行比对后得到对应的bam文件或sam文件。应理解的是,bam是基因数据分析中较为通用的一种比对数据存储格式,既适合于短read也适合长read,最长可支持128mbp的超大read;reads(读长)指的是测序仪单次测序所得到的碱基序列。sam也是序列不对文件的格式,sam文件通常由两部分组成,头部区和主体区,都以tab分列。[0046]其中,bwa算法是一种微生物重测序分析算法;微生物重测序是基于高通量测序数据与近缘参考基因组进行比对进行变异检测的方法,通过重测序可以获得目标基因组对于参考基因组的snp、indel、sv等一系列变异信息,从中尝试对基因组之间的性状差异进行解析或作为标记进行大规模的进化分析。hisat2算法是一种高效的rna-seq实验比对工具,其使用了两类索引去比对,一类是全基因范围的fm索引来锚定每一个比对,另一类是大量的局部索引对这些比对做快速的扩展。bowtie2算法是将测序reads与长参考序列比对的工具,适用于将长度大约为50到100或1000字符的reads与相对较长的基因组进行比对,其使用fm索引对基因组进行索引,以此来保持其占用较小内存。star算法用于将测序的read对齐到参考基因租的比对软件,常用于rnaseq。[0047]步骤s13:基于circrna鉴定算法对所述比对结果进行鉴定以得到circrna表达量矩阵。其中,所述circrna表达量矩阵是由某种circrna鉴定算法对每一个样本进行鉴定后合并每一个样本的鉴定结果得到的。[0048]所述circrna鉴定算法包括但不限于如ciri2鉴定算法、ciriquant鉴定算法、circexplorer2鉴定算法、find_circ2鉴定算法、circ_finder鉴定算法、dcc鉴定算法等。[0049]所述find_circ2鉴定算法的鉴定原理及过程如下:[0050]首先,在和参考基因组比对后,剔除完全比对上的reads,保留未完全比对上的reads。[0051]其次,从junction reads的5’端和3’端取一部分序列,分别叫做5’anchor和3’anchor;若这两个序列比对的位置是相反的,则这条reads就是一个可能的junction read,然后将anchor read一直延伸,直至连接处为止。应理解的是,在dna转录成mrna的过程中,内含子被切掉,外显子会在剪切位点连接到一起,对于这些跨过剪切位点的reads,称为junction reads。[0052]最后,若到连接处为止,序列都能完全匹配,则再看连接点处的剪切模式是否符合ag-gt的剪切模式;若满足以上条件,就可认定这是一个circrna。应理解的是,前体rna中参与内含子剪接的两个特殊位点,即在内含子和外显子交界处有两个相当短的保守序列:5'端为gt,3'端为ag,称为gt-ag规律。gt-ag规则适用于(或是全部)真核生物基因的剪接位点。[0053]所述ciri2鉴定算法及ciriquant鉴定算法的鉴定原理及过程如下:[0054]首先,circrna由3个外显子环化形成,由于测序读长的限制,junction read只覆盖了起始外显子和终止外显子的部分序列,这两部分reads的比对位置在基因组上的位置是相反的。[0055]其次,circrna由3个外显子环化形成,由于连接点处的一个外显子其长度太短,junction read除了覆盖了起始外显子和终止外显子的两部分序列外,还覆盖了中间的一个外显子的部分序列。[0056]最后,circrna由1个外显子环化形成,junction read除了覆盖了整个外显子外,还重复又读了一部分序列;[0057]为了进一步降低假阳性率,ciri通过以下3条规则对结果进行过滤:[0058]1)双端测序的两条reads必须符合pem信号;[0059]2)检测到的circrna的连接处符合ag-gt剪切信号;[0060]3)根据比对的质量和数量进行过滤。[0061]所述circexplorer2鉴定算法的鉴定原理及过程如下:首先,双末端比对到外显子边界;其次,候选junction的再比对(即将之前的fusion进行分割再比对);最后,通过识别junction reads确定候选circrna,检测候选circrna的连接处是否符合ag-gt剪切信号,符合即认定为circrna。[0062]于本实施例中,所述基于circrna鉴定算法对所述比对结果进行鉴定是指将比对得到的bam文件或sam文件输入circrna鉴定算法进行circrna鉴定,鉴定方式包括但不限于如下任一种:将由bwa比对算法得到的sam文件输入ciri2鉴定算法、ciriquant鉴定算法或者find_circ鉴定算法进行鉴定;将由star比对算法得到的sam文件输入circexplorer2鉴定算法进行鉴定;将由star比对算法得到的sam文件输入circ_finder鉴定算法进行鉴定;将由star比对算法得到的sam文件输入dcc鉴定算法进行鉴定。[0063]步骤s14:基于差异分析算法对所述circrna表达量矩阵进行circrna表达差异分析以得到差异表达的circrna表达模式。[0064]于本实施例中,所述使用差异分析算法对所述circrna表达量矩阵进行circrna表达差异分析的方式包括:根据生物学重复情况,分别使用适用于生物学重复及适用于无生物学重复的差异分析算法进行circrna表达差异分析得到差异倍数;对所述差异倍数进行统计学检验得到p-value值以判断差异结果的显著水平;将差异分析结果进行图示化展示。[0065]应理解的是,所述差异分析是指分析两组数据是否有差异(例如北方人的身高显著高于南方人的身高,这里涉及到的“显著”需要用统计学的方式来表达),通常做法是对两组数据的差异倍数进行统计学检验,得到的p-value值若小于预设阈值,则为显著差异。举例来说,预设阈值可设为0.05,若p-value值小于0.05则判断为显著差异。[0066]进一步地,可选择性使用edger差异分析算法、deseq2差异分析算法、noiseq差异分析算法、limma差异分析算法及degseq差异分析算法进行circrna差异分析。较为优选的是,使用edger差异分析算法或deseq2差异分析算法等对有生物学重复的生物学实验进行表达差异分析,以及使用degseq差异分析算法对无生物学重复的生物学实验进行表达差异分析,最终获得差异表达的circrna表达模式。[0067]在一些示例中,所述将差异结果进行图示化展示的方式包括根据差异分析结果绘制对应的差异火山图或差异聚类图并进行展示。差异火山图可反映总体基因的表达情况,通常横坐标代表log2(fold change),纵坐标代表-log10(p值),每个点代表一个基因,不同的颜色用以区分基因是否差异表达(例如橙色的点代表差异表达基因,蓝色的点代表没有差异表达的基因)。差异聚类图用于衡量样本或基因之间表达的相似性,通常横坐标代表样本聚类,纵坐标代表基因聚类。一列代表一个样本,聚类基于样本间基因表达的相似性,样本间基因表达越接近,靠的就越近,以此类推;一行代表一个基因,聚类基于基因在样本中表达的相似性,基因在样本中比到达越接近,靠的就越近,以此类推。聚类图中的色阶代表基因表达丰度,例如越红代表上调得越明显,越绿代表下调得越明显。[0068]步骤s15:对所述差异表达的circrna表达模式进行聚类分析以得到差异circrna序列。[0069]具体而言,聚类是指通过表达模式将基因按照其在不同样本中的表达变化规律进行归类,进而推测其与特定功能的可能联系;可使用表达模式聚类热图及基因表达模式折线图来表示circrna表达模式。所述聚类热图是以各样本中基因的表达量绘制热图,在图中每列表示一个样本,每行表示一个基因,图中的颜色深浅表示基因在该样本中的表达量。基因表达模式聚类折线图的绘制过程是首先根据基因在不同样本中的表达量及其氛围多个子集群(sub-cluster),之后每个子集群分别进行绘图,图中x轴表示不同的样本,y轴为各个基因表达量的对数值,图中通常使用灰色线条表示一个子集群中的基因在不同样本中的相对表达量。[0070]步骤s16:基于所述差异circrna序列并根据circrna的位置信息获得宿主基因,并对所述宿主基因进行基因功能富集分析得到对应的富集分析结果。[0071]具体而言,对所述宿主基因进行go和kegg富集分析,且在分析前调取所有基因组的go和kegg数据库的注释结果(可分别从官网上下载得到),针对分析结果绘制基因go和kegg的柱状图。[0072]所述基因功能富集分析是高通量组学数据分析的一种手段,对于揭示生物医学分子机制具有重要意义,功能富集分析可以将成百上千个基因、蛋白或其它分子分到不同的通路中,以减少分析的复杂度。[0073]于本实施例中,所述基因功能富集分析包括但不限于go功能富集分析、kegg功能富集分析及gsea功能富集分析中的任一种或多种。其中,go(gene ontology)意为基因本体论;go是基因本体论联合会建立的一个数据库,旨在建立一个适用于各种物种的、对基因和蛋白功能进行限定和描述的,并能随着研究不断深入和更新的语义词汇标准;go注释分为三大类,分别是:分子生物学功能(molecular function,mf)、生物学过程(biological process,bp)和细胞学组分(cellular components,cc),通过这三个功能大类对一个基因的功能进行多方面的限定和描述。kegg(kyoto encyclopedia of genes and genomes)意为京都基因与基因组百科全书;kegg是一个整合了基因组、化学和系统功能信息的综合数据库,其综合功能的kegg pathway通路数据库用于专门存储不同物种中基因通路的信息。gesa(gene set enrichment analysis)是一个针对全基因组表达谱数据进行分析的工具,能够在大量基因或蛋白质中识别与疾病表型有关的过表达基因或蛋白质,从而判断某项干预与某一表型的关系。[0074]步骤s17:从circbase数据库中提取已知物种的circrna信息,以验证所述富集分析结果的有效性。[0075]具体而言,结合已知的circbase数据库,针对模式物种及官网提供的物种已知的鉴定circrna结果,结合富集分析结果,对circrna进行比对,并提供与本次富集分析结果相一致的circrna信息。[0076]步骤s18:基于mirbase数据库提取已知物种的circrna信息;若本次分析的物种与所述mirbase数据库提供的数据吻合,则结合所述差异circrna序列进行靶向预测分析。[0077]具体而言,结合mirbase数据库,如果本次分析的物种与mirbase数据库提供的数据吻合,则结合差异circrna序列进行靶向预测分析,使用的软件是targetscan和miranda;其中分析均使用默认参数。targetscan基于序列互补原则,找到比对到靶3’utr的保守性8mer、7mer或6mer位点(seed match序列),进一步根据热力学稳定性筛选得到mirna的靶。[0078]为便于本领域技术人员更好地理解本发明实施例的实施过程,下文将结合一实例进行辅助说明,所举实例只用于解释本发明,并非用于限定本发明的范围。该实例应用于一个人转录组项目中,该项目对样品进行了circrna测序,测序样品共计12个,实验设计无生物学重复(也可按照生物学重复计算,提供不同的分组方案即可)。后续的主要分析过程如下:[0079]1)原始circrna测序数据经fastp软件质控,得到clean reads,根据自研的r脚本对原始数据和质控后数据进行质量统计与绘图,绘图结果如图2所示:横坐标表示读长位置-reads position(bp),纵坐标表示错误率-error rate(%)。[0080]2)选择circexplorer2作为circrna鉴定软件,其使用star创建基因组索引,创建成功后,将1)中的获得的质控数据与基因组进行比对,同时获得六个样本各自比对率结果及其鉴定结果,同时获得表达量矩阵。[0081]3)按照样本分组,对处理组和对照组circrna使用degseq鉴定差异表达的circrna,同时程序中加了计算主成分分析(pca);其结果使用火山图展示,如图3所示。[0082]4)对差异表达的circrna在不同样本中的表达模式进行聚类分析,并绘制模式聚类图,如图4所示。[0083]5)提取所有组别差异表达的circrna的host基因,并对host基因进行go功能富集分析和kegg富集分析,如图5所示。[0084]6)根据鉴定到的circrna的位置信息,下载来自circbase数据库的已知人的circrna,并对比获得该项目已经鉴定到的circrna和已知circrna的关系。[0085]7)集合mirbase数据库的已知mirna来靶向鉴定到的circrna,本次分析针对单个样本鉴定到的circrna进行分析,获得每个circrna与mirna的靶向关系,靶向关系图如图6所示,表示的是其中一个样本的一个circrna与mirna靶向关系圈图。[0086]通过上述分析,我们共鉴定了35076条circrna,其中1432条差异表达的circrna,对应1174条host基因。通过对host基因的go和kegg富集分析,进一步得到host基因的功能,确认circrna的潜在作用。host基因进行kegg富集分析柱形图如图7所示;nextflow最终完成整个分析流程的分析耗时及使用内存情况报告截图如图8所示。[0087]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的内容和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。[0088]本发明实施例提供的基于转录组测序数据的非编码circrna生物信息分析方法可以采用终端侧或服务器侧实施,就基于转录组测序数据的非编码circrna生物信息分析终端的硬件结构而言,请参阅图9,为本发明实施例提供的基于转录组测序数据的非编码circrna生物信息分析终端900的一个可选的硬件结构示意图,该终端900可以是移动电话、计算机设备、平板设备、个人数字处理设备、工厂后台处理设备等。基于转录组测序数据的非编码circrna生物信息分析终端900包括:至少一个处理器901、存储器902、至少一个网络接口904和用户接口906。装置中的各个组件通过总线系统905耦合在一起。可以理解的是,总线系统905用于实现这些组件之间的连接通信。总线系统905除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图9中将各种总线都标为总线系统。[0089]其中,用户接口906可以包括显示器、键盘、鼠标、轨迹球、点击枪、按键、按钮、触感板或者触摸屏等。[0090]可以理解,存储器902可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,staticrandom access memory)、同步静态随机存取存储器(ssram,synchronous static randomaccess memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。[0091]本发明实施例中的存储器902用于存储各种类别的数据以支持基于转录组测序数据的非编码circrna生物信息分析终端900的操作。这些数据的示例包括:用于在基于转录组测序数据的非编码circrna生物信息分析终端900上操作的任何可执行程序,如操作系统9021和应用程序9022;操作系统9021包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序9022可以包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例提供的基于转录组测序数据的非编码circrna生物信息分析方法可以包含在应用程序9022中。[0092]上述本发明实施例揭示的方法可以应用于处理器901中,或者由处理器901实现。处理器901可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器901可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器901可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的配件优化方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述方法的步骤。[0093]在示例性实施例中,基于转录组测序数据的非编码circrna生物信息分析终端400可以被一个或多个应用专用集成电路(asic,application specific integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logicdevice),用于执行前述方法。[0094]如图10所示,展示了本发明实施例中的一种基于转录组测序数据的非编码circrna生物信息分析装置结构示意图。本实施例中的非编码circrna生物信息分析装置1000包括:质控模块1001、比对模块1002、鉴定模块1003、差异分析模块1004、聚类模块1005、富集分析模块1006、验证模块1007、靶向预测模块1008。[0095]所述质控模块1001用于对circrna测序原始数据进行质控以得到circrna测序质量数据。比对模块1002用于构建参考基因组索引,并基于比对算法将所述circrna测序质量数据与所述参考基因组索引比对以得到比对结果。鉴定模块1003用于基于circrna鉴定算法对所述比对结果进行鉴定以得到circrna表达量矩阵。差异分析模块1004用于基于差异分析算法对所述circrna表达量矩阵进行circrna表达差异分析以得到差异表达的circrna表达模式。聚类模块1005用于对所述差异表达的circrna表达模式进行聚类分析以得到差异circrna序列。富集分析模块1006用于基于所述差异circrna序列并根据circrna的位置信息获得宿主基因,并对所述宿主基因进行基因功能富集分析得到对应的富集分析结果。验证模块1007用于从circbase数据库中提取已知物种的circrna信息,以验证所述富集分析结果的有效性。靶向预测模块1008用于基于mirbase数据库提取已知物种的circrna信息;若本次分析的物种与所述mirbase数据库提供的数据吻合,则结合所述差异circrna序列进行靶向预测分析。[0096]需要说明的是:上述实施例提供的非编码circrna生物信息分析装置1000在进行非编码circrna生物信息分析时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的非编码circrna生物信息分析装置5与非编码circrna生物信息分析方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。[0097]本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。[0098]于本技术提供的实施例中,所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、eeprom、cd-rom或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、u盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外,任何连接都可以适当地称为计算机可读介质。例如,如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(dsl)或者诸如红外线、无线电和微波之类的无线技术,从网站、服务器或其它远程源发送的,则所述同轴电缆、光纤光缆、双绞线、dsl或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而,应当理解的是,计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质,而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(cd)、激光光盘、光盘、数字多功能光盘(dvd)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘则用激光来光学地复制数据。[0099]综上所述,本技术提供基于转录组测序数据的非编码circrna生物信息分析方法、装置、终端及介质,本发明通过结合多款circrna鉴定软件,提供多种方法选择的尝试,避免了单纯使用一款circrna鉴定软件带来的的假阳性,使得具有多款软件鉴定支持的结果更为可靠;此外为个别实验中可能存在鉴定circrna过少,提供了更多选择。除此之外,本发明还增加其他有意义性的个性化分析,具体包括差异表达分析、表达模式聚类以及host基因功能富集分析,使得针对circrna分析的流程更加全面、完善。所以,本技术有效克服了现有技术中的种种缺点而具高度产业利用价值。[0100]上述实施例仅例示性说明本技术的原理及其功效,而非用于限制本技术。任何熟悉此技术的人士皆可在不违背本技术的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本技术所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本技术的权利要求所涵盖。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部