生物信息学数据库网络发布的通用动态框架

一、A Generic and Dynamic Framework for Web Publishing of Bioinformatics Databases（论文文献综述）

李方东^[1]（2021）在《茶树转录组组装评估与多组学生物信息平台开发》文中进行了进一步梳理茶树是我国最重要的传统经济作物,其叶制成的茶叶是世界上最受欢迎的仅次于水的第一大非酒精饮品,具有巨大的经济、健康和文化价值。近年来,随着高通量转录组测序技术的广泛应用,有力推进了茶树生物学基础研究进程。然而目前大部分组装软件及其分析流程均依据于模式植物的转录组数据设计的,其在非模式植物如茶上的应用存在诸多问题,因此急需开发适宜茶树转录组组装和分析的方法与策略。同时,随着茶树基因组和代谢组数据的增加,亟待构建能够整合大量不同类型组学信息与分析方法的综合数据分析平台。为此,本研究基于茶树基因组学、转录组学、代谢组学等数据资源,借助通用计算机系统、开放的数据库平台架构、高效的数据库存储系统,并结合智能的搜索引擎、友好多样的数据展示方式和简便易用的生物信息分析工具,优化茶树转录组数据组装策略,构建茶树基因组数据库分析平台,以促进茶树生物学大数据的共享和各类组学的挖掘研究。本研究的主要研究结果如下:（1）利用的茶树八个代表性组织的高深度二代转录组测序数据,通过随机抽取数据法进行全组织混合组装模拟,抽取的测序数据量为32 Gb,然后使用五种主流的转录组从头组装软件（SOAPdenovo、Trans-ABy SS、Trinity、Bridger和Bin Packer）分别进行茶树转录本重构组装,利用植物直系同源单拷贝基因库比对、公共数据库注释和转录本表达模式的分析等统计学方法进行评价。结果发现在使用32 Gb模拟测序数据量进行转录组组装时,Bin Packer组装软件和Bridger组装软件的各项评估指标均优于其他三个软件。进一步比较得出,Bridger软件在转录本N50长度、平均序列长度和序列完整性指标上略优于Bin Packer软件,同时组装的完整性也和茶树三代转录组测序相当,说明这两个软件尤其是Bridger可能更加适合茶树转录本的从头组装。（2）通过随机抽取序列进行不同数据量全组织混合和单组织组装,模拟茶树4-84 Gb测序量下使用上一步已评价较适合的Bridger组装软件分别进行组装,然后评估数据量对茶树转录组组装的影响。通过对组装结果基本指标进行统计和BUSCO评价分析得出,当茶树全组织混合组装的数据量为48 Gb时各项指标均较优,说明48Gb是茶树全（多）组织组装的优先选择的测序量。进一步进行单组织和多个组织不同数据量的组转评估得出:1)随着单组织测序数据量的增加,组装出转录本的数量也在增加,同时BUSCO评估的缺失率也在降低。当数据量达到6 Gb时,8个组织中6个组织的组装BUSCO缺失低于20%;继续增加至数据量至9 Gb时,8个组织组装的BUSCO缺失均低于20%,甚至嫩叶样本的完整性超过90%。2)对多个组织进行不同数据量组装时,其变化规律和单组织组装相似;同时两个以上组织的混合组装得到的转录本数量和完整性也优于单个组织的组装。这些结果说明,单组织组装数据量在6至9 Gb时可以获得较好的结果,性价比较高,但继续增加单组织组装的数据量或者进行多个组织混合组装均可提高转录本的数量和组装完整性。（3）本研究通过广泛收集和自主测序,整理并获得了茶树基因组图谱、24种山茶属植物共计97个转录组、代谢组、甲基化组、种质资源及大量生物和非生物胁迫基因表达谱数据,利用基因表达和代谢物分布模式的相关性等建立起各数据之间的联系;通过Mysql数据库存储、网页服务器工具和基于JAVA语言等各类计算扩展包,构建了以茶树基因图谱为框架的茶树基因组数据库平台。平台通过前端HTML5网页设计数据库整体界面,集成高性能的搜索引擎和友好的可视化工具,为用户提供基本的检索和结果的展示,以及批量下载各类丰富的数据信息。通过集成各类生物信息分析工具（如BLAST,GO和KEGG功能聚类,相关性分析,同源基因搜索,ORF搜寻,多态性SSR位点鉴定和引物设计等）,有助于研究者快速检索以及深度挖掘数据库中丰富的组学数据并实现批量数据获取和可视化。以TPIA收集的不同种茶组植物的转录组和基因组数据为应用实例,本研究初步构建了代表性茶组植物的系统发育框架,结果表明,这些茶组植物物种可分为三组,其中栽培茶树聚集在一起并和C.makuanica、C.tachangensis等构成姐妹组,大理茶是该系统进化关系的基部类群。我们进一步检索了茶组植物叶片中儿茶素和咖啡因的代谢积累数据,然后根据物种分类关系将其映射到构建的系统发育关系上。结果表明,茶叶品质相关代谢物（如儿茶素）的含量随着物种进化轨迹而增加,最近分化的茶树积累的儿茶素和咖啡因比古老分支的物种多。这些数据全面揭示了茶组植物茶叶品质相关特征代谢产物的动态演化,为未来茶树功能基因组学研究和育种提供新的见解和重要线索。综上所述,本研究通过对茶树转录组装策略的研究和优化,探索了适宜茶树二代转录组组装的软件和测序量;同时对基因组学等相关组学数据进行广泛收集和分析,构建了茶树目前最全面的基因组数据库平台,为茶树分子生物学研究提供了丰富的数据和理论基础,将有助于推动茶树功能基因组学、进化生物学和群体遗传学等研究以充分发掘利用茶树优质基因资源,进而指导茶树遗传育种和品种改良,进而促进茶产业的可持续发展。

邵丹^[2]（2021）在《基于数据分析的入体液分泌蛋白预测研究》文中研究说明几十年来,蛋白质组学的应用已经跨越了生物医学和生物化学研究的不同领域,体液也成为重要的研究目标。蛋白质在体液中的异常表达与许多疾病密切相关,是理想的疾病潜在生物标志物。利用体液中的蛋白进行疾病的早期检测,被认为是一种替代手术的无创诊断方法,在临床应用中具有重要意义。现代蛋白质组学工具为入体液蛋白研究积累了大量的成果,在人体主要体液中已检测到超过15,000种不同的蛋白质。与此同时,一些公开的体液相关的蛋白质数据库也相继出现,加速了入体液分泌蛋白的研究。然而,这些数据库大都基于单一体液开发,缺少将已发表的入体液蛋白统一汇总的资源库。此外,由于蛋白质的复杂性以及生物实验的高成本,大规模蛋白质鉴定仍然面临着挑战。为此,利用统计和机器学习方法对入体液分泌蛋白预测成为一种辅助手段。在过去的十年中,运用支持向量机（Support Vector Machine,SVM）、排序（Ranking）、蛋白–蛋白相互作用网络（Protein-Protein Network,PPI）对入体液分泌蛋白预测上取得了初步成功。随着数据样本的日益丰富,深度学习（Deep Learning,DL）处理大型数据集的能力逐渐得到关注。与此同时,高性能计算机硬件的发展,也为数值密集型计算提供了技术支持。用深度学习代替传统的机器学习预测入体液分泌蛋白,是一种新的研究思路,值得深入研究。为此,本文在入体液蛋白的数据搜集与分析基础上,提出了基于蛋白质通用特征的入血液分泌蛋白预测模型,通过对该模型不断优化,进而提出了基于蛋白质序列特征的入12种体液蛋白预测模型。主要研究内容如下:1.对入体液分泌蛋白数据的搜集与分析。蛋白质组学技术的早期成功为不同体液积累了大量被鉴定的蛋白质,其中富含潜在的生物标志物。对已报道的不同体液中鉴定的蛋白质进行资源整合和分析,将为入体液分泌蛋白研究提供重要的科学依据。然而,尽管有少量的特定数据资源,目前仍然缺少将已发表的入体液蛋白汇总的资源库。本文首先对医学领域常用的17种体液中被报道的蛋白质进行搜集及处理,并在此基础上对数据进行整理和分析。其次,提出了蛋白质入体液的置信度评价方法,应用蛋白检测的丰度信息和蛋白鉴定方法作为评价依据。最后,将研究成果形成资源库在线发布实现资源共享。本文总计搜集了241篇文献报道的146,018个蛋白质,共计15,480个非冗余蛋白质,同时提供免费的在线查询平台:https://bmbl.bmi.osumc.edu/HBFP/。2.提出了基于蛋白质通用特征的入血液蛋白预测方法。血液是一种重要的临床标本,在疾病诊断和治疗监测中具有重要的作用。传统的机器学习方法在早期蛋白质样本量较小的前提下取得了相对较好的预测效果。然而,随着数据样本的日益丰富,对模型的计算能力提出了更高要求。深度学习在生物医学领域取得的巨大成功,已经证实了其在处理大型数据集方面的优势。本文利用深度神经网络（Deep Neural Networks,DNN）搭建基于蛋白质通用特征的入血液分泌蛋白预测模型。为了提高模型的计算效果,使用t检验（t-test）、错误发现率（False Discovery Rate,FDR）和递归特性消除（Recursive Feature Elimination,RFE）方法进行特征选择。模型在训练集、验证集和测试集的平均曲线下面积（Area Under Curve,AUC）分别为90.43%、89.83%和87.86%。结果证明,基于DNN的模型能够为入血液蛋白质预测提供一种新的可信度较高的方法。这一研究结果为入体液分泌蛋白的预测方法带来了新的研究思路。3.提出了基于蛋白质序列特征的入12种体液分泌蛋白预测方法—DeepSec。尽管蛋白质通用特征在入体液蛋白预测中被广泛使用,但由于缺乏特征与体液关联度的认知,导致特征搜集是盲目的。此外,特征选择的结果仍然需要人工干预。蛋白质序列的组成作为蛋白质独有的特征,已在蛋白质预测的其他应用中取得了显着的成绩。本方法采用一种全新的策略,对已搜集的蛋白质数量超过1000的12种体液的蛋白分泌情况进行预测。以蛋白质序列位置特异性评分矩阵（protein sequence position-specific scoring matrix,PSSM）作为输入,使用卷积神经网络（Convolutional Neural Network,CNN）学习抽象的序列特征,双向门控回归单元（Bidirectional Gated Recurrent Unit,BGRU）和全连接层进行蛋白质的分类,实现了端到端的预测模型。DeepSec在12种体液中的AUC结果为0.850.94（最高为入血液）。该结果表明,DeepSec比当前所有的入体液蛋白预测方法具有更好的预测能力,特别是入血液蛋白预测。此外,将DeepSec应用于人体癌症组学数据库（The Cancer Genome Atlas,TCGA）中肾癌潜在生物标志物的预测,成功预测了104个潜在的血液中肾癌生物标志物。DeepSec在线访问平台为https://bmbl.bmi.osumc.edu/deepsec/。本文对人体入体液蛋白的研究发展进行全面的背景研究,通过搜集及分析不同体液中的蛋白及其丰度信息,提出了蛋白入体液的置信度评价方法,为临床蛋白质组学和生物标志物的发现提供科学依据;提出基于深度学习技术的入体液分泌蛋白的预测模型,为入体液蛋白质组预测提供了高置信度的方法,为入体液蛋白质组学的研究提供了重要的辅助参考,具有广泛的应用前景。

邓家炜^[3]（2021）在《植物多态性SSR数据库构建关键技术研究》文中进行了进一步梳理SSR（Simple Sequence Repeats,简单重复序列）作为一种DNA分子标记,在生物的基因性状表达、种群遗传多样性等研究领域具有重要作用。近年来随着高通量测序技术的发展,已有大量的物种分别完成了基因组或转录组测序,在这些序列数据基础上使用SSR位点识别程序并结合引物设计工具进行标记开发,进而构建分子标记数据库已成为生物信息学相关领域的重要研究内容。本文将植物多态性SSR数据库构建中的关键技术作为研究对象,主要研究内容与成果如下:（1）提出基于序列偏移（SO,Sequence Offset）和模式匹配的SSR识别算法SO-SSR。分析SSR识别中的主要问题,如最大串联重复、约数重复与移码重复,并根据SSR序列的自身特点,设计了将传统模式匹配和序列偏移思想相结合的SSR位点识别算法,将之与其它类型算法相比较,分析得出SO-SSR在空间占用上更具优势。（2）研究了基于SO-SSR算法的植物多态性SSR标记开发方法。通过解析已有的多态性SSR标记开发工具的底层实现,结合相关参考文献进行植物SSR标记开发,并从量化角度评价标记的多态性。在此过程中,通过对网络爬虫进行数据采集时的问题分析,将深度优先与广度优先策略相组合,设计并开发了NCBI SRA数据采集筛选系统;研究了转录组组装的基本理论与核心算法,探讨了一条合适的从m RNA到转录组的组装流程;选取柑橘属和猕猴桃属的组装体进行处理分析后,确定方法的可行性,并验证了SO-SSR算法在进行SSR识别时的可靠性。（3）构建植物多态性SSR数据库PPSD及后台管理系统。使用基于SO-SSR算法的多态性SSR标记开发方法,在48个植物物种中获得了28943条物种SSR与6655条品种SSR,每条SSR提供三对引物。并在这些标记数据基础上,使用Spring Boot框架与Caffeine、Actuator组件构建了PPSD数据库,并开发对应的后台管理系统,使用Security进行安全控制,同时对PPSD进行实时性能监控。PPSD可为植物遗传多样性等领域的研究人员提供SSR标记的多态性信息检索,使用户能够有针对性的根据目标物种/品种进行潜在的SSR标记筛选工作。本研究提出了基于序列偏移的SSR识别算法SO-SSR,并结合序列比对与多态性评估指标验证了使用SO-SSR在多物种/品种的基因序列上进行植物多态性SSR标记开发的可行性,最终使用Java语言构建了植物多态性SSR数据库PPSD。研究旨在提供一种低内存占用的SSR识别算法,并为植物遗传育种、基因定位与品种鉴定等领域的研究人员提供多态性分子标记数据服务。

赵巧君^[4]（2021）在《蛋白质相互作用网络定向算法的研究》文中研究表明蛋白质相互作用（Protein-Protein Interaction,PPI）网络中的生物信号转导在生命活动中占有非常重要的地位,影响着生物体的大部分生理活动。蛋白质间信号转导方向的研究,有助于理解和预测细胞对各种信号的反应、细胞内基因和蛋白质的功能、内环境稳态机制等。近几年,随着生物信息学的广泛应用,蛋白质相互作用的数量和质量有了显着的提高,但是这些PPIs缺乏信号传导的方向信息,尤其是针对复杂的人类PPI。本研究为区分有向的PPI和无向的PPI并预测有向的PPI间信号流方向性,提出了一个结合蛋白质语义相似性和重叠聚类的网络传播算法来定向人类蛋白质相互作用网络,具体研究工作内容如下:首先,本文构建了一个无向的VEGF信号转导网络,在网络传播算法的基础上,结合蛋白质语义相似度,研究网络传播算法在区分有向和无向的PPI以及定向有向PPI信号流的性能。结果分析表明:虽然网络传播算法可定向蛋白质相互作用网络,但是在区分有向和无向的PPI方面存在缺陷。然后,针对算法的缺陷,将聚类算法和网络传播算法相结合,并用于人类整合素介导的蛋白质相互作用网络,获得了484个无向的PPIs和682个有向的PPIs及其信号流的方向性;为评估改良后的算法,分别对预测的有向PPI和预测的无向PPI进行评估,并与原方法进行了比较,获得较优越的结果;利用广度优先搜索算法,从定向的整合素介导的PPI网络中提取了部分信号转导通路,对提取的有向通路进行分析。最后,本文扩展了人类整合素介导的蛋白质相互作用网络,构建了一个由473个蛋白质组成的PPI网络。在这个网络中,定向算法获得了1664对无向的PPIs和2556对有向的PPIs。为了评估网络的定向结果,利用GO功能富集分析评估了无向PPI;利用ROC曲线评价有向PPI的信号流方向性,并将结果与基于最短路径的方法进行比较,证明了本研究方法的可靠性。综上所述,本研究提出了一个定向人类蛋白质相互作用网络的算法,该算法区分了网络中无向的PPI和有向的PPI,并为有向的PPI进行了信号流的定向。这些方向信息不仅为挖掘新的信号转导通路提供依据,而且有助于促进基因组相关疾病的研究进展,协助开发药物,研究信号转导途径未知调节剂等。

宿鸿^[5]（2021）在《蛋白质结构预测与核酸结合位点注释的智能算法研究》文中研究表明蛋白质结构决定其功能,了解蛋白质的结构对蛋白质的靶向药物设计和功能注释有重大意义。然而,通过湿实验技术确定蛋白质结构成本高且耗时,而当前蛋白质结构预测算法的精度仍有待提高。核酸往往通过与其它分子（如蛋白质、金属离子等）的相互作用执行其生物学功能,准确识别核酸与其它分子的结合位点可以加速计算机辅助药物的设计。然而,现有的核酸与其它分子的结合位点预测算法的准确率相对较低。因此,本文针对这两个方面展开了以下研究:1.蛋白质结构预测。本文提出了一个快速准确的蛋白质结构预测算法tr Rosetta2,该算法是tr Rosetta的改进版,主要从两方面进行了改进。第一,应用了一种从多尺度提取特征的新网络Res2Net来提高残基间二维几何信息的预测,包括距离和角度。第二,将多个同源模板自动集成到网络中,以进一步提高预测精度,特别是对于容易或中等难度的目标蛋白。在CASP13和CASP14两个基准数据集上的实验结果表明,tr Rosetta2的接触预测精度分别比tr Rosetta提高了6%和8%。本文以tr Rosetta2的初始版本参加了CASP14双盲测试。实验结果表明,所提出的方法在91个目标上的预测结构模型的平均TM-score为0.67,tr Rosetta2将其提高到了0.69,与最佳服务器非常接近（Zhang-Server为0.71）。在CAMEO实验的161个目标蛋白上的进一步测试表明,tr Rosetta2到达了平均TM-score为0.8的水平,成功折叠了91.3%的蛋白质,优于CAMEO实验中表现最佳的参赛组。2.核酸结合位点注释。本文从两个方面对核酸结合位点注释展开具体研究,即蛋白质与核酸结合位点以及小分子与RNA结合位点预测,分别开发了对应的智能算法:（1）提出了一个预测蛋白质中与核酸结合的残基位点的新算法Nuc Bind。Nuc Bind是一个集成算法,结合了基于序列的算法SVMnuc和基于模板的算法COACH-D的预测结果。SVMnuc是一个基于支持向量机的算法,它使用三种互补的序列特征来预测蛋白质中与核酸结合的残基;COACH-D通过搜索同源模板来识别目标序列中与核酸作用的残基。本文在三个基准数据集上对所提出的方法与其它方法进行了评估和比较。实验结果表明,Nuc Bind一致优于现有的其它算法。尽管预测精度高,与其它大多数从头预测方法一样,SVMnuc与Nuc Bind存在两种核酸之间的交叉预测。Nuc Bind的成功归因于两点:一是SVMnuc中三种互补序列特征的使用,二是SVMnuc与COACH-D这两种互补方法的结合。（2）提出了一个预测小分子与RNA结合位点的新算法RNAsite。该算法基于序列谱和结构特征来识别RNA中与小分子发生作用的碱基,适用于RNA结构存在或者仅有序列可用的情况。在两个独立测试集上与RBind等其它三种算法的实验比较表明,当实验结构可用时,RNAsite与现有的表现最佳的RBind算法性能相当;当使用预测的结构模型时,RNAsite显着优于其它现有算法。本文讨论了通过检测小分子结合口袋对提高RNAsite算法准确度的可能性,还讨论了RNA结构的柔性以及与配体结合引起的RNA构象的改变对RNAsite算法的影响。RNAsite有望成为设计靶向RNA的小分子药物的有用工具。

殷泽坤^[6]（2020）在《大规模超长生物序列聚类分析》文中进行了进一步梳理新测序技术的数据产生能力已经超越着名的摩尔定律,当前基因组数据正以12-18个月10倍以上的速度增长。数据处理所耗费的时间、人力与经济开销在整个测序流程中所占的比重越来越大。我国十三五期间将对150万人进行基因组测序,每个人将产生300-500GB的数据,基因数据总量在十三五末期将达到EB级别。而对于宏基因组学,仅1克土壤样品的宏基因组测序就可以产生50TB的原始数据。如何高效处理超大规模生物序列数据是高性能处理生物信息分析必须面对的课题。生物序列聚类分析是生物信息学和现代生命科学研究中一个基本且重要的问题,在冗余去除、序列分类和物种分析等方面具有重要意义。本文的研究内容是超大规模生物数据的聚类以及如何利用高性能计算技术来加速聚类的过程,本文主要解决了四个方面的挑战:一、超大规模生物序列数据的I/O问题:在超大规模序列数据聚类分析中本文面临的首要问题是如何高效解析规模如此之大的生物序列数据,这是后续序列数据处理和分析的前提。为此本文提出了一个专门用于生物序列数据处理的高性能I/O框架。本文充分利用了 FASTA以及FASTQ格式的特性,设计并开发了一套面向多核平台的、支持轻量级格式化的I/O框架,消除了大规模生物序列处理中 I/O性能瓶颈,并且该框架已经应用于本文开发的高性能序列相似度计算软件RabbitMash中。该框架的提出为后续的序列聚类分析奠定了基础。另外本文还将该框架推广应用于I/O密集的测序数据质量控制软件RabbitQC中,得益于这个高效率的I/O框架,RabbitQC取得了较大性能提升。二、超大规模以及超长生物序列的相似度计算问题:如何度量序列之间的相似度是生物数据聚类分析中的核心问题。在超大规模以及超长序列相似度计算方面,本文介绍了一个面向多核计算平台的高性能序列相似度分析软件RabbitMash。RabbitMash采用了最小哈希（MinHash）算法并且使用Jaccard Index来评估基因组或者序列之间的相似度。MinHash算法的复杂度远远低于基于动态规划的比对算法以及非基于比对的kmer方法,该算法是处理超大规模数据以及超长序列的一种行之有效的手段。在算法实现上,RabbitMash充分利用了现代高性能多核计算平台上的快速存储设备以及具备强大计算能力的向量处理单元。在单个计算节点上,RabbitiMash成功地将1.1TB生物序列的距离矩阵计算时间缩短到5分钟,相对于其它基于比对的计算方法,RabbitMash的性能提升可以达到2-3个数量级。在RabbitMash的基础上,本文继续开发了RabbitSketch 软件库。除 MinHash 算法外,RabbitSketch 中还支持 HistoSketch、OrderMinHash 以及 HyperLogLog 等一系列 sketch 算法,RabbitSketch 是后续聚类工作中相似度计算的核心。同时本文将RabbitSketch封装为一个独立的软件库提供给其他科研人员使用,并且针对不同的用户群体提供了 C++和Python两种语言的API。三、层次聚类在大规模生物序列数据处理上的拓展性问题:为了解决层次聚类算法的数据拓展性问题,本文实现了一种支持超长序列的、基于稀疏距离矩阵的层次聚类方法,该方法使用RabbitMash计算稀疏距离矩阵,然后将这个稀疏矩阵按距离从小到大的顺序排序,最后使用hcluster算法对已排序的稀疏矩阵进行聚类。这个方法中除了计算稀疏距离矩阵之外另一个性能热点就是稀疏矩阵的排序操作。针对这个比较耗时的排序操作本文提出了一个基于归并排序和排序网络的混合并行排序算法,并介绍了其在多核和众核平台上的优化实现。四、贪心增量聚类算法在分布式环境下的拓展性问题:本文还介绍了一个面向分布式环境下的贪心增量聚类框架,该框架将贪心增量聚类方法拓展到了集群环境上,打破了单节点计算资源不足对聚类分析数据规模的限制。该框架采用了“MPI+Pthread”的混合并行编程模型,并且使用计算通信掩盖的技术来降低节点间通信带来的额外开销。最终,该框架能够充分利用分布式计算集群对更大规模的生物序列数据进行聚类分析。拓展性测试表明该框架在200个CPU核心的分布式测试环境下取得了接近线性的拓展性。综合上述的研究内容以及所取得成果,本文中所提出的方法在现代多核与众核平台以及分布式集群平台上基本完成了超大规模生物序列数据的聚类分析工作,可以在可控时间内完成对TB级数据的聚类分析工作。另外,本文所述的工作成功地将高性能计算的相关技术应用于超大规模生物序列分析中,并且将其中通用的方法封装为相应的软件包和软件库。本文已经将高性能I/O框架RabbitIO、高性能测序数据质控软件RabbitQC、高效基因组分析软件RabbitMash、高性软件库RabbitSketch以及分布式贪心增量聚类框架DGCF发布到开源软件平台Github和Bitbucket上,这些高性能软件能够极大提高相关数据分析工作的效率。

许凯^[7]（2020）在《基于哈希的高通量生物基因测序数据处理算法优化》文中提出近年来,随着生命科学技术不断发展,特别是在高通量测序技术（通常称为下一代测序,Next Generation Sequencing,NGS）的飞速发展推动下,生命科学中生成的数据量大大增加,基因组测序项目的数量和测序数据的数量急剧增加。高通量测序数据在飞速增加,但处理器的性能提升速度却逐年放缓,甚至接近停滞,单个处理器的性能已经难以进一步扩展。在2015年,由于提升芯片频率等方法会进一步加大芯片的散热问题,同时,指令级的流水和并行也出现了巨大的局限性和低效性,各种微体系结构的改进已经达到瓶颈,处理器性能的提升现在每年只有3.5%,平均20年提升一倍,摩尔定律在芯片领域几乎已经失效。因此学者们开启了多核和异构体系结构的研究,不需要改变程序的算法和实现仅仅依靠芯片性能提升从而使程序性能获得大幅度改善已经变得越来越困难,“免费午餐”的时代已经过去。因此,一方面生命科学高通量测序数据一直在急剧增加,另一方面近年来计算性能的提升主要集中在新兴体系结构的发展,因此在新的体系结构上如何处理高通量测序数据是急切需要解决的问题。基因纠错和基因比对是高通量测序数据处理中前期的两个步骤,纠错和比对在同构CPU上的研究已经有很多,但是针对异构架构处理器的研究和针对大规模数据集的处理研究相对较少。如何在基础的算法上进行改进使得计算量减少,如何针对新兴的异构体系架构进行针对性的设计以适应不同架构处理器的特点,如何进行分布式的实现以针对大规模的数据集,都是需要解决的问题。本文的工作主要针对以上问题,围绕DNA测序数据处理过程中的基因纠错和序列比对在Intel多核和众核架构以及国产自主设计的处理器SW26010等体系结构上的算法设计和针对性实现进行研究。本文的主要研究成果如下所述:1)本文提出了一种可扩展的并行纠错算法SPECTR,旨在提高各种Intel并行平台上Illumina DNA短序列进行纠错时的吞吐量。SPECTR的实现基于k-谱方法,针对Intel多核和众核架构以及异构计算集群采用了许多针对性的优化。本文针对SPECTR中的一个关键操作Bloom过滤器的查询进行了优化,对数据重新布局,加快了查询速度,对查询工作中的共同操作,抽象出查询中向量化需要的一般操作,实现了 Bloom过滤器查询操作的异构计算框架。在纠错过程中,本文设计了一个基于堆栈迭代的方法来取代在异构架构上性能较低的递归操作。在单个设备内,本文使用OpenMP的动态任务划分实现了负载均衡。针对单个节点的多个设备,本文设计了数据的分发框架,实现了不同设备间的负载均衡。针对多个节点,本文设计了分布式实现。实验表明,与在CPU上的多线程原始实现相比,优化后的实现在不同设备中加速了 2.8到9.3倍。与其他基因纠错工具相比,在相同的硬件上执行时,SPECTR的速度可提高1.7到6.4倍。在天河二号超级计算机的32个节点上执行时,实现了约86%的并行效率。2)针对基因比对,本文在神威·太湖之光及其申威体系架构SW26010上设计实现了一种高度可扩展的序列比对算法S-Aligner。为解决序列比对算法中的内存瓶颈和计算瓶颈,S-Aligner设计采用了三层并行级别:（1）使用MPI基于任务网格模式进行节点间并行计算;（2）使用多线程和异步数据传输来实现节点内并行处理,将需要计算的数据进行分块实现了不同计算核心之间的负载均衡,充分利用了 SW26010多核处理器的所有260核,以及（3）向量化了基因比对中计算编辑距离的Myers算法,充分利用了可用的256位SIMD向量寄存器。在文件I/O期间,本文采用异步访问模式和数据共享策略以克服网络文件系统的带宽限制。性能评估表明,S-Aligner几乎可以线性扩展,在太湖之光上的13,312个节点上实现了 95%的并行效率。S-Aligner在具有很高准确度的同时,在单个节点上的性能优于在Intel CPU平台上运行的序列比对工具RazerS3。3)在对S-Aligner进行分析之后,本文设计了一个新的可扩展且高效的基因比对算法SWMapper。为了减少内存的使用和加速索引的构建,SWMap-per使用了一个精简哈希索引,设计并实现了一个分布式索引构建方法。在进行比对时,提出了一种新的过滤算法,将基因序列分解为长种子和短种子,使用短种子查找到候选匹配位置后,利用长种子进行过滤减少需要计算的候选位置数。为了去除候选匹配位置中的重复,设计使用了一个最小堆数据结构进行排序删除重复位置。在对基因序列和参考基因子序列进行编辑距离的计算时,设计实现了带状Myers（Baned Myers）算法的向量化,使用SW26010的一条三元逻辑指令替换多条逻辑指令,减少了计算指令数。本文针对多个计算核心设计了动态调度策略来实现负载均衡,针对多个节点,本文设计了分布式实现。性能评估表明,在单个SW26010上,SWMapper的性能优于在相同硬件上的S-Aligner 6.2倍。与运行在Intel CPU上的其他比对算法相比,SWMapper实现了 2.6到26.5倍的加速。在128个计算核组上运行时,SWMappcr实现了 74%的强扩展效率。

教育部^[8]（2020）在《教育部关于印发普通高中课程方案和语文等学科课程标准（2017年版2020年修订）的通知》文中指出教材[2020]3号各省、自治区、直辖市教育厅（教委）,新疆生产建设兵团教育局:为深入贯彻党的十九届四中全会精神和全国教育大会精神,落实立德树人根本任务,完善中小学课程体系,我部组织对普通高中课程方案和语文等学科课程标准（2017年版）进行了修订。普通高中课程方案以及思想政治、语文、

逯畅^[9]（2020）在《基于序列的膜蛋白配体交互研究》文中研究表明生物信息学是以计算机为辅助工具,通过数学及统计学方法对生物学领域内问题进行建模、分析和仿真的一门交叉学科。随着生物学研究手段取得突破性进展,生物数据不断积累,计算机技术日新月异,生物大数据时代已然来临。生物信息学研究日趋成熟,成为生物学领域不可或缺的重要组成部分,为传统生物研究方法提供强有力的补充和支持。生物信息学在微观领域主要包括基因组学和蛋白质组学,本文研究内容属于蛋白质组学范畴,是用机器学习方法对膜蛋白及跨膜蛋白的结构和功能进行预测分析。膜蛋白是具有特殊结构和功能的一类蛋白质,这类蛋白质与生物膜关系密切,或永久地附着在生物膜上,或短暂地与生物膜发生交互。膜蛋白参与诸多重要的细胞生命活动,例如物质传递、信号传导、免疫应答、能量代谢等。跨膜蛋白是最典型且含量最多的膜蛋白种类,它们贯穿生物膜并永久稳定地嵌于生物膜上,其异常会直接导致疾病的产生。与此同时,跨膜蛋白是医药学领域的重点研究目标,目前市场上超过半数药物的靶蛋白为跨膜蛋白。鉴于膜蛋白及跨膜蛋白的重要生物学意义,科研工作者们一直孜孜不倦地对它们进行研究,并取得了丰硕的成果。利用生物信息学手段对膜蛋白及跨膜蛋白进行研究可以辅助蛋白质相互作用网络建立、代谢通路绘制、药物筛选等工作,针对膜蛋白及跨膜蛋白结构与功能的研究已然成为生物信息学领域的重要研究方向。本文围绕膜蛋白及跨膜蛋白开展一系列研究工作,主要目标是通过机器学习方法,从蛋白质一级序列中提取特征,预测并分析膜蛋白-配体的相互作用。首先,为了弥补一级序列信息不足的缺点,构造两个基于深度学习的跨膜蛋白结构描述符预测器,分别是残基表面可及性预测器（TMP-SSurface）和残基Z坐标预测器（TM-ZC）。残基表面可及性以及Z坐标是与功能密切相关的结构信息,可以为后续针对膜蛋白功能的研究提供帮助。接下来,将预测的残基表面可及性和Z坐标作为特征,构造基于随机森林的膜蛋白-配体结合位点预测器（MPLs-Pred）,并根据不同配体类型训练配体特异性预测模型,从而进一步提高预测性能。在对膜蛋白-配体进行研究的过程中,笔者注意到一种典型的以膜蛋白作为靶蛋白的配体:泛醌,并构造了基于XGBoost的泛醌结合蛋白预测器（UBPs-Pred）,并对泛醌结合蛋白进行生物信息学分析。根据上述研究思路,本文的研究工作如下:1)本文提出了基于深度学习的跨膜蛋白残基表面可及性预测器TMP-SSurface,残基的表面可及性用于描述残基暴露于外部环境的情况,用相对溶剂可及表面积进行衡量。TMP-SSurface适用于所有类型跨膜蛋白的全序列残基,对跨膜蛋白类型,残基拓扑结构均没有限制,即没有先验知识的约束。TMP-SSurface使用进化保守性、二进制编码以及序列终端标识符作为输入特征,分类模型是Inception与CapsuleNet相融合的复合型深度学习网络。实验证明TMP-SSurface是一个稳定、高效的模型,且具有良好的泛化能力。对不同类型的跨膜蛋白均可取得良好的预测效果。同时,预测器对特征依赖少,深度学习网络可以挖掘跨膜蛋白序列与结构之间的内在联系。2)本文提出了基于深度学习的跨膜蛋白残基Z坐标预测器TM-ZC,跨膜蛋白的残基Z坐标描述残基到生物膜中心平面的垂直距离,是定量衡量残基与生物膜之间相对位置关系的结构描述符。与TMP-SSurface相似,TM-ZC同样适用于所有类型跨膜蛋白的全序列残基,使用者不需要先验知识。TM-ZC使用的特征与TMP-SSurface相同,即进化保守性、二进制编码以及序列终端标识符。分类模型是包含七个卷积层的卷积神经网络。实验证明TM-ZC模型稳定,具有良好的泛化能力,且对各种类的跨膜蛋白预测性能良好。3)在前面工作的基础上,本文提出了基于随机森林的膜蛋白-配体结合位点预测器MPLs-Pred。蛋白质很多基本功能是依赖于与配体发生交互而完成的,配体结合位点预测是蛋白质功能注释的重要工作之一。MPLs-Pred使用四种特征对膜蛋白残基进行特征编码,分别为进化保守性、物理化学属性、表面可及性以及Z坐标,其中表面可及性和Z坐标分别由TMP-SSurface和TM-ZC预测得到。MPLs-Pred的分类器为随机森林,并使用多倍随机欠采样策略解决严重的样本不平衡问题。此外,考虑到不同配体存在巨大差异,将配体分为三种类型,分别为类药化合物、金属以及生物大分子,并分别训练得到配体特异性预测模型,进一步提高预测器性能。除此之外,本研究还对人类的类药化合物靶标膜蛋白进行了基因本体富集分析和KEGG通路富集分析。4)在对膜蛋白-配体交互数据进行整理分析的过程中,泛醌引起了笔者的关注,其靶蛋白中有86.9%为膜蛋白,其中68.5%为跨膜蛋白,是一种典型的以膜蛋白作为靶标的配体。本文提出了泛醌结合蛋白识别模型UBPs-Pred,并对泛醌结合蛋白进行生物信息学分析。UBPs-Pred使用氨基酸组成、二肽组成以及进化保守性三种特征对蛋白质进行特征编码,使用随机森林对特征重要性进行排序,并通过增量特征选择策略进行特征选择。UBPs-Pred使用XGBoost作为分类器,考虑到XGBoost涉及参数较多且性能对参数敏感,本实验使用多目标粒子群算法对XGBoost的参数进行优化。实验证明UBPs-Pred性能很好。为了对泛醌结合蛋白进行进一步了解,本实验对泛醌结合蛋白进行了生物信息学分析,包括:对泛醌结合域中的模体进行统计;对泛醌结合蛋白的超级家族进行分类统计;对人类的泛醌结合蛋白进行基因本体富集分析以及KEGG通路富集分析。

佟延秋^[10]（2020）在《基于生物信息学的前列腺癌与结直肠癌肿瘤标志物预测研究》文中指出根据2019年1月国家癌症中心发布的最新一期全国癌症统计数据,2015年我国恶性肿瘤发病人数约为392.9万人,死亡人数约为233.8万人。这意味着平均每天有超过1万人被确诊为癌症,每分钟有7.5个人被确诊为癌症。与历史数据相比,这一数据呈持续上升态势。与此同时,近10多年来,恶性肿瘤的发病率每年保持约3.9%的增幅,死亡率每年保持2.5%的增幅;其中,结直肠癌成为危害我国人口健康的恶性肿瘤之一,其余4种分别是:肺癌、肝癌、上消化系统肿瘤和女性乳腺癌。此外,在男性当中,前列腺癌的发病率近年来上升趋势明显,已位居男性发病中的第6位。基因芯片和高通量测序技术的广泛应用,产生了大量的基因表达谱数据和测序数据。与此同时,新一代人工智能技术的出现,能够为分析这些生物大数据提供算法与技术基础,从而预测肿瘤相关标志物和筛选药物靶点。对于这些分析结果,可以通过实验室或临床实验进行验证,而在大数据时代则可以通过多个公开的生物信息数据库进行验证。这种综合分析在揭示癌症的生物学过程研究中扮演了重要的角色。本研究将通过生物信息学方法与工具,通过挖掘GEO（Gene Expression Omnibus）和TCGA（The Cancer Genome Atlas）数据库中的基因表达谱数据、甲基化数据以及相关组学数据,使用R语言编写代码筛选差异表达基因,从而构建这些关键基因的互作网络,最终筛选出影响前列腺癌和结直肠癌的关键基因与抑癌基因。本研究中肿瘤患者的相关数据来自于GEO数据库中的基因表达谱数据（gene expression profiles,GEPs）、Broad GDCA Firehose数据库中的Level 3数据以及TCGA数据库中的临床数据。本研究的开发平台为RStudio 1.453,并安装了Affy、methylumiIlluminaHumanMethylation-450kmanifest、limma、minfi、watermelon、IlluminaHumanMethylation450kanno.ilmn12.hg19、WGCNA、dynamicTreeCut和fastcluster等相关包。之后,对差异表达结果进行PPI（Protein-Protein Interaction）分析,构建差异基因互作网络,并结合图论相关算法筛选关键基因。进一步,通过DAVID在线工具对差异基因进行功能富集分析,并使用KEGG数据库得到重要信号通路。并结合免疫浸润、蛋白组学数据库对这些研究结果进行多组学分析。最后,通过整合多个公开的生物信息数据库,对关键基因、抑癌基因、药物靶点进行验证。在本研究的第一部分,我们对前列腺癌的DNA甲基化表达谱芯片和基因表达谱芯片进行交集分析,从而筛选出关键基因和候选抑癌基因。候选肿瘤抑制基因为:IKZF1、PPM1A、FBP1、SMCHD1、ALPL、CASP5、PYHIN1、DAPK1和CASP8。关键基因为:FGFR1、FGF13和CCND1。在第二部分的研究中,我们使用机器学习算法分析了前列腺癌的基因表达谱芯片,得到了关键基因和药物靶点,这些肿瘤标志物有助于对其分子机制的研究。关键基因为:UBE2C、CCNB1、TOP2A、TPX2、CENPM、KIAA0101、F5、APOE、NPY和TRIM36。文章中的第三部分,我们使用肿瘤的动态网络标志物（dynamic network biomarker,DNB）算法,得到结直肠癌肿瘤四个分子的关键基因MYC。结果表明,MYC可以作为结直肠癌诊断和治疗动态标志物,抑癌基因是ZBTB16、MAL、LIFR和SLIT2。

二、A Generic and Dynamic Framework for Web Publishing of Bioinformatics Databases（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、A Generic and Dynamic Framework for Web Publishing of Bioinformatics Databases（论文提纲范文）

（1）茶树转录组组装评估与多组学生物信息平台开发（论文提纲范文）

致谢

摘要

ABSTRACT

第一章文献综述

1.1 茶树概述

1.2 转录组测序

1.2.1 转录组测序技术

1.2.2 转录组组装研究进展

1.3 茶树转录组的研究进展

1.4 植物基因组数据库研究现状

1.4.1 植物基因组数据库

1.4.2 茶树数据库建设现状

1.5 研究目的及意义

1.6 技术路线

第二章茶树转录组组装

引言

2.1 材料与方法

2.1.1 数据的获取

2.1.2 茶树转录组组装方法

2.2 研究结果

2.2.1 茶树转录组组装最优化工具研究

2.2.2 茶树转录组组装最优化数据量研究

2.3 小结与讨论

第三章茶树基因组生物信息学平台的构建与应用

引言

3.1 材料与方法

3.1.1 数据材料

3.1.2 方法

3.2 研究结果

3.2.1 茶树基因组注释优化

3.2.2 茶树基因组数据库的构建

3.2.3 生物信息学分析工具集成与应用

3.2.4 利用TPIA数据研究茶组植物的化学进化模式

3.3 小结与讨论

第四章结论与展望

4.1 结论

4.2 创新点

4.3 展望

参考文献

附录A 附图

附录B 附表

作者简介

（2）基于数据分析的入体液分泌蛋白预测研究（论文提纲范文）

摘要

abstract

第1章绪论

1.1 研究意义

1.2 本文的主要工作

1.3 本文的结构

第2章研究基础

2.1 入体液分泌蛋白质组学技术

2.1.1 蛋白质组学技术

2.1.2 17种常用体液的蛋白质组学比较

2.1.3 蛋白质组数据库简介

2.2 可计算的预测方法

2.2.1 基于SVM的分泌蛋白预测

2.2.2 基于Ranking的分泌蛋白预测

2.2.3 基于网络的分泌蛋白预测

2.2.4 可计算方法性能比较

2.3 深度学习技术简介

第3章入体液分泌蛋白的搜集与分析

3.1 引言

3.2 蛋白质的搜集与分析

3.2.1 蛋白质的搜集及处理

3.2.2 不同体液中蛋白质分布情况分析

3.3 蛋白质入体液的置信度评价

3.3.1 蛋白质丰度分析

3.3.2 蛋白质置信度计算

3.4 资源整合与共享

3.5 本章小结

第4章基于蛋白质通用特征的入血液分泌蛋白预测

4.1 引言

4.2 研究过程

4.2.1 数据搜集

4.2.2 特征搜集

4.2.3 特征选择

4.2.4 算法实现

4.3 研究结果

4.3.1 模型性能评估

4.3.2 与SVM模型的比较

4.4 本章小结

第5章基于蛋白质序列特征的入体液分泌蛋白预测及应用

5.1 引言

5.2 研究过程

5.2.1 数据搜集及处理

5.2.2 PSSM矩阵的生成

5.2.3 蛋白质序列长度预处理

5.2.4 算法实现

5.3 研究结果

5.3.1 12种体液的模型性能评估

5.3.2 与SVM模型的比较

5.4 血液分泌蛋白预测实例

5.5 模型应用:在血液分泌蛋白中寻找肾癌标志物

5.5.1 肾癌差异表达基因的识别

5.5.2 血液中肾癌潜在标志物的预测

5.6 本章小结

第6章总结与展望

6.1 研究总结

6.2 研究展望

参考文献

作者简介及在学期间所取得的科研成果

致谢

（3）植物多态性SSR数据库构建关键技术研究（论文提纲范文）

摘要

abstract

1 绪论

1.1 研究背景与意义

1.1.1 研究背景

1.1.2 研究意义

1.2 研究内容与论文结构

1.2.1 研究内容

1.2.2 论文组织结构

2 国内外研究现状及进展

2.1 SSR识别基本算法研究现状

2.1.1 后缀树

2.1.2 后缀数组与最长公共前缀

2.1.3 重复模式匹配

2.2 SSR标记开发技术研究进展

2.3 SSR标记数据库研究进展

2.3.1 物种SSR数据库

2.3.2 综合型SSR数据库

2.4 存在问题分析

2.5 本章小结

3 基于序列偏移的SSR识别算法研究

3.1 序列偏移方法概述

3.1.1 串联重复定义

3.1.2 算法基本思想

3.1.3 问题与难点分析

3.2 SO-SSR识别算法理论设计

3.2.1 算法核心理论

3.2.2 算法执行步骤

3.3 SO-SSR识别算法实现

3.4 SO-SSR算法分析

3.4.1 示例分析

3.4.2 性能分析

3.5 本章小结

4 基于SO-SSR的植物多态性SSR标记开发方法研究

4.1 多态性SSR标记开发技术路线

4.2 数据来源与采集方法研究

4.2.1 数据筛选标准

4.2.2 网络爬虫基本策略

4.2.3 问题分析及采集策略优化

4.2.4 SRA采集系统搭建与使用示例

4.3 转录组数据处理方法

4.3.1 NGS序列质控过滤

4.3.2 组装转录组

4.3.3 聚类去冗余

4.4 基于SO-SSR的多态性SSR标记开发

4.4.1 多态性SSR标记开发关键问题

4.4.2 多态性SSR位点检测与差异评估

4.4.3 标记开发设计实现

4.5 多态性SSR标记开发实例分析

4.6 本章小结

5 植物多态性SSR数据库系统开发与应用

5.1 PPSD系统设计

5.1.1 系统整体架构

5.1.2 PPSD功能设计

5.1.3 PPSD后台管理系统功能设计

5.1.4 PPSD系统数据库设计

5.2 PPSD系统开发与测试

5.2.1 开发环境及相关技术

5.2.2 PPSD数据库实现

5.2.3 PPSD后台管理系统实现

5.2.4 系统功能测试

5.3 植物多态性SSR数据库应用实例

5.4 本章小结

6 总结与展望

6.1 工作总结

6.2 未来研究展望

参考文献

致谢

作者简介

（4）蛋白质相互作用网络定向算法的研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景

1.1.1 生物信息学

1.1.2 蛋白质间信号流的方向性

1.2 定向蛋白质相互作用的研究现状

1.2.1 实验方法

1.2.2 计算方法

1.3 研究意义

1.4 结构安排

1.4.1 主要工作

1.4.2 本文章节安排

第二章基于网络传播算法定向PPI网络

2.1 蛋白质相互作用网络

2.1.1 网络的图形表示

2.1.2 网络的拓扑属性

2.1.3 网络的矩阵表示

2.2 网络传播算法

2.2.1 网络传播的原理

2.2.2 算法框架

2.3 VEGF网络的构建

2.3.1 相关数据库

2.3.2 PPI数据集

2.3.3 PPI权重

2.4 结果分析

2.5 本章小结

第三章结合重叠聚类算法定向人类的PPI网络

3.1 重叠聚类算法

3.1.1 寻找内聚性的组

3.1.2 合并部分重叠的组

3.1.3 参数设置

3.1.4 ClusterONE结果选取

3.2 算法框架

3.3 整合素介导的PPI网络

3.3.1 相关的数据库

3.3.2 数据集

3.3.3 结果及其分析

3.3.4 提取信号转导通路

3.4 人类PPI网络的定向

3.4.1 网络的构建

3.4.2 结果及其分析

3.5 本章小结

第四章总结与展望

4.1 总结

4.2 主要创新点

4.3 展望

参考文献

附录 A

攻读学位期间取得的研究成果

致谢

（5）蛋白质结构预测与核酸结合位点注释的智能算法研究（论文提纲范文）

摘要

Abstract

第一章绪言

第一节课题研究背景及意义

1.1.1 蛋白质结构预测

1.1.2 蛋白质结合位点预测

1.1.3 RNA结合位点预测

第二节课题相关文献综述

1.2.1 蛋白质三级结构预测综述

1.2.2 蛋白质与核酸结合位点预测综述

1.2.3 RNA与小分子结合位点预测综述

第三节本文主要内容

第二章基本概念和工具

第一节本文涉及到的基本概念

2.1.1 蛋白质

2.1.2 核酸

2.1.3 序列比对

2.1.4 多重序列比对

2.1.5 序列相似性

2.1.6 结构相似性

2.1.7 其它概念

第二节基本工具和数据库简介

2.2.1 核酸序列数据库

2.2.2 蛋白质序列数据库

2.2.3 蛋白结构数据库

2.2.4 蛋白质-小分子互作用数据库

2.2.5 CD-HIT

2.2.6 BLAST

2.2.7 HHsuite

2.2.8 CASP

2.2.9 CAMEO

第三章蛋白质三级结构预测

第一节方法与材料

3.1.1 数据集构建

3.1.2 MSA生成和选择

3.1.3 模板生成和选择

3.1.4 基于Res2Net网络的残基间几何约束预测

3.1.5 基于能量最小化的蛋白质折叠

3.1.6 trRosetta2算法的总体架构

3.1.7 性能评估

第二节结果与讨论

3.2.1 用Res2Net替换ResNet改进了残基间几何信息预测

3.2.2 使用同源模板有利于容易或中等难度的目标蛋白

3.2.3 trRosetta2与MODELLER在TBM蛋白上的比较

3.2.4 在CASP14 双盲测试中的表现

3.2.5 在CAMEO测试集上的表现

3.2.6 案例分析

3.2.7 在多重序列比对中排除同源序列对trRosetta2结果的影响

第三节结论

第四节 trRosetta2的网页服务器

第四章蛋白质与核酸结合位点预测

第一节材料与方法

4.1.1 数据集构建

4.1.2 NucBind算法的总体架构

4.1.3 基于模板的预测算法COACH-D

4.1.4 从头预测算法SVMnuc的特征设计

4.1.5 性能评估

第二节结果与讨论

4.2.1 SVMnuc参数优化

4.2.2 特征贡献分析

4.2.3 在训练集YFK16上的表现

4.2.4 与其它方法的比较

4.2.5 案例分析

4.2.6 预测结合残基在分子对接中的应用

4.2.7 所提方法的局限性

第三节结论

第四节 NucBind的网页服务器

第五章 RNA与小分子结合位点预测

第一节材料与方法

5.1.1 数据集构建

5.1.2 RNAsite算法的总体架构

5.1.3 基于序列的方法RNAsite_seq

5.1.4 基于结构的方法RNAsite_str

5.1.5 结构特征的统计分析

5.1.6 模型构建和性能评估

第二节结果与讨论

5.2.1 参数优化

5.2.2 特征贡献分析

5.2.3 与其它方法的比较

5.2.4 为什么RB19上的预测准确度比TE18上的高?

5.2.5 在含有金属离子和非金属离子小分子的RNA上的表现

5.2.6 组合结合口袋检测的潜在改进

5.2.7 RNA结构的动态特征对预测结合位点的影响

5.2.8 holo和apo结构对预测结合位点的影响

第三节结论

第四节 RNAsite的网页服务器

第六章总结

附录A

附录B

附录C

附录D

参考文献

致谢

个人简历

（6）大规模超长生物序列聚类分析（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究背景及意义

1.2 研究现状与挑战

1.3 本文研究内容与创新点

1.4 本文组织结构和章节安排

第2章背景

2.1 常见生物序列文件格式

2.2 生物序列的相似度计算

2.2.1 序列相似度计算简史

2.2.2 基于sketch的序列相似度分析方法

2.3 高性能计算机的体系结构

2.3.1 向量处理单元

2.3.2 Xeon Phi

2.4 并行计算语言

2.4.1 POSIX线程与OpenMP

2.4.2 消息传递接口(MPI)

2.4.3 SIMD扩展指令集

2.5 本章小结

第3章针对生物序列数据的通用高性能I/O框架

3.1 高性能生物序列I/O框架的设计与实现

3.1.1 基于生产者-消费者模型的I/O框架

3.1.2 FASTQ格式的文件解析

3.1.3 FASTA格式的文件解析

3.1.4 压缩数据的处理

3.2 基于高性能I/O框架的案例研究

3.2.1 测序数据质量控制软件RabbitQC简介

3.2.2 性能测试

3.2.3 质控结果的可视化

3.3 本章小结

第4章面向现代多核架构的高性能序列相似度算法

4.1 RabbitMash:一个面向多核处理器的基于MinHash算法的基因组分析软件包

4.1.1 在多核平台上的优化

4.1.2 测试平台及数据

4.1.3 性能测试结果

4.2 RabbitSketch:基于sketch方法的高效生物序列相似度分析软件库

4.2.1 RabbitSketch的实现以及其特性

4.2.2 性能测试

4.3 本章小结

第5章多核以及集群平台上的大规模超长生物序列聚类方法

5.1 基于层次聚类和最小哈希算法的大规模基因组数据聚类分析方法

5.1.1 一种面向现代体系架构的向量化排序方法

5.1.1.1 并行排序算法简介

5.1.1.2 算法实现

5.1.1.3 排序性能测试

5.1.2 hcluster层次聚类算法

5.1.3 大规模数据下的性能测试

5.2 一个面向大规模生物数据的分布式贪心增量聚类框架

5.2.1 基于MPI+Pthread实现的分布式贪心聚类框架

5.2.2 性能测试

5.3 本章小结

第6章总结与展望

6.1 总结

6.2 展望

参考文献

致谢

攻读学位期间发表的学术论文目录

攻读学位期间参与科研项目情况

攻读学位期间获得的奖励

（7）基于哈希的高通量生物基因测序数据处理算法优化（论文提纲范文）

中文摘要

英文摘要

文中使用的缩略词和符号

第一章绪论

1.1 研究的背景和意义

1.2 研究的现状和挑战

1.2.1 数据量的增加

1.2.2 基因序列纠错的方法

1.2.3 基因序列比对的方法

1.2.4 异构处理器的发展

1.2.5 生物信息学在异构架构上的实现

1.2.6 面临的挑战

1.3 本文研究内容和创新点

1.4 本文的组织结构和章节安排

第二章背景

2.1 哈希算法

2.1.1 哈希简介

2.1.2 布隆过滤器

2.2 FASTQ格式

2.3 基因纠错算法

2.4 基于哈希的基因比对算法

2.4.1 SAM格式

2.4.2 种子-延伸策略

2.4.3 精确比对和最优比对

2.4.4 Smith-Waterman算法

2.5 高性能计算机的体系结构

2.5.1 Intel CPU和向量处理器

2.5.2 Xeon Phi

2.5.3 SW26010

2.6 编程模型

2.6.1 MPI模型

2.6.2 OpcnMP模型

2.6.3 Athread编程模型

2.7 本章小结

第三章 SPECTR: 多核和众核架构上的可扩展短读序列纠错

3.1 引言

3.2 串行纠错算法介绍

3.3 并行算法设计

3.3.1 数据内存对齐

3.3.2 向量化Bloom过滤器查询

3.3.3 消除递归代码

3.3.4 优化细节

3.4 分布式实现

3.5 实验结果

3.5.1 实验设置

3.5.2 准确度

3.5.3 单设备性能

3.5.4 与其他工具的比较

3.5.5 天河二号上的性能

3.6 本章小结

第四章 S-Aligner: 基于神威·太湖之光超级计算机的基因比对

4.1 引言

4.2 Myers算法

4.3 S-Aligner的设计

4.3.1 计算核组间的大规模并行

4.3.2 计算核组内的多线程并行

4.3.3 SIMD向量化

4.3.4 局部设备内存的使用

4.4 实验结果

4.4.1 单节点的性能分析

4.4.2 与RazerS3的比较

4.4.3 扩展性分析

4.5 本章小结

第五章 SWMapper: 基于精简哈希的可扩展基因比对

5.1 引言

5.2 带状Myers算法

5.3 SWMapper的设计

5.3.1 MPE上的工作流程

5.3.2 精简哈希索引的建立

5.3.3 CPE上的工作流程

5.3.4 移除重复位置

5.3.5 种子过滤

5.3.6 带状Myers算法的向量化

5.3.7 数据传输优化

5.3.8 分布式版本

5.4 实验结果

5.4.1 准确度

5.4.2 建立哈希索引的时间

5.4.3 比对时间

5.4.4 优化的性能分析

5.5 本章小结

第六章总结与展望

6.1 总结

6.2 展望

参考文献

致谢

博士期间发表的论文

博士期间参加的科研工作

（9）基于序列的膜蛋白配体交互研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 生物信息学及蛋白质组学

1.1.1 生物信息学

1.1.2 蛋白质组学

1.2 膜蛋白及跨膜蛋白

1.3 研究相关数据资源

1.4 研究相关工具资源

1.5 本文工作

1.5.1 本文研究内容

1.5.2 本文组织结构

第二章跨膜蛋白残基表面可及性预测

2.1 引言

2.2 研究背景与思路

2.3 实验方法

2.3.1 数据集

2.3.2 计算rASA

2.3.3 特征编码

2.3.4 TMP-SSurface回归模型

2.3.5 从概率到rASA

2.3.6 实验环境

2.3.7 评价指标

2.4 实验结果及讨论

2.4.1 模型稳定性测试

2.4.2 模型训练过程

2.4.3 参数选择

2.4.4 子网络消融实验

2.4.5 不同类型跨膜蛋白测试

2.4.6 预测器性能对比

2.4.7 短序列跨膜蛋白测试

2.4.8 预测器效率对比

2.4.9 案例分析

2.5 本章小结

第三章跨膜蛋白残基Z坐标预测

3.1 引言

3.2 研究背景与思路

3.3 实验方法

3.3.1 数据集

3.3.2 计算残基Z坐标

3.3.3 特征编码

3.3.4 TM-ZC回归模型

3.3.5 实验环境

3.3.6 评价指标

3.4 实验结果及讨论

3.4.1 特征分析

3.4.2 滑窗尺寸调整

3.4.3 Z坐标阈值调整

3.4.4 模型稳定性测试

3.4.5 不同类型跨膜蛋白测试

3.4.6 预测器性能对比

3.4.7 拓扑结构相关性

3.4.8 案例分析

3.5 本章小结

第四章膜蛋白-配体结合位点预测

4.1 引言

4.2 研究背景与思路

4.3 实验方法

4.3.1 数据集

4.3.2 特征编码

4.3.3 MPLs-Pred分类模型

4.3.4 实验环境

4.3.5 评价指标

4.4 实验结果及讨论

4.4.1 配体结合位点分析

4.4.2 特征分析

4.4.3 多倍随机欠采样测试

4.4.4 分类算法对比

4.4.5 配体特异性模型性能

4.4.6 独立测试结果

4.4.7 预测器性能对比

4.4.8 案例分析

4.4.9 人类药物靶标膜蛋白分析

4.5 本章小结

第五章泛醌结合蛋白识别与分析

5.1 引言

5.2 研究背景与思路

5.3 实验方法

5.3.1 数据集

5.3.2 特征编码

5.3.3 特征选择

5.3.4 UBPs-Pred分类模型

5.3.5 参数寻优

5.3.6 实验环境

5.3.7 评价指标

5.4 实验结果及讨论

5.4.1 分类算法对比

5.4.2 特征选择结果

5.4.3 参数寻优结果

5.4.4 预测器性能

5.4.5 案例分析

5.4.6 泛醌结合域模体统计

5.4.7 泛醌结合蛋白超级家族分布

5.4.8 人类泛醌结合蛋白GO富集分析

5.4.9 人类泛醌结合蛋白KEGG通路富集分析

5.5 本章小结

第六章在线服务平台

6.1 网站简介

6.2 服务器环境

6.3 在线预测

第七章总结与展望

7.1 总结

7.2 展望

参考文献

致谢

附录

在学期间公开发表论文及着作情况

（10）基于生物信息学的前列腺癌与结直肠癌肿瘤标志物预测研究（论文提纲范文）

符号说明

摘要

ABSTRACT

前言

第一章整合甲基化与基因表达谱芯片的前列腺癌标志物分析与验证

1 前言

2 材料与方法

2.1 数据来源

2.2 数据预处理与分析

2.3 功能富集分析与通路分析

2.4 蛋白质-蛋白质交互网络构建与关键模块分析

3 结果

3.1 归一化DNA甲基化表达谱和基因表达谱数据

3.2 前列腺癌中DEGs与 DMGs识别

3.3 前列腺癌中异常甲基化基因识别

3.4 抑癌基因筛选

3.5 抑癌基因验证

3.6 基因本体分析与KEGG通路分析

3.7 蛋白质-蛋白质互作分析

3.8 关键基因与PSA关系研究

4 讨论

小结

参考文献

第二章整合多组学数据库的前列腺癌诊断与预后标志物分析与验证

1 前言

2 材料与方法

2.1 数据来源

2.2 图的定义

2.3 差异基因的功能富集分析与通路分析

2.4 机器学习架构

2.5 多组学数据库验证关键基因与药物靶点

3 结果

3.1 前列腺癌差异基因识别

3.2 GO富集分析与KEGG通路分析

3.3 前列腺癌相关差异基因互作网络拓扑结构

3.4 多组学数据库验证关键基因

3.5 多组学数据库验证药物靶点

3.6 关键基因的GS评分

3.7 AR通路可以作为与PSA相关的药物作用靶点

3.8 对本研究中结果的性能分析

4 讨论

小结

参考文献

第三章结直肠癌中动态网络标志物识别以及免疫浸润关系的理论与模拟研究

1 前言

2 材料与方法

2.1 数据来源

2.2 算法理论基础

2.3 基于差异表达的分子标志物的识别

2.4 基于网络的分子标志物识别

2.5 基于多组学数据库的DNB标志物验证

3 结果

3.1 结直肠癌关键分期中的DNB识别

3.2 不同肿瘤分期的结直肠癌差异分子标志物识别

3.3 基于WGCNA的 DNB标志物临床信息分析

3.4 基于PPI网络的MYC分析

3.5 基于TCGA数据库的DNB标志物验证

3.6 抑癌基因筛选

4 讨论

小结

参考文献

全文总结

附录一 :PSA蛋白质序列

附录二 :GO分析结果

文献综述

前言

1 从神经网络到深度学习

1.1 神经网络概述

1.2 卷积神经网络

1.3 图神经网络

1.4 几种机器学习实现框架

2 深度学习在生物信息学中的应用

2.1 基因表达谱分析

2.2 RNA结合蛋白结合点位预测

2.3 DNA序列功能预测

2.4 蛋白互作功能预测

2.5 免疫

2.6 靶向药物

参考文献

致谢

博士期间发表的论文

发明专利

四、A Generic and Dynamic Framework for Web Publishing of Bioinformatics Databases（论文参考文献）

[1]茶树转录组组装评估与多组学生物信息平台开发[D]. 李方东. 安徽农业大学, 2021(01)
[2]基于数据分析的入体液分泌蛋白预测研究[D]. 邵丹. 吉林大学, 2021(01)
[3]植物多态性SSR数据库构建关键技术研究[D]. 邓家炜. 安徽农业大学, 2021(02)
[4]蛋白质相互作用网络定向算法的研究[D]. 赵巧君. 太原理工大学, 2021
[5]蛋白质结构预测与核酸结合位点注释的智能算法研究[D]. 宿鸿. 南开大学, 2021(02)
[6]大规模超长生物序列聚类分析[D]. 殷泽坤. 山东大学, 2020(04)
[7]基于哈希的高通量生物基因测序数据处理算法优化[D]. 许凯. 山东大学, 2020(04)
[8]教育部关于印发普通高中课程方案和语文等学科课程标准（2017年版2020年修订）的通知[J]. 教育部. 中华人民共和国教育部公报, 2020(06)
[9]基于序列的膜蛋白配体交互研究[D]. 逯畅. 东北师范大学, 2020(01)
[10]基于生物信息学的前列腺癌与结直肠癌肿瘤标志物预测研究[D]. 佟延秋. 重庆医科大学, 2020(01)

标签：分泌蛋白论文; 蛋白质结构论文; 转录组论文; 生物信息学论文; 组蛋白论文;

生物信息学数据库网络发布的通用动态框架

一、A Generic and Dynamic Framework for Web Publishing of Bioinformatics Databases（论文文献综述）

二、A Generic and Dynamic Framework for Web Publishing of Bioinformatics Databases（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、A Generic and Dynamic Framework for Web Publishing of Bioinformatics Databases（论文提纲范文）

（1）茶树转录组组装评估与多组学生物信息平台开发（论文提纲范文）

（2）基于数据分析的入体液分泌蛋白预测研究（论文提纲范文）

（3）植物多态性SSR数据库构建关键技术研究（论文提纲范文）

（4）蛋白质相互作用网络定向算法的研究（论文提纲范文）

（5）蛋白质结构预测与核酸结合位点注释的智能算法研究（论文提纲范文）

（6）大规模超长生物序列聚类分析（论文提纲范文）

（7）基于哈希的高通量生物基因测序数据处理算法优化（论文提纲范文）

（9）基于序列的膜蛋白配体交互研究（论文提纲范文）

（10）基于生物信息学的前列腺癌与结直肠癌肿瘤标志物预测研究（论文提纲范文）

四、A Generic and Dynamic Framework for Web Publishing of Bioinformatics Databases（论文参考文献）

猜你喜欢