基于TCGA下载的RNA-seq表达数据识别与肝癌发生发展具有关联性的长非编码RNA, 从而为在早期诊断肝癌以及肝癌的靶向治疗上提供一些参考。
摘要:长链非编码RNA(LncRNAs) 已经被很多的科学实验证明与人类很多的疾病有着十分密切的关联性。随着LncRNAs数量的不断增多以及计算工具的迅速发展,如何利用计算方法识别与人类复杂疾病相关的LncRNAs是当前生物信息学所面临的挑战性问题。本课题将以人类肝癌的LncRNAs表达数据为基础,针对人类复杂疾病相关LncRNAs识别的数学模型和方法等问题开展相关研究:(1)首先,我们从TCGA下载了肝癌的LncRNAs 的RNA-seq数据(2)其次,利用单样本网络构建人类肝癌相关LncRNAs识别的数学模型和方法;(3)最后,对可能与人类肝癌相关的LncRNAs进行筛选和识别;本课题的研究将为人类复杂疾病诊断、治疗和预防等过程中生物标志物的识别和药物的发现提供系统水平的理论依据。
关键词: 计算生物学;长链非编码RNA;数学建模;计算方法
A Mathematical Modeling Method for Identification of the Related Long Non-coding RNA of Liver Cancer
Abstract: More and more studies have shown that long non-coding RNAs (LncRNAs) are closely related to many human complex diseases. With the increasing number of LncRNAs and the rapid development of computational tools, how to use computational methods to identify LncRNAs associated with complex human diseases is a challenging issue facing current bioinformatics. Based on the LncRNAs expression data of human liver cancer, this study will carry out relevant research on the mathematical models and methods for the identification of LncRNAs related to human complex diseases. (1) Download LncRNAs expression data from human public liver cancer databases from public databases and preprocess the data; (2) Construct a mathematical model and method for identifying human liver cancer-associated LncRNAs using a single sample network; (3) May be relevant for human liver cancer LncRNAs for screening and identification. The research of this topic will provide a systematic theoretical basis for the identification of biomarkers and the discovery of drugs in the process of diagnosis, treatment and prevention of complex human diseases.
Key words: Computational biology;Long non-coding RNA(LncRNA);Mathematical modeling;Calculation method
目 录
1. 绪论 1
1.1 计算生物学简介 1
1.2 长非编码RNA 和人类肝癌疾病的介绍 2
1.2.1 长非编码RNA....2
1.2.2 人类肝癌疾病..3
1.2.3 长非编码RNA与肝癌...3
1.3 本文的主要工作 4
2. 肝癌相关长非编码RNA识别的数学建模和方法 5
2.1 实验数据来源 5
2.2 基于单样本网络建立数学模型 5
2.3 实验过程及结果 7
2.4 结果讨论 10
3. 总结和展望 13
4. 致谢 14
5. 参考文献 15
6. 附录 17
6.1 matlab程序 17
1. 绪论
1.1 计算生物学简介
自沃森、克里克发现DNA分子结构以来,生物研究就进入了分子生物学的时代,在这个时期,生物学家主要应用一系列的分子生物学实验研究手段开始研究人类每个单个基因与人类表型之间的关系,或者不同基因、蛋白在分子层面之间的调控关系等。但是人们逐渐发现了解了这些单个的调控关系之后,还是难以建立人类基因型与表型之间的关系,和解释一些复杂的生命现象。系统生物学不再像以前传统的分子生物学那样研究单个基因、蛋白等分子组件之间的关系,而是针对一组与特定生物学过程相关的分子组件,使用高通量的实验手段来测定它们在人体内含量的动态变化,并通过数学模型和计算机模型来模拟这些变化对细胞,组织,器官和对人体整体的影响。所以,系统生物学现在希望从更系统,更全面的角度来解释生物学现象。
人类基因组计划启动于1990年,该计划的目的是希望能够理解并解释人类基因组所有的遗传密码。实际上,是人类基因组的计划的开始从而推动了计算生物学的产生和发展,计算生物学是一门十分典型的交叉学科,它涵盖了多种多样的科目,其中包括数学、统计学、生物学和计算机科学等,而揭示生命科学中的现象和规律则是计算生物学的主要目的。为了完成这个目标,则需要计算机和数学手段的相互配合。计算生物学这门科学的研究范围十分普遍,它基本上涉及了当代生物学的大多数研究领域。对于不同的领域的研究者来说,计算生物学研究的重点是不同的,因此,对于计算生物学的精确定义并没有一个全面且准确的说法。总之,计算生物学是一门需要利用多门学科的算法,比如计算机算法,应用数学算法,统计学算法等结合来解决生物问题。对于此学科的命名上,最初人们提出“数学生物学”和“定量生物学”这两个称谓。但是,仅仅是定量的测度还有数学以及统计学在自然科学的领域中都是被广为应用的,只有“计算”能够更加贴切的反映出这门学科与其各研究领域的共同特点还有内在的联系,使这些学科完美的统一起来。“计算生物学”这样一个概念最终确定下来,被人接受并广泛的使用。可以说,任何与生物学问题有关联的学科研究,如果该问题的假设能够利用建立数学模型以及计算机模拟算法来验证的,诸如此类的问题我们都可以认为是计算生物学的研究范围[1]。