1.2.3 长非编码RNA与肝癌 近些年,随着科学研究的不断深入以及临床数据的不断增长,大量的科学研究显示长非编码RNA实际上通过不同的生物学机制在细胞
1.2.3 长非编码RNA与肝癌
近些年,随着科学研究的不断深入以及临床数据的不断增长,大量的科学研究显示长非编码RNA实际上通过不同的生物学机制在细胞的几乎整个生命过程都有所作为,在许多基本的和关键的生物过程中起着非常重要的作用。这些过程包括:细胞分化、X-染色体失活、细胞增殖和凋亡、转录、染色质水平的表观遗传学状态调控,胚胎干细胞状态维持、转录调控以及疾病状态调控等[10]。因为有了这些新的科学发现,对于长非编码RNA的功能性的质疑也不再存在了。研究者们发现长非编码RNA的突变与调节异常和人类心血管疾病,前列腺癌,乳腺癌,肺癌等多种重要复杂疾病的发病和发展都有着密切的联系[11-14]。第二军医大学,复旦大学和中国科学院的研究人员利用Arraystar芯片发现了一种名为DANCR的长非编码RNA。它通过解除对CTNNB1的抑制增强了肝癌的干性特征[15]。上海交通大学瑞金医院的研究人员在一项新的研究中证实,一种叫做ZFAS1的长非编码RNA通过发生扩增促进了肝细胞癌(HCC)的转移[16]。本研究最终发现了ZFAS1在肝癌转移过程中的作用,使其可能成为临床治疗肝癌的潜在靶点。
长非编码RNA与肝癌关联的研究越来越多的证实了识别与肝癌相关长非编码RNA的必要性,这项研究也引起了国内外研究学者们的广泛关注。
1.3 本文的主要工作
在我们这篇论文的研究中,我们主要是研究与肝癌发生发展具有关联性的长链非编码RNA的识别问题。首先,在第一章,对计算生物学的背景、长链非编码RNA和肝癌以及二者关联性进行了简要的陈述。其次,在第二章中我们采用单样本网络方法来建立长非编码RNA识别的数学模型,建立与肝癌具有关联性的LncRNA的识别系统,从而根据已下载的RNA-seq数据进行数据计算,找寻相关LncRNA。最后,在第三章,我们对全篇论文做了论文内容的总结和下一步研究的展望。
2. 肝癌相关长非编码RNA识别的数学建模和方法
2.1 实验数据来源
我们从TCGA (The Cancer Genome Atlas) 公共数据库下载了人类肝细胞癌症的1226个LncRNAs的表达数据。这些RNA-seq数据共包括421个样本,其中正常样本和癌症样本的数量分别为50个和371个。
2.2 基于单样本网络建立数学模型
为了寻找与肝癌相关的LncRNA,我们尽可能寻找肝癌患者样本和正常样本的LncRNA表达差异最大的那些LncRNA,如何将“差异”量化并找到差异最大的LncRNA,是本课题的最大的难题。在这里我们使用的方法是基于干扰统计分析建立单样本网络模型,该模型的建立需要参照样本组和干扰样本组。
本文中采用的单样本网络数学模型建立步骤如下:(a)单样本网络的数据基础需要两部分:一部分是用来作为参照数据的样本集合,另一部分是用来产生干扰作用的样本集合。对于参照样本组我们可以用 来表示,通过计算LncRNAs分子间表达数据的相关性 构建参照网络(Reference network,见图2-1-A)。(b)添加一个干扰样本d 到参照样本组,按照上述方法再次计算LncRNAs的相关性 ,构建干扰网络(Perturbed network,见图2-1-B)。(c)将得到的干扰网络与参照网络进行比较,对比两者数据的差别,得到差异网络