计算生物学是指数据分析和理论、计算机模拟和数学建模的发展和应用。目前,生物数据的数量和复杂性在不断增加,基因研究所产生的数据每14个月就会
计算生物学是指数据分析和理论、计算机模拟和数学建模的发展和应用。目前,生物数据的数量和复杂性在不断增加,基因研究所产生的数据每14个月就会增加一倍。因此,我们必须依靠大规模的计算模拟技术,从海量的信息中提取最有用的数据。
计算生物学的研究内容主要包括:生物序列的序列拼接、序列对接、基因识别和种族树的构建以及蛋白质结构预测,生物数据库这六个方面。本次文章主要研究的是人类基因与人类复杂疾病的关系。
如果把人类体内所有基因比做一本书,那么蛋白质就是一个个句子,序列模体就是一个个单词,构成蛋白质的基础单位——氨基酸就是字母。单独的分析每个字母没有多大学术上的价值,而这些字母们组成的单词却有着巨大的含义。在有的情况下,将一个单词中的特定字母改变可以转变单词的含义,使得原句与之前大相径庭。比如说英文中cat(猫)和cut(切割)只差一个字母,其含义乃至词性都截然不同。准确地解读这本“书”中全部的内容是目前计算生物学的一大难题。而计算生物学的目的,就是要准确的弄清楚这本“书”中构成不同句子的所有单词的含义,换言之,就是要理解构成不同蛋白质的序列模体的不同所表达的意思的不同,之后在不久的未来,能够设计出原本没有的新生蛋白质,从而达成对人体本身的重“设计”。目前,已有的算法已经能够甄别出这本“书”中的少数单词,但目前尚不清楚将单词揉捏成句子的语法规律。如何把分散的序列模体恰如其分的糅合组成一个具有生物学意义的蛋白质结构在目前的科学水平下尚未可知[2]。
1.2 长非编码RNA 和人类肝癌疾病的介绍
1.2.1 长非编码RNA
生命科学的主要研究对象是蛋白质(protein)、脱氧核糖核酸(Deoxyribonucleic acid,DNA)和核糖核酸(Ribonucleic acid,RNA)。但RNA却不太遭人重视,这是因为与其他两个研究对象相比,RNA似乎显得没那么重要:DNA储存了决定物种的所有蛋白质和RNA的遗传信息;而蛋白质是组成人体器官的主要物质,在生物体内绝大多数的生化反应都起了很重要的作用。根据功能的不同,RNA可以分为编码RNA和非编码RNA。编码RNA(mRNA)顾名思义是指RNA被转录后用于编码蛋白质的那些RNA;而非编码RNA(non-coding RNA,ncRNA)是指不用于编码蛋白质的那部分RNA [3]。
在整个基因组中,大约只有2%的基因可以编码蛋白,也就是说剩余的98%的基因组都不能编码蛋白[4]。在过去很长一段时间的科学研究中,研究者们对于这些非编码基因组的功能性产生了大量的争论和疑惑,它们曾经被认为是基因组的“dark matter”,并且被认为并不具有任何的生物学功能。随着生物数据的不断增加和计算工具的迅速发展,越来越多的实验证实了事实上非编码基因在许多生物过程中起着非常重要的作用 [5]。
根据转录本的长度,非编码RNA可以分为小非编码RNA(small non-coding RNA, SncRNA)和长非编码RNA(long non-coding RNA, LncRNAs)。长非编码RNA是非编码RNA的主要组成部分,长非编码RNA是RNA聚合酶Ⅱ转录的副产物,它们的长度通常大于200nt,并且含有3’端聚腺苷酸尾巴和5’端帽子结构 [6,7]。
1.2.2 人类肝癌疾病
在中国常见的复杂疾病中,肝癌的死亡率排第三名,只有食管癌和胃癌的死亡率略高于肝癌。中国每年因为肝癌死亡的人数占据世界肝癌死亡率百分之四十的比重,约有逾10余万人。全球每年约有62万人发病,其中中国患者约占全球的55%[8]。
肝癌是一种生长在肝脏的恶性肿瘤。根据肝癌发生来源的不同,通常可以分为两种:原发性肝癌和继发性肝癌。以肝细胞或肝内小胆管的上皮细胞为起初发病源的一类肝癌,被称为原发性肝癌,这一类也是通常我们所说的肝癌。而另一类的发病源是发生在肝胆以外其他脏器的癌细胞的转移或直接浸润到肝脏而导致最终肝癌出现的,被称为继发性肝癌。我们通常意义上所说的肝癌,即原发性肝癌包括以下三种情况:第一种情况是肝脏在致癌因子作用下导致肝细胞发生肿瘤恶变,称之为肝细胞性癌症。这种情况也是肝癌发生的大多数情况;第二种情况是胆管上皮细胞在致癌因子作用下产生突变发生恶化,属于胆管细胞肝癌;第三种情况是以上两种同时发生,我们把这种情况称之为混合细胞性肝癌。发生恶变的肝细胞无限制的增生,并侵犯周围的肝组织或转移到其他器官。正常的肝细胞有时也会发生增生,但这种增生是有条件的,一旦导致增生的因素去除或增生到一定的限度,肝细胞增生就会停止。长期以来,肝炎与肝癌之间的关系受到密切关注。首先从肝癌的全球流行情况来看,肝癌的高发区也是肝炎的高发区,例如,我国、东南亚地区及非洲的南部。相比之下,在欧洲和美国地区,肝炎发病率非常低,而肝癌发病率也很低。其次,在中国的肝癌病患中,90%以上的肝癌病患有过乙型肝炎(HBV)的病史。实验研究中在肝癌细胞内发现有乙肝的抗原,在肝癌细胞核的DNA中也检测出有乙肝病毒DNA成分的嵌入[9]。