2.2RNA的属性及特征向量的构造方法8 2.3确定RNA序列集10 2.4支持向量机简介11 2.5绩效评价11 2.6交叉验证测试12 第三章实验方法概述14 3.1NC法14 3.2基于统计特征
2.2RNA的属性及特征向量的构造方法 8
2.3确定RNA序列集 10
2.4支持向量机简介 11
2.5绩效评价 11
2.6交叉验证测试 12
第三章实验方法概述 14
3.1NC法 14
3.2基于统计特征的PSNP法 14
3.3基于统计特征的PSDP法 16
第四章结果与讨论 18
4.1数据测试结果及结论 18
4.2现阶段预测及展望 18
结语 20
致谢 21
参考文献 22
第一章绪论
1.1RNA甲基化研究的背景和意义
在高等生物里面,含量最多的并且以甲基化的形式存在的,那就是6-甲基腺嘌呤,英文名N6-methyl-adenosine,简称m6A[1]。其中,SAM类的甲基化转移酶经过催化作用形成了它的甲基化。m6A是信使RNA中的主要的甲基化形式,据目前研究得知,可能会参与信使RNA剪接、运输等加工的过程,但是信使RNA中m6A在生物学领域到底有什么用途并不是很清晰。科学家们从生化、基因组学、细胞学和模式生物学的多元化水平上,发现且确认了第二个m6A得去甲基化酶-与FTO同属的加双酶AlkB族的ALKBH5[2],更进一步的说明了可逆信使m6A甲基化调制控制信使RNA的表达水平和RNA代谢的过程;ALKBH5提高了小鼠生精小管的细胞中的信使RNA的m6A甲基化水平,进而造成了睾丸的萎缩,精子数量的减少,质量的降低,生育率的降低等病变,证实由ALKBH5介导的RNAm6A去甲基化调节控控精子发育等重要的生理功能[3]。
利用本文中提到的几种方法,这样可以改善了在规定的特征下的核苷酸性质的子集表示的方法,以此来提高m6A位点上面的预测性能。
m6A在许多重要的方面起着至关重要的作用来调节基因表达的生物过程。由于它广泛的分布在基因组中,从RNA序列鉴定的m6A位点的识别对于更好的了解m6A的调节机制具有重要的意义[2]。本次研究是基于统计学的原理对m6A甲基化位点进行识别、预测等研究。
1.2RNA甲基化国内外研究现状
其实,在信使RNA上面的腺嘌呤就有这个m6A,很早之前人们就发现了。这几年,研究人员发现了一种RNA甲基化,是可逆性的。紧接着,科学家们又找到了哺乳动物的转录组中的m6A的位置,研究了这种用在修饰的“读”,“写”和“擦除”的蛋白,发现了m6A经过转录后能够起到一些调节的作用[3]。有个新的技术,这个方法能够得到单核苷酸的分辨率图谱,是美国的康奈尔大学的研究团队发现的。著名的华人生物学家、芝加哥大学的何川教授在m6A研究方面也有重大发现,这其中主要描述的就是m6ARNA的甲基化还有m6A的“写入”蛋白,这些都是存在于真核生物里面的,还有就是在哺乳动物里面,还会存在m6A的“擦除”蛋白,还有m6A的“读取蛋白以及其在生理钟的产生的效应的以外的作用,还有就是m6A在生物学的领域所产生的巨大影响”[4]。
1.3论文主要工作
先了解经常使用的m6A甲基化位点识别的方法,学习有关统计特征的以及基于物理化学属性的特征识别方法,了解并学会使用SVM分类器,使用MATLAB编写程序来完成实验研究。采用统计的方法提取m6A甲基化数据集上的具有鉴别能力的特征向量,根据特征向量构建一个m6A位点检测的分类预测器,运用Jackknife进行交叉验证,通过Sp、Sn、ACC和MCC等指标对实验结果进行评价。主要内容:
(1)对m6A甲基化位点数据集上的样本抽取统计特征;
(2)构造建立基于特征的分类器,并确定分类器的参数;
(3)对公共数据集采用所设计分类器,进行交叉验证测试;
(4)对于公共数据集的实验所得到的结果进行评价和分析。
第二章RNA概述
2.1RNA的含义及表达方式
RNA的主要用途是把遗传信息呈蛋白质方式表达出来,它是利用DNA的一条链,然后通过碱基互补配对原则进行转录得到的,因此,RNA对于生物体的信息传递作用很大[5]。信使RNA的作用是以信使RNA为模板,运用自身所带的氨基酸进行生成蛋白。在病毒里,遗传物质是RNA,植物病毒也是RNA。这几年在还发现了浸染性的致病因子,他们比病毒还要小,都是在植物中发现的,这类致病因子管它叫类病毒.类病毒是一种单链RNA分子,它和病毒不同,是没有蛋白质的外壳的,除此之外,在真核细胞中还有两类RNA,分别是RNA(hnRNA)和RNA(snRNA)[6]。