基于生物信息学方法的荷花CPP-like基因家族的分子进化研究(3)

将多序列联配的结果输入到MEGA 4软件[22]中,再用邻接法(Neighbor-Joining,NJ)构建系统发生树,设置参数为 p 距离模型(p-distance model)和空位/缺失数据的成对删除


将多序列联配的结果输入到MEGA 4软件[22]中,再用邻接法(Neighbor-Joining,NJ)构建系统发生树,设置参数为 p 距离模型(p-distance model)和空位/缺失数据的成对删除模式(pairwise deletion of gaps/missing data),然后利用bootstrapping 方法对系统发生树进行检验评估。

1.4  正选择作用分析

正选择又称达尔文选择,是指将发生了有利突变的等位基因固定下来的选择作用。使得个体对与生存有关的某因素提高了适合度,同时也说明了新功能的产生。核苷酸的非同义替换率(dN)和同义替换率(dS)对揭示编码蛋白的进化过程起重要的作用。它们之间的的比值ω(=dN/dS)通常被用来衡量编码蛋白序列所受到的选择压力。有三种不同的选择情况:当ω>1时表示正选择(positive selection);当ω=1时为中性选择或自然选择压力(natural selection);当ω<1时为纯化选择压力(purifying selection)。首先使用Yang 及其同事[23-25]发展的极大似然法,在系统发生树中选出具有正选择作用的节点,并对每一个节点中的蛋白质序列进行多序列联配。然后使用PAML 4 软件[27]中的CODEML 程序,把多序列联配结果导入其中,再计算相应的非同义替换率与同义替换率的比值dN/dS(ω)。

选择“位点特异性”模型(site-specific model)中的密码子替换模型来计算系统发生树每个位点上的ω。用似然比测验(LRT)来比较差异显著性。本研究通过比较 M3(离散模型)对 M0(单个ω )模型来检验位点间是否存在不同的选择压力;再通过 M8 对 M7 模型确定经历过正选择压力的位点。如果 M8 对 M7 的似然比测验达到显著差异水平,且 M8 模型具有ω>1,再采用贝叶斯方法来估计正选择作用的位点[28]。

1.5  结构域的协同进化分析

在植物的CPP-like基因所编码的蛋白质序列中,一般含有两个保守的CXC结构域。并且两段结构域之间的序列也是高度保守的。本研究采用了 Goh 等[29]的方法来验证两段 CXC结构域在进化过程中是否协同进化。将包含两段CXC 结构域序列的蛋白质分成 5 个部分: N-末端序列、CXC 结构域 1、结构域之间的序列、CXC 结构域 2 和 C-末端序列。由于 N-末端序列和 C-末端序列的保守性较差,所以在本研究中重点考虑了 CXC 结构域 1、结构域之间序列和 CXC 结构域 2 之间的协同进化现象。

首先对这三段序列进行多序列联配,再用 MEGA 4软件来计算两两之间的进化距离。然后分别求出三段序列进化距离之间的相关系数(r)。若相关系数显著高于0,则是正向的协同进化,显著小于0的则是负向的协同进化,若等于0,则不存在协同进化。对得到的相关系数用bootstrapping和随机的方式进行显著性检验。

2  结果与分析

2.1  荷花基因组中的CPP-like基因

首先从NCBI数据库中找到大豆的CPP1和拟南芥的TSO1基因编码的蛋白质序列,然后利用这两段序列做检索,通过BLASTP搜索荷花NCBI基因组数据库,筛选出候选蛋白序列,最后用Pfam工具在候选蛋白序列中找出含有CXC结构域的,即属于CPP-like基因家族成员。经过检索,直到没有新的序列出现,在荷花基因组中一共找出六个基因(表1)。分别是NNU_007181、NNU_008957、NNU_005925、NNU_006109、NNU_003652和NNU_003457。其中基因NNU_003652的蛋白质长度最大为947,并且蛋白质分子量也最大为104.55 kD;基因NNU_003457的蛋白质长度最小为498,蛋白质分子量最小为53.35 kD; 鉴定得到的6个荷花CPP-like基因分布在3个scaffold上。其中Scaffold 2 和3 分别鉴定到 3 和 2 个CPP-like 基因。在前人的研究中,共从拟南芥中鉴定到8个CPP-like基因,从水稻中鉴定到11个。