分子进化树构建及数据分析方法介绍【转】

网址

说明

ClustalX

图形化的多序列比对工具

ClustalW

命令行格式的多序列比对工具

GeneDoc

多序列比对结果的美化工具

BioEdit

序列分析的综合工具

MEGA

图形化、集成的进化分析工具，不包括ML

PAUP

商业软件，集成的进化分析工具

PHYLIP

免费的、集成的进化分析工具

PHYML

最快的ML建树工具

PAML

ML建树工具

Tree-puzzle

较快的ML建树工具

MrBayes

基于贝叶斯方法的建树工具

MAC5

基于贝叶斯方法的建树工具

TreeView

进化树显示工具

另外，构建NJ或者MP树需要先将序列做多序列比对的处理。作者推荐使用ClustalX进行多序列比对的分析。多序列比对的结果有时需要后续处理并应用于文章中，这里作者推荐使用GeneDoc工具。而构建ML树则不需要预先的多序列比对。
因此，作者推荐的软件组合为：MEGA 3.1 + ClustalX + GeneDoc + BioEdit。
数据分析及结果推断一般碰到的几类问题是，（1）推断基因/蛋白的功能；（2）基因/蛋白家族分类；（3）计算基因分化的年代。关于这方面的文献非常多，这里作者仅做简要的介绍。
推断基因/蛋白的功能，一般先用BLAST工具搜索同一物种中与不同物种的同源序列，这包括直向同源物（ortholog）和旁系同源物（paralog）。如何界定这两种同源物，网上有很多详细的介绍，这里不作讨论。然后得到这些同源物的序列，做成FASTA格式的文件。一般通过NJ构建进化树，并且进行Bootstrap分析所得到的结果已足够。如果序列近缘，可以再使用MP构建进化树，进行比较。如果序列较远源，则可以做ML树比较。使用两种方法得到的树，如果差别不大，并且Bootstrap总体较高，则得到的进化树较为可靠。
基因/蛋白家族分类。这方面可以细分为两个问题。一是对一个大的家族进行分类，另一个就是将特定的一个或多个基因/蛋白定位到已知的大的家族上，看看属于哪个亚家族。例如，对驱动蛋白（kinesin）超家族进行分类，属于第一个问题。而假如得到一个新的驱动蛋白的序列，想分析该序列究竟属于驱动蛋白超家族的14个亚家族中的哪一个，则属于后一个问题。这里，一般不推荐使用MP的方法。大多数的基因/蛋白家族起源较早，序列分化程度较大，相互之间较为远源。这里一般使用NJ、ME或者ML的方法。
计算基因分化的年代。这个一般需要知道物种的核苷酸替代率。常见物种的核苷酸替代率需要查找相关的文献。这里不作过多的介绍。一般对于这样的问题，序列多数是近缘的，选择NJ或者MP即可。如果使用MEGA进行分析，选项中有一项是“Gaps/Missing Data”，一般选择“Pairwise Deletion”。其他多数的选项保持缺省的参数。
总结在实用中，只要方法、模型合理，建出的树都有意义，可以任意选择自己认为好一个。最重要的问题是：你需要解决什么样的问题？如果分析的结果能够解决你现有的问题，那么，这样的分析足够了。因此，在做进化分析前，可能需要很好的考虑一下自己的问题所在，这样所作的分析才有针对性。
序列比对建议用ClustalX
建NJ或MP树，用MEGA就可以了，非常方便
若要建ML树推荐用phyML
建Bayes树推荐用Parallel MrBayes
图****1 ****在****GC****含量和嘌呤含量极端状态下****4****个微生物基因组的氨基酸组分分布
1.1 密码表的分区和基本内涵
遗传密码表可按对于变化的敏感性分为4个四分区(或称1/4区, 见图2): AU富集、GC富集和两个GC不敏感区(GCP1和GCP2区). 如果暂时忽略第三位的变化, 可以看出AU和GC富集区对变化非常敏感. 还可以根据在这个区里的分布预测第二位的大于第一位的(GC2>GC1), 因为GCP2区里含有终止, 尽管使用偏好可能使真实统计变得复杂些. 在AU富集区里编码的氨基酸具有理化性质的多元性, 共有16个. 除了编码7个氨基酸外, 还编码两个终止和一个起始. 比较而言, GCP1和GCP2区分别只编码6个氨基酸, 而GC富集区则只编码4个氨基酸. AU富集区只占编码总量的1/4, 却含有足够多的信息, 使得很容易推测这个区可能在生命的早期(只有A和U存在时)作为原始的遗传密码来编码简单的蛋白质组分或更简单的多肽. 正是这些简单的蛋白质使原始生命体的分子机制和细胞过程开始变得复杂和多元.
新表按照对嘌呤含量变化的敏感性可划分成两个半区. 同时, 也可按照编码氨基酸在三联第三位(CP3位)嘌呤和嘧啶(Y)间的变化再分为四重简并和两重简并(两个特例为AUR和UGR). 基于它们对所编码氨基酸功能的暗示, 将这两个半区分别叫做趋变半区(Pro-diversity)和趋棒半区(Pro-robustness), 简称为PD半区和PR半区. 这种清晰的划分使人们能进一步观察、分析和预测DNA序列变化与(氨基酸)的关系. 首先值得关注的是具有六联码(六重简并)的3个氨基酸: 丝氨酸(Ser)、精氨酸(Arg)和亮氨酸(Leu). 它们的四联部分和二联部分恰好都分布在两个不同的半区里, 因此它们可以通过内部间的转换分别平衡在所跨的半区里的分布(图2(C)). 因为它们的简并性, 可以预测它们是所有物种中相对最富集的氨基酸. 该分布也可以用这3个氨基酸的特殊物理化学性质(如重要催化残基)和独特功能域骨架(如Leucine zipper和SR富集功能域等)在细胞蛋白质组中的丰度来解释. 另外, 所有的无义均分布在PD半区. 当变化时, UAA, UAG和UGA会转变成其他氨基酸, 具有在3′末端扩展蛋白质长度的潜力. 另外, 由于分布在密码表多个区域, 两个碱性氨基酸Arg和赖氨酸(Lys)对变化具有鲁棒性. 而两个酸性氨基酸, 天门冬氨酸(Asp)和谷氨酸(Glu), 同时分布在GCP2区对变化不敏感, 同样可以预测它们在蛋白质的中丰度会较高, 同时两者的化学性质具有很高的相似性, 成为典型的伪四联码(Pseudoquartet). 最后, 脯氨酸(Pro)处于GC富集区的角落处, 只有当通常较高时才会在蛋白质组中多见, 用它的肽键所形成的小拐角来取代多个氨基酸所形成的大拐角. 总之, 在DNA组分变化时, 20种氨基酸也随之发生有规律的变化, 造成蛋白质组(几乎所有的蛋白质)的鲁棒性和多元化, 这些互动和变化的规律一定受限于氨基酸的物理化学性质和蛋白质的生物功能, 最后形成了一种相对稳定的关系, 这就是密码表所要体现的关系.

图****2**** ****重新排布的遗传密码表和按照****GC****含量和****AG****含量遗传密码表的两种划分方式
R: 嘌呤; Y: 嘧啶; St: 终止; Sr: 起始
1.2 遗传密码形成的基本要素
重新排布的密码表揭示了的分布与变化的直接关系(真细菌基因组的的波动幅度在20%~80%之间). 首先以变化作为初始参数, 可以把遗传密码分成两部分. 其次, 高的遗传密码多为四联码, 它们的形成是为了缓解增加的影响(CP3位), 减轻DNA突变压力, 因为GC富集区编码的氨基酸很少参与催化活性以及起始和终止信号. 另外, 物理化学性质多样性的氨基酸和信号密码子大多集中在AU富集区. 同时, GC不敏感区的功能主要是保护功能丰富性氨基酸, 而最原始的理化性质往往已经被其他分布所平衡, 例如亮氨酸(Leu)和丙氨酸(Ala)已经在AU富集区和GC富集区间造成疏水性氨基酸间的平衡.
嘌呤含量变化是第二个需要考虑的因素. 其实真细菌基因组嘌呤含量的波动在40%~60%之间, 并非Chargaff规则所说的50%[7,8]
. 图3展示了真细菌基因组和嘌呤含量变化的基本关系. 根据对嘌呤含量的敏感性将密码表划分PD和PR两个半区, 这种划分清晰地把四重简并密码和其他密码划分开来. 趋棒半区的5个氨基酸(六重简并的除外)具有低多样性和高突变稳定性的特点, 每一个氨基酸都在表中其他位置有物理化学性质相近的其他氨基酸, 变化仅仅体现在某些细微的程度上(Subtlety).
重排密码表的另一个显著特点是把那些体积最小但理化性质特异的氨基酸分布在DNA组分变化时不大容易发生的区域(变化均为颠换而不是转换). 假如按照大小作为参数排列这4个最小的氨基酸, 甘氨酸(Gly)(侧链体积60.1和表面积75), Ala(88.6和115), Ser(89和115)和半胱氨酸Cys(108.5和135), 其他氨基酸都比这4个氨基酸大.

图**** 3 ****真细菌基因组****GC****含量和嘌呤含量变化的基本关系
1.3 密码子合理分布的最终目的是平衡蛋白质组分的多样性和对DNA突变的鲁棒性
遗传密码分布的实质是体现一种平衡, 一种既可利用DNA突变来增加蛋白质组的多样性又可利用密码子的分布来减轻突变所造成损失的能力. 尽管遗传密码表可划分GC与嘌呤的敏感性和不敏感性、氨基酸多样性和简并性、突变敏感性和突变耐受性, 但是这些划分并没有任何明显的倾向性. 可以预见这个平衡有时也会遭到严重破坏, 比如到极至和真细菌的嘌呤含量也超过Chargaff规则时[9]
, 这种压力就会毫无保留地体现在蛋白质序列的改变上. 但在密码表嘌呤敏感(PD和趋变)半区的氨基酸之间也具有某些补救性的分布. 例如Asp和Glu就位于同一个四分区, 当只有负电荷变得重要(大小和容积不太要求)时, 嘌呤和嘧啶在CP3位置变化的影响就被弱化了. 扩展来说, 在PD半区有几种相似的情况出现, 包括Q/H(尺度)、M/I(疏水性)、L/F(疏水性)、R/S(极性)、W/C(极性)和K/N(极性)(表1). 这种分析体现了很强的合理性, 目前还没有发现在同一分组(四联位)中编码的氨基酸具有混合特征, 如: 疏水性对亲水性, 极性对非极性等. 因此, 密码表的这些基本排布原则, 称之为“最小损伤原则”(Minimal Damage Principle).
**2 **关于遗传密码起源的种种假说和新的
关于密码子的起源和一直是科学界广泛探讨的一个重要话题, 多年来的主要研究进展包括凝固事件假说、共假说和立体化学假说等[10~19]
, 以及本研究组最近提出的关于密码分步的新推测[20,21]
.
2.1 共假说
共假说(Co- Hypothesis)提出标准密码(Canonical Code)是从早期原始的简单密码而来的. 这个原始的密码可能是由64个密码子通过高度简并, 只编码少量的氨基酸. 现在的氨基酸密码可能是通过篡夺和它具有相近生物合成路径氨基酸的密码而得到的[10~14]
.
L. Klipcan[13]
提出假设氨酰tRNA合成酶(AARS)和氨基酸及其辅因子的生物合成存在关联性, 并指出Class II 的AARS 相对应的氨基酸较早出现, 而Class I 的AARS对应的氨基酸在上出现较晚. 他还指出最原始的遗传密码可能是5个基本氨基酸Ala, Gly, Ser, Asp, Glu和缬氨酸(Val). 所有这些氨基酸均是GC富集和相应的生物合成路径最短和最简单的氨基酸, 以及相应的AARS属于Class II. 接着引入4~5个氨基酸对应遗传密码的扩展, 分别为天门冬酰胺(Asn)、苏氨酸(Thr)、Pro和谷氨酰胺(Gln). 另一个可能是Arg, 这些氨基酸生物合成路径的复杂性基本处于中间位置. 第三阶段所有编码的氨基酸均被引入, 这次引入的氨基酸和Class I 的AARS有很强的相关性, 同时这些氨基酸使用的遗传密码多含尿嘧啶, 最后引入的氨基酸合成通常需要非常长的代谢途径.
B.K. Davis[14]
通过氨基酸生物合成路径长度和其他关于密码分配时间分子描述符比较来检验和构建密码的的主要阶段, 认为密码树来源于16个三联体密码(NAN系列)对应于4个固N氨基酸 (Asp, Glu, Asn, Gln). 通过这些氨基酸的寡聚化形成包含多聚阴离子氨基酸的肽链把不带电荷氨基酸定位于带正电荷的矿物质表面. 为了降低基因突变导致基因编码不可解读的危险性，遗传密码需要进一步扩展. 这一步通常起始于翻译序列5'端密码, 对应疏水性氨基酸NUN系列密码分配相对较慢, 它编码大部分非极性氨基酸. 最后带正电荷和芳香性氨基酸最后被引入, 自此具有酸碱催化功能的酶的合成也成为可能, 对应的两种类型氨酰tRNA合成酶应该出现在这一时期.
2.2 立体化学假说
立体化学假说指出密码子的分配直接与RNA和氨基酸之间的化学作用密切相关, 因此密码的立体化学本质扩展到氨基酸和相应的密码子之间的物理和化学方面的互补性[15~19]
.
Wu[17]
提出一个简单密码的新假设, 基于翻译过程中每一步3个碱基的读码机制包含从单体到双联体密码再到三联体密码子的过程. 建议三联体密码是从两种类型双联体密码逐渐得来的, 这两种双联体密码划分是按照三联体密码中固定的碱基位置划分的, 包括前缀密码子(Prefix s)和后缀密码子(Suffix s). 这个假设可以解释遗传密码多种特征, 如其中包含四重简并三联体密码和两重简并三联体密码的模式, 翻译错误最小化性质的本质和为什么只有20个编码的氨基酸.
Delarue[18]
按照tRNA的氨酰基化机制把密码子的分配表当成一个典型的反对称分布模式, 这种模式可以通过连续的二元决定阈逐步降低密码子的模糊性, 可以通过定义一个简单的规则, 使每个密码子的解码可以按照二元分类方式, 从而提供相应密码和密钥. 按照模型密码子的最终分化步骤包括: (1) Y/R 在密码子的第二个位置打破对称性分配; (2) 在密码子的第二个位置按照 G/A 和 C/U特殊性; (3) R/Y在密码子的第一个碱基位置对称性打破; (4) 在密码子的第一个碱基位置对称打破A/G和C/U; (5) Y/R在密码子的第三个位置按照对称性打破.
按照分子识别理论,通过无义密码和有义密码矩阵、反义和反无义密码矩阵以及与疏水性矩阵的比较, 可以明显地把氨基酸分成两个组: 疏水性和亲水性组, 这个划分直接与蛋白质的折叠相关. 初始的遗传密码只区分这两种类型的氨基酸, 使蛋白质具有折叠成稳定三维结构的能力, 这种多肽与RNA分子形成核糖体蛋白复合物来稳定编码RNA. Houen[
19]
指出, 基于上述推断原始的密码子包括Leu, Arg和Ser. 遗传密码的进一步扩展增加功能性亲水氨基酸, 因为暂时还没有增加结构疏水性氨基酸的必要性. 在遗传密码的某一阶段, 双链DNA作为遗传信息的载体取代RNA, 此过程需要高度特异性的酶体系, 因此需要对遗传密码进行进一步优化而引入其他氨基酸.
**2.3 **遗传密码的
基因密码与人造密码具有相似性, 即需要成对的算法和两个相应的解码钥匙共同创造和完成解码工作, 基因密码的算法和钥匙的组成材料是由两个细胞空间的成分组成: 细胞核和细胞质. 细胞核的成分是DNA(Text1)和三重密码子(Key1)共同组成遗传密码(Algorithm1), 胞质里的成分包含蛋白质(Text2)和mRNA-ribosomes-tRNA 组成的复合体(Algorithm2), 通过氨酰tRNA合成酶(Key2)进行解码, 使mRNA序列所承载的编码内容被解码(图4). 这个过程是通过长期演变出来的分子机制和细胞过程统一实施的.

图**** 4 ****遗传密码****(A)****和文本密码****(B)****的比较
图**** 5 ****遗传密码的
最初形成的遗传密码应该仅仅由腺嘌呤A和尿嘧啶U来编码, 共编码7个多元化的氨基酸, 随着生命复杂性的增加, 鸟嘌呤G从主载操作信号的功能中释放出来, 再伴随着C的引入, 使遗传密码逐步扩展到12, 15和20个氨基酸
因为初始密码的核心作用, 有必要再拓展一下讨论. 认为初始密码的简单化是由初始翻译机器的原始性来决定的. 第一个AARS可能首先被作为蛋白质加工机器的组成部分(如核糖体的亚基之一), 它可以: (1) 不区别氨基酸的微妙差别, 或只识别简单的部分; (2) 将氨基酸底物按核糖体的排列随机加在肽链上; (3) 与氨基酸的代谢途径耦联, 受底物浓度的影响. 显然, 这个部分的分离是蛋白质复杂性增加的关键, 随后AARS不得不从蛋白质合成机器上分离出来, 对底物的专一性产生并不断增加, tRNAs也随之远离核糖体. 由于初始RNA编码的多肽通常用于细胞的完整性和对遗传物质的保护, 所以可以确信蛋白质的初始功能是与RNA结合和稳定膜的结构, 因此初始氨基酸必然是碱性、芳香性和疏水性的氨基酸. AARS的分离和独立是为了保证蛋白质成分的多样性, 也就是功能的多样性. AARS的树进一步成为本研究推断的佐证[30,31]
. 比如, AARS必须区分两个极性氨基酸Asn和酪氨酸(Tyr)、两个芳香性氨基酸Phe和Tyr, 但是对于Leu, Ile和甲硫氨酸(Met)则没有必要区分, 因此AARS两个家族的分化和本推论是完全一致的.
(2) 遗传密码的第一次拓展. 对于遗传密码的延伸, 引入新的构建元件, 本文有两个基本假定: 鸟嘌呤G的引入和A(腺嘌呤)-I(次黄嘌呤)编辑机制的作用, 这两种假设给原始的mRNA提供了显著的结构多样性和编码能力. 尽管这两种假设并不互相排斥, 两者之间可能独立或同时存在, 只是为了简单化才把它们分别进行讨论. 首先, G引入到转录本中存在有限的途径(同时作为蛋白质合成的能源和过程信号), 由于AG和GU作为剪切体的识别信号, 因此密码子的扩展只限于色氨酸(Trp), Glu, Asp, Cys和Gly. 这些扩展的氨基酸彼此之间具有显著不同的侧链理化性质: Trp是最大的氨基酸, Asp和Glu是带负电荷的氨基酸, Cys是可形成二硫键的氨基酸, Gly是最小的氨基酸. Glu, Asp和Cys的出现为蛋白质自身结构的稳定性和独立性提供了必要的结构单元. 其次, A-I的可选择性和经常性的RNA编辑使mRNA的复杂性不断增加. A和I的同时存在, 使密码子扩展到更多氨基酰-tRNA. 这个推断得到AARS分布的支持, 氨基酸的拓展和AARS家族的分类具有同步的规则, 而且核苷酸的修饰作用也被后续的生命机制所延续, 如tRNA反密码子和mRNA的摆动机制.

分子进化树构建及数据分析

另外，构建NJ或者MP树需要先将序列做多序列比对的处理。作者推荐使用ClustalX进行多序列比对的分析。多序列比对的结果有时需要后续处理并应用于文章中，这里作者推荐使用GeneDoc工具。而构建ML树则不需要预先的多序列比对。
因此，作者推荐的软件组合为：MEGA 3.1 + ClustalX + GeneDoc + BioEdit。
三、数据分析及结果推断一般碰到的几类问题是：
（1）推断基因/蛋白的功能；
（2）基因/蛋白家族分类；
（3）计算基因分化的年代。
关于这方面的文献非常多，这里作者仅做简要的介绍。
推断基因/蛋白的功能，一般先用BLAST工具搜索同一物种中与不同物种的同源序列，这包括直向同源物（Ortholog）和旁系同源物（Paralog）。如何界定这两种同源物，网上有很多详细的介绍，这里不作讨论。然后得到这些同源物的序列，做成FASTA格式的文件。一般通过NJ构建，并且进行Bootstrap分析所得到的结果已足够。如果序列近缘，可以再使用MP构建，进行比较。如果序列较远源，则可以做ML树比较。使用两种方法得到的树，如果差别不大，并且Bootstrap总体较高，则得到的较为可靠。
基因/蛋白家族分类。这方面可以细分为两个问题。一是对一个大的家族进行分类，另一个就是将特定的一个或多个基因/蛋白定位到已知的大的家族上，看看属于哪个亚家族。例如，对驱动蛋白（kinesin）超家族进行分类，属于第一个问题。而假如得到一个新的驱动蛋白的序列，想分析该序列究竟属于驱动蛋白超家族的14个亚家族中的哪一个，则属于后一个问题。这里，一般不推荐使用MP的方法。大多数的基因/蛋白家族起源较早，序列分化程度较大，相互之间较为远源。这里一般使用NJ、ME或者ML的方法。
计算基因分化的年代。这个一般需要知道物种的核苷酸替代率。常见物种的核苷酸替代率需要查找相关的文献。这里不作过多的介绍。一般对于这样的问题，序列多数是近缘的，选择NJ或者MP即可。如果使用MEGA进行分析，选项中有一项是“Gaps/Missing Data”，一般选择“Pairwise Deletion”。其他多数的选项保持缺省的参数。
四、总结在实用中，只要方法、模型合理，建出的树都有意义，可以任意选择自己认为好一个。最重要的问题是：你需要解决什么样的问题？如果分析的结果能够解决你现有的问题，那么，这样的分析足够了。因此，在做进化分析前，可能需要很好的考虑一下自己的问题所在，这样所作的分析才有针对性。
※※※名词解释※※※
1.FASTA
在生物信息学中，FASTA格式（又称为Pearson格式），是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。
2.MAFFT
主站：
维基百科：
3. Bootstrap（摘自百度）
即自展值，是用来检验你所计算的分支可信度的。简单地讲就是把序列的位点都重排，重排后的序列再用相同的办法构树，如果原来树的分枝在重排后构的树中也出现了，就给这个分枝打上一分，如果没出现就给0分，这样经过你给定的repetitions次（至少1000次）重排构树打分后，每个分枝就都得出分值，计算机会给你换算成bootstrap值。重排的序列有很多组合，值越小说明分枝的可信度越低，最好根据数据的情况选用不同的构树方法和模型。
4.CDS****序列（摘自百度）
CDS(coding sequence)序列是编码序列，是用来编码蛋白质的那段序列，是mRNA的一部分。通常外显子指的是编码蛋白序列。严格地说，外显子是指保留在初级mRNA中不被剪切掉的区域，包括5’非翻译区(5’UTR)、编码序列和3’非翻译区(3’UTR)。所以mRNA的外显子的概念应该要大于CDS序列的范畴。
问：知道了基因的mRNA，怎样通过mRNA找到它的内含子序列......
要看这个物种是不是已经全基因组测序了……如果已经有了全基因组测序，就可以把整个mRNA序列拿去Genbank去blast（大概应该是那个RNA到DNA的，还可以试一下蛋白blast DNA的，有时候这个blast会比较准），然后把两个高同源的部分中间的部分复制粘贴下来就行了，如果需要实际拿到序列就根据两边的外显子（如果短）或者中间的部分序列（如果长）设个引物，用提取的核基因组做模板扩一下就行了。如果没有，那就只好找一个亲缘关系比较近的、已有全基因组测序结果的物种重复一下上面的blast，然后根据中间的长度估一下扩增的条件，然后用两端的外显子设一下引物去扩增获得产物去测序，从而获得内含子序列。
本文地址：丁香通（稍作修改）
1.欧洲生物信息中心
2.核酸和蛋白质序列分析方法汇总

EditPlus Text Editor

二、导入到Mega 5软件
（1）打开Mega 5软件，界面如下

（2）导入需要构建系统发育树的目的

OK
选择分析类型（如果是DNA，点击DNA，如果是蛋白，点击Protein）

出现新的对话框，创建新的数据文件

选择类型

导入

导入成功。
（3）比对分析

点击工具栏中“W”工具，进行比对分析，比对结束后删除两端不能够完全对齐碱基

（4）系统发育分析

关闭窗口，选择保存文件路径，自定义文件名称

三、系统发育树构建

根据不同分析目的，选择相应的分析算法，本例子以N—J算法为例

Bootstrap 选择1000，点击Compute，开始计算

计算完毕后，生成系统发育树。

根据不同目的，导出分析结果，进行简单的修饰，保存

1
M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTT

2
M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT

3
M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT

4
Homo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT

5
Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT

6
Pongo AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT

7
Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT

8
Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT

2、双击进入CLUSTALX程序，点FILE进入LOAD SEQUENCE，打开test.seq（或txt）文件。

3、点ALIGNMENT，在默认alignment parameters下，点击Do complete Alignment 。在新出现的窗口中点击ALIGN进行比对，这时输出两个文件（默认输出文件格式为Clustal格式）：比对文件test.aln和向导树文件test.dnd。

4、点FILE进入Save sequence as,在format 框中选PHYLIP，文件在PHYLIP软件目录下以test.phy存在，点击OK。
5、将PHYLIP软件目录下的test.phy文件拷贝到EXE文件夹中。用计事本方式打开的test.phy文件的部分序列如下：

图中的8和50分别表示8个序列和每个序列有50个碱基。
二、用PHYLIP软件推导。1、进入EXE文件夹，点击SEQBOOT软件输入test.phy文件名，回车。

图中的D、J、R、I、O、1、2代表可选择的选项，键入这些字母，程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择，分别是Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法对进行评估，所谓Bootstraping法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。这样，一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个。将生成的许多进行比较，按照多数规则（majority-rule）我们就会得到一个最“逼真”的进化树。Jackknife则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列。Permute是另外一种取样方法，其目的与Bootstrap和Jackknife法不同，这里不再介绍。R选项让使用者输入republicate的数目。所谓republicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate，此处选200，输入Y确认参数并在Random number seed (must be odd) ?的下面输入一个奇数（比如3）。当我们设置好条件后按回车，程序开始运行，并在EXE文件夹中产生一个文件outfile，Outfile用记事本打开如下：

这个文件包括了200个republicate。
2、文件outfile改为infile。点击DNADIST程序。选项M是输入刚才设置的republicate的数目，输入D选择data sets，输入200。

设置好条件后，输入Y确认参数。程序开始运行，并在EXE文件夹中产生outfile，部分内容如下：

将outfile文件名改为infile，为避免与原先infile文件重复，将原先文件名改为infile1。
3、EXE文件夹中选择通过距离矩阵推测进化树的算法，点击NEIGHBOR程序。输入M更改参数，输入D选择data sets。输入200。输入奇数种子3。

输Y确认参数。程序开始运行，并在EXE文件夹中产生outfile和outtree两个结果输出。outtree文件是一个树文件，可以用treeview等软件打开。outfile是一个分析结果的输出报告，包括了树和其他一些分析报告，可以用记事本直接打开。部分内容如下：

4、将outtree文件名改为intree，点击DRAWTREE程序，输入font1文件名，作为参数。输Y确认参数。程序开始运行，并出现Tree Preview图。

5、点击DRAWGRAM程序，输入font1文件名，作为参数。输Y确认参数。程序开始运行，并出现Tree Preview图。

6、将EXE文件夹中的outfile文件名改为outfile1，以避免被新生成的outfile 文件覆盖。点击CONSENSE程序。输入Y确认设置。EXE文件夹中新生成outfile和outtree。Outfile文件用记事本打开，内容如下：

7、将EXE文件夹中的intree文件名改为intree1，将outtree改intree。点击DRAWTREE程序，输入font1文件名，作为参数。输Y确认参数。程序开始运行，并出现Tree Preview图。

8、点击DRAWGRAM程序，输入font1文件名，作为参数。输Y确认参数。程序开始运行，并出现Tree Preview图。

在线网站地址：
这款软件发表在Nucleic Acids Research，下面是论文的相关信息：
EvolView, an online tool for visualizing, annotating and managing phylogenetic sHuangkai Zhang, Shenghan Gao, Martin J. Lercher, Songnian Hu1, and Wei-Hua Chen
EvolView is a web application for visualizing, annotating and managing phylogenetic s. First, EvolView is a phylogenetic viewer and customization tool; it visualizes s in various formats, customizes them through built-in functions that can link information from external datasets, and exports the customized results to publication-ready figures. Second, EvolView is a and dataset management tool: users can easily organize related s into distinct projects, add new datasets to s and edit and manage existing s and datasets. To make EvolView easy to use, it is equipped with an intuitive user interface. With a free account, users can save data and manipulations on the EvolView server. EvolView is freely available at: .

果蝇性染色体的进化过程追踪

Drosophila
常被用来进行遗传研究，因为其寿命比较短，而且在实验室可以很容易繁殖，其突变体可以被广泛使用。目前有1500中已知的种。近日一项刊登在Science上的研究追踪了一对的历程，这对染色体大约在100万年之前出现。
的X、Y染色体和人类的很像，在尺寸和基本序列上存在很多不同；人类的染色体对被认为是出现于200万年之前，Y染色体仅仅包含有50个基因，而X染色体包含着将近1000个基因。在许多物种中，从常染色体到的发生的时间非常之久，而且难以追踪。
来自加州大学的研究者通过研究属米兰达（miranda flies）的全基因组，试图去寻找的过程。
当近X和近Y染色体形成的时候，大约3000个基因和相关，雌性X染色体有两个拷贝，而雄性X和Y各有一个拷贝。在数百万年的之中，Y染色体显现出大的退化迹象，有近乎三分之一的Y染色体失去了功能。随着基因失去功能，Y染色体上的其它基因开始变得对雄性更加有益，并且表达诸如男性的一些标志性特征，如前列腺以及睾丸等。相似的也发生在X染色体上，随之表现而来的是基因表达成为特定的雌性组织。
基因表达的过程对于雌性比较有益，因为雄性仅仅含有一个拷贝的X染色体，相比Y染色体而言，X染色体的表达分配会更慢一些。然而X染色体的并不缓慢，当然包括一些大事件的发生，比如其它染色体上的基因掺入X染色体中。
研究者Bachtrog表示，中某些也会转变成为常染色体，而且很有可能米兰达的Y染色体最终会消失，或者有可能另外一种决定性别的机制正在之中。
相关文献：
Sex-Specific Adaptation Drives Early Sex Chromosome Evolution in
Most species’ sex s are derived from ancient autosomes and show few signatures of their origins. We studied the sex s of miranda, where a neo-Y originated only approximately 1 million years ago. Whole-genome and transcriptome analysis reveals massive degeneration of the neo-Y, that male-beneficial genes on the neo-Y are more likely to undergo accelerated protein , and that neo-Y genes evolve biased expression toward male-specific tissues—the shrinking gene content of the neo-Y becomes masculinized. In contrast, although older X s show a paucity of genes expressed in male tissues, neo-X genes highly expressed in male-specific tissues undergo increased rates of protein if haploid in males. Thus, the response to sex-specific selection can shift at different stages of X differentiation, resulting in masculinization or demasculinization of the X-chromosomal gene content.
全文链接：