刘小泽写于19.4.10
学习癌症知识不可避免要遇到一个问题,什么是somatic mutation?什么是germline?和SNV、CNV又有什么关系?SNP和SNV是一回事吗?还有非同义突变、错义突变、无义突变又是怎么一回事?这些生物变异相关的背景知识逃不过躲不掉,终究要知道
首先来看somatic和germline mutation
看三个问题:
1 肿瘤样本和正常样本哪里不同?这个问题的解决就是"call mutation"过程(可以用
GATK、varscan、freebayes
)2 得到的突变都是患者本身发生的吗? 这个问题的解决就是"call somatic mutation"。这个因为在癌症研究中,初步得到的变异是患者包含从父母那里得到的变异(germline变异或胚系突变),还有一部分是我们真正关心的患者本身因为环境因素等造成的变异(somatic变异或体细胞突变)。实际操作中一般都是得到肿瘤与正常配对组织一起进行WGS或WES测序,这样做的目的就是过滤掉从亲本得到的germline 变异,获得真正属于研究对象的somatic变异,也就是我们想看的(可以用
Varscan、SomaticSniper、MuTect2、MuSE、Strelka
可以检测,其中前四个是TCGA使用的)。
第一次接触这两个词是从GATK软件中,开始并不清楚什么意思,只能找图片帮助理解,于是看到这一张:
先上英文解释:
- Somatic mutations – occur in a single body cell and cannot be inherited (only tissues derived from mutated cell are affected)。体细胞突变基因简称SMGs
- Germline mutations – occur in gametes and can be passed onto offspring (every cell in the entire organism will be affected)
关于基因变异Genetic Variation的分类:
- 单核苷酸畸变Single Nucleotide Aberrations
- SNPs:single nucleotide polymorphism单核苷酸多态性=》mutations shared amongst a population
- SNVs:single nucleotide variation单核苷酸变异=》private mutations
- 短插入缺失:Short Insertions or Deletions (indels):插入或缺失小于50bp的small indel(也有文献是25bp)
- 拷贝数变异:Copy Number Variations (CNVs):片段扩增或缺失
-
结构变异:Larger Structural Variations (SVs):基因组水平上大片段插入、缺失、倒置、易位等,其中易位包括染色体内部迁移和染色体间的迁移
点突变:SNV与SNP
实体肿瘤中95%的突变为单个碱基的替换
这两个经常分不清楚,但共同点在于都是针对单个碱基;
不同点在于:
- SNV:就是个体存在的变异位点,是一种低频突变,在群体中没有被证实
- SNP:有一个"群体"的概念包含其中,就是说一个群体中的任何个体都存在变异可能,而且是一种高频突变。信息储存在dbSNP ()
知道了频率的定义,那么这个数值怎么界定呢?这个就依据不同文献了,有的文献定为5%,有的定为1%,即位点突变频率低于1%是低频,反之为高频
因此可以看到,SNP更倾向于反应一个群体的突变频率=》多态性;SNV检测的是针对个体,它也是应用在somatic变异检测中的指标之一
点突变又分为=》同义突变|错义突变|无义突变
- 同义突变(silent mutation, same-sense or synonymous mutation):密码子是有简并性的,因此单个碱基的替换可能只改变了mRNA上特定的密码子,但是不改变翻译时氨基酸的正常编码
- 非同义突变又包括错义突变和无义突变
-
错义突变(missense mutation or non-synonymous mutation):单个核苷酸改变导致一个密码子编码一个不同的氨基酸
(可以利用基于蛋白质序列的保守程度的SIFT
和基于序列、结构特性的Polyphen2
、只用于错义点突变的MutationAssessor
、整合前三者的OncodriveFM
等进行功能预测) - 无义突变(non-sense mutation):一个密码子变为终止密码子引起多肽链合成提前终止,产生的蛋白大都失去了活性或丧失了正常的功能。
-
错义突变(missense mutation or non-synonymous mutation):单个核苷酸改变导致一个密码子编码一个不同的氨基酸
CNV 拷贝数变异
-
基因组发生重排而导致的,长度1k以上,可以按照CNV对否致病分为:致病性CNV、非致病性CNV和不明临床意义CNV。
-
CNV突变率较高,大约是DNA点突变的100-10000倍
-
目前全基因组范围内研究CNV的方法主要有:基于芯片的比较基因组杂交技术(Array CGH, aCGH)、SNP分型芯片、NGS染色体异常检测
小结:
体细胞变异主要联合分析配对肿瘤和正常样本序列,然后看:SNV、CNV、InDel
最后是人类基因变异的一些参考数据库
-
The 1000 Genomes Project
- SNPs and structural variants from 2500 individuals from about 25 populations
-
HapMap
- identify and catalog genetic similarities and differences
-
dbSNP
- Database of SNPs and multiple small-scale variations
-
COSMIC
- Catalog of Somatic Mutations in Cancer
-
TCGA
- The Cancer Genome Atlas researchers are mapping the genetic changes in 33 cancer types
-
ClinVar
- ·
- aggregates information about sequence variation and its relationship to human health