深入解析:基因测序的基本原理及应用

更新:11-09 名人轶事 我要投稿 纠错 投诉

各位老铁们,大家好,今天由我来为大家分享深入解析:基因测序的基本原理及应用,以及的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!

1. 第一代测序(Sanger测序)

关键词:双脱氧测序、末端终止测序

1.1 正常DNA的合成过程

在模板链和引物存在的情况下,核糖体RNA分别将四种脱氧核糖酸(dNTP)转运至引物末端。然后根据互补碱基配对的原理脱水形成5"-3"磷酸二酯键

正常的DNA合成过程

1.2 Sanger测序原理

采用链终止法,即将脱氧核糖酸(dNTP)和双脱氧核糖(ddNTP)同时加入到反应体系中。两者都可以随机整合到模板链中形成DNA,但由于缺少羟基(-OH),ddNTP的反应在整合到模板链中时随机终止。利用ddNTP的这一特性,结合电泳条带的检测或利用光源信号传输即可获得序列。

ddNTP 与引物结合后,反应无法继续。

ddNTP随机组合产生不同长度的带

每个系统都进行电泳以分别读取信号。

利用光信号转换读取

1.3 Sanger测序优缺点

优点:方法简单,准确度高,测序片段长,一次可达1kb。缺点:高成本、低通量

2. 第二代测序(Illumina测序为例)

关键词:桥式PCR,可逆末端终止,高通量,边合成边测序Illumina 的Solexa和Hiseq两个系列机器是目前全球使用最多的第二代测序机。为了获得完整的基因组,通常包括三个阶段:测序、短序列比对和序列拼接。IIIumina测序数据三大阶段的特点:读长短、一定的错误率、深度高、reads之间有pairend关系

2.1 测序

测序过程大致分为三个步骤。测序完成后,获得的原始数据将经过质量评估和控制等中间过程,然后进入短序列拼接。

测序三大步骤中制备DNA基因组样品时,单倍体选择、样品总量、DNA浓度OD需要满足要求,并注意不要降解。

2.1.1 第一步:构建基因文库

步骤一:使用超声波将待测DNA样本破碎成小片段,通常约为500bp。

步骤二:将小片段修复成钝端,并在钝端进一步添加A碱基,形成粘端。

步骤三:在粘性末端添加接头适配器、测序引物、标签等。

图书馆建设流程

最终的文库形式文库:是DNA 片段的集合。测序片段断裂后,形成文库。一般将片段小于1kb的文库称为小片段文库(pairend),大于1kb的文库称为大片段文库(matepair)。文库的大小也称为插入片段大小,可用于后续的拼接。

2.1.2 第二步:桥式PCR

步骤一:液体流过流动池后,单个DNA 序列将被固定到流动池上。

步骤二:执行多重桥式PCR 扩增。

步骤三:多余的DNA 序列将被液体冲走,在流动池上留下相同的DNA 单链簇。

流通池

桥接PCR的一般流程。桥式PCR的目的是增加信号源,方便检测。其详细原理可参考:

修拉_

2.1.3 第三步:测序

步骤一:将DNA 聚合酶、接头引物和4 种带有碱基特异性荧光标记的dNTP 添加到反应体系中。

步骤二:合成第一个碱基后,后续反应无法正常进行。

步骤三:除去剩余的未使用的碱和试剂。

步骤四:激发基础荧光并收集信号。

步骤五:去除第一个碱基的封闭基团和荧光基团。

步骤六:重复步骤一到五。

每个序列需要测序两次。正向引物测序后会被液体洗掉,然后用反向引物对另一端进行测序。

合成测序

双端测序

读取信号类似于同一张照片的叠加

2.1.4 测序饱和度评估

目的:推测测序所需的最小数据量理论上是数据量的10倍,但实际上还有其他误差,所以会高于该值。

理论最小值

2.1.5 数据质控

1. 两个指标碱基含量分布:测序后的GC含量应与基因组GC含量相同。碱基质量分布:Q20碱基百分比(一般要求90%以上)、Q30碱基百分比(一般要求85%以上) Q20表示该位点碱基的错误率为百分之一,Q30为千分之一。

2. 用fastqc可生成质量控制报告

质量报告对比

2.1.6 测数数据处理——过滤

非基因组序列。包括接头、测序引物、标签等。N碱基过多的reads。通常,如果N 碱基占读数的10% 以上,则会被去除。低质量reads。以Q20为标准,低于一定水平的Q20比例将被剔除。去除duplication。两对相同的读数将消除一对。注:只要pairedend reads中的一个reads不满足条件,就需要移除这两个reads。 RNA-seq和16s测序时不能去除重复,否则会丢失一些丰度信息。

2.2 测序拓展内容

2.2.1 大片段文库

事实上,无论是大片段库还是小片段库,都无法完全测量一次read的全长。例如,Illumina构建的小片段文库为500bp。双端测序一般只能测两端150bp左右的长度,中间200bp无法测。但由于最初建库时的随机中断,第一次read无法测序中间序列,后续reads也会检测到中间序列。

1.png1. 构建大片段文库的目的:为了获得reads之间的物理距离关系,以方便后续的序列拼接。

2. 大片段文库的测序过程:步骤1:在大片段的两端添加生物标志物序列进行环化。

步骤2:后续步骤与小片段文库测序类似

环化处理

将大片段打碎成小片段进行测序

3. pairend和matepair文库区别测序reads方向不一致,pairend方向相反,matepair方向相反。

反向配对

matepairverse

2.2.2 测序注意事项

无法一次性对整个基因组进行测序,因为PCR技术限制了读长,并且很难保证从样本中提取的基因组的完整性。

GC偏差会影响PCR,正常GC含量为35%~65%。

所选文库的大小和读长必须协调; Denove拼接过程中,先使用小片段文库,逐渐增加文库;

二代测序无法持续测量,因为随着反应的进行,后续反应条件发生变化;同时,在簇化过程中,由于碱基反应的相位不一致,会出现错误。

2.3 短序列比对

短序列比对是将过滤后的reads重新定位到基因组中。这个过程也称为映射。

回复

2.3.1 短序列比对的四种情况

一对一、无错配一对一、有错配一对多、无错配多对多、有错配

2.3.2 短序列比对的应用

1. 与自身基因组比对1.1 计算每个站点的覆盖深度

1.2 计算参考序列覆盖率

2. 与参考基因组比对2.1 RNA测序计算基因表达

2.2 变异检测

2.3 宏基因组测序计算不同生物的丰度

2.3.3 基因差异表达计算

1. 基因结构基因结构2. 成熟mRNA成熟mRNA

3. 基因表达差异的指标3.1 FoldChange,同一基因在不同样本中表达水平的变化倍数,即RPKM值的差异。差异越大,变化就越大。

3.2 FDR校正,FDR越小,差异越显着。注:转录起始位点位于启动子区和5"UTR非翻译区之间,翻译起始位点位于CDS起始密码子处。 RPKM值消除了基因长度和测序量的差异对计算基因表达量的影响,可以直接用于比较不同样本之间基因表达量的差异(可变剪接的FPKM值)。

2.3.4 变异检测

单碱基转换:转换、颠换、删除、插入

2.3.5 物种组成和丰度计算

步骤一:16s序列长度约为1.5kb,无法一次性测试。使用双端测序和质控过滤得到不同的reads,但不能去除重复。

步骤二:将两个读取拼接到标签中

步骤三:将不同标签集群到不同的OUT

步骤四:与16s数据库比较并设置阈值。

2.4 序列拼接

又称为de nove splicing,将测序得到的reads输入到拼接软件中,利用reads之间的重叠部分进行拼接。

目前序列拼接的算法有两种:一种是Overlap-Layout-Conesensus(常用于拼接长片段如Sanger),另一种是De bruijn graph(常用于拼接短序列如Illumina)。但本质是根据序列之间的重叠进行剪接。

常见名词:reads,直接从测序获得的片段pairend和matepair,文库大小insertsize,物理长度kmer,将读段切割成更小的固定片段contig,通过kmers 之间的重叠连接成更长的片段(有时也指将读段串联成重叠群) )scaffold,重叠群通过pairend关系连接成更长的片段。

2.4.1 kmer值估计基因组大小

1. kmer定义kmer 两次读取kmer,一次是正向,另一次是反向补码。

2. 利用kmer的分布图估计基因组大小kmer分布图

2.4.2 基于德布莱英图(De bruijn graph)算法拼接

1. 构图(gregraph)是切掉kmer(13-127之间的奇数),去掉频率为1的kmer(kmer频率为1,那么对应的reads只测一次,这在高通量测序中几乎是不可能的)

2. 构建contig利用不同kmer大小的片段之间的重叠形成Debraying图,然后简化该图。理论上,该图只有一个头和一个尾,但由于测序过程中存在重复区域。实际的脑解图会有很多头和尾。然后将较短的分支去除,形成很多contig,并且contig之间没有重叠关系。

De bruijn graph3. 构建scaffold构建过程通过reads之间的配对关系,contigs连接成更长的序列,这就是scaffold。首先,将测序的读数重新定位到重叠群,然后记录配对比较。落在同一contig用于计算insertsize,落在不同contig用于构建scaffold。 (例如:reads1对齐到contig1的末尾150bp,reads2对齐到contig2的开头150bp。reads1和reads2之间的insetsize为500,那么在连接contig1和contig2的过程中就会有200bp的N个碱基(存在) 比较过程中要注意reads的方向。

作图通常需要三对以上的不同重叠群来确定物理位置关系,并进一步将它们连接成支架。

image.png 当基因组中重复序列过多时,pairend关系可能不足以确定contig之间的位置关系。在这种情况下,需要使用matepair库。拼接策略:先使用小片段库,然后逐步添加大片段库。然而,获得完整的基因组序列通常很困难。特点支架序列方向不一致,有的来自有义链,有的来自反义链(但都是5"-3")。

脚手架之间没有位置关系,但有些软件会按大小顺序输出。

scaffold中可能存在N碱基,但contig序列中没有N碱基。4. 补洞基因组中的孔(称为间隙)由N 个碱基组成。间隙是在重叠群形成支架的过程中产生的。

有关gap:N个碱基数是由insertsize决定的,但并不完全准确。 N碱基来自基因组的复杂区域(重复、GC异常等)并且不容易剪接。补洞策略

使用桑格测序长片段补洞

如果N区太大(超过2k),可以用pacbio测序来补长片的空洞。

利用pairend关系补洞

3. 第三代测序

主要包括三种测序技术,分别利用光信号、电信号和化学信号的转换

3.1 PacBio公司的SMAT

1. 原理概述应用边合成边测序的思路,利用SMRT芯片作为测序载体,将DNA聚合酶与模板结合,用4色荧光标记4个碱基。在碱基配对阶段,不同碱基的加入会发出不同的光,根据光的波长和峰值可以确定传入碱基的类型。保持酶活性,区别反应信号与周围游离碱基荧光背景是关键技术。2. 特点读长长,测序速度快,测序错误率高,可达15%。然而,错误是随机的,可以通过多次测序来有效纠正。

3.2 Oxford公司的Nanopore

1. 原理概述根据碱基影响电流变化幅度不同的特点,设计了一种特殊的纳米孔,孔内共价连接有分子连接体。当DNA 碱基穿过纳米孔时,它们会改变电荷,从而短暂影响流经纳米孔的电流强度。敏感的电子设备检测这些变化并识别通过的碱基。这是一种基于电信号的方法。它不是光信号的排序技术。

2. 特点的读长非常长,达到几十kb,甚至100kb。错误率在1%到4%之间,属于随机错误。通量高,可直接读取甲基化胞嘧啶。

关于深入解析:基因测序的基本原理及应用和的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

用户评论

漫长の人生

我一直对基因测序很感兴趣,想知道具体是如何工作的

    有5位网友表示赞同!

?娘子汉

看了这篇标题,感觉可以学到很多关于DNA测序知识啊

    有13位网友表示赞同!

千城暮雪

测序技术真是太神奇了,现在已经应用到医疗、农业等很多领域

    有16位网友表示赞同!

素颜倾城

希望能详细了解不同种类的测序方法

    有20位网友表示赞同!

泪湿青衫

这个原理是不是很难理解呢?

    有16位网友表示赞同!

空巷

我记得以前生物课上学过点测序的概念,但不太清楚具体操作步骤

    有20位网友表示赞同!

一笑抵千言

文章能介绍一下测序的历史发展吗?

    有9位网友表示赞同!

■□丶一切都无所谓

希望这些知识能够帮助我更好地了解基因研究

    有11位网友表示赞同!

龙吟凤

这篇文章的图示会不会很直观呢?

    有18位网友表示赞同!

安陌醉生

我比较想了解测序在医学诊断中的应用

    有7位网友表示赞同!

孤岛晴空

测序技术的发展对人类有什么意义?

    有19位网友表示赞同!

情字何解ヘ

学习一下测序原理,可以让我更全面地了解生物科技

    有9位网友表示赞同!

如梦初醒

这篇文章能回答哪些关于测序成本的问题呢?

    有5位网友表示赞同!

┲﹊怅惘。

是否会介绍测序技术的局限性以及未来发展方向?

    有16位网友表示赞同!

打个酱油卖个萌

我想知道测序技术对环境保护有什么影响?

    有17位网友表示赞同!

命运不堪浮华

这篇文章会不会讲到一些与测序相关的伦理问题?

    有14位网友表示赞同!

她的风骚姿势我学不来

测序技术的发展是不是会带来一些新的社会挑战?

    有9位网友表示赞同!

情如薄纱

我很期待看到这篇关于测序原理的文章!

    有14位网友表示赞同!

【深入解析:基因测序的基本原理及应用】相关文章:

1.蛤蟆讨媳妇【哈尼族民间故事】

2.米颠拜石

3.王羲之临池学书

4.清代敢于创新的“浓墨宰相”——刘墉

5.“巧取豪夺”的由来--米芾逸事

6.荒唐洁癖 惜砚如身(米芾逸事)

7.拜石为兄--米芾逸事

8.郑板桥轶事十则

9.王献之被公主抢亲后的悲惨人生

10.史上真实张三丰:在棺材中竟神奇复活

上一篇:探索#震撼人心的励志书籍之旅 下一篇:深入浅出:PostgreSQL数据库实用命令指南