深度基因分析:二代测序序列高效拼接技术

更新:11-14 民间故事 我要投稿 纠错 投诉

其实深度基因分析:二代测序序列高效拼接技术的问题并不复杂,但是又很多的朋友都不太了解,因此呢,今天小编就来为大家分享深度基因分析:二代测序序列高效拼接技术的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!

wget http://ccb.jhu.edu/software/FLASH/index.shtml/FLASH-1.2.11.tar.gz

tar -zxvf FLASH-1.2.11.tar.gz(解压缩FLASH-1.2.11.tar.gz)

cd FLASH-1.2.11/(进入FLASH-1.2.11文件夹的工作路径)

make(运行make编译命令自动完成安装并生成可执行文件‘flash’)或者conda安装

conda 安装-c bioconda flash

flash --helpUsage: flash [选项] MATES_1.FASTQ MATES_2.FASTQ

flash [选项] --交错输入(MATES.FASTQ | -)

flash [选项] --制表符分隔输入(MATES.TAB | -)

-------------------------------------------------- --------------------------

描述

-------------------------------------------------- --------------------------

FLASH(短读快速长度调整)是一种准确、快速的工具

合并从DNA 片段生成的双端读数,其

长度短于读数长度的两倍。合并读取对结果

在未配对的较长读取中,这通常是基因组中更需要的

组装和基因组分析过程。

简而言之,FLASH 算法考虑了等于或高于某个值的所有可能的重叠。

一对读数之间的最小长度并选择重叠

导致最低的错配密度(错配碱基的比例)

重叠区域)。多个重叠之间的联系被打破

考虑不匹配位点的质量分数。构建合并时

序列,FLASH计算重叠区域中的一致序列。

更多详细信息可以在原始出版物中找到

(http://bioinformatics.oxfordjournals.org/content/27/21/2957.full)。

FLASH 的局限性包括:

- FLASH 无法合并不重叠的双端读取。

- FLASH 不适用于具有大量indel 的数据

错误(例如桑格测序数据)。它最适合Illumina

数据。

-------------------------------------------------- --------------------------

强制输入

-------------------------------------------------- --------------------------

FLASH 最常见的输入是两个包含read 1 和read 2 的FASTQ 文件

每个配偶对,分别以相同的顺序。

或者,您可以提供一个FASTQ 文件,该文件可以是标准输入,

在任一交错FASTQ 中包含配对末端读取(请参阅

--interleaved-input 选项)或制表符分隔(请参阅--tab-delimited-input

选项)格式。在所有情况下,都会自动检测gzip 压缩输入。还,

在所有情况下,PHRED 偏移量默认为33;使用

--phred-offset 选项来更改它。

-------------------------------------------------- --------------------------

输出

-------------------------------------------------- --------------------------

FLASH的默认输出由以下文件组成:

- out.extendedFrags.fastq 合并的读取。

- out.notCombined_1.fastq 读取1 个未合并的配合对。

- out.notCombined_2.fastq 读取2 个未合并的配合对。

- out.hist 合并读取长度的数字直方图。

- out.histogram 合并读取长度的可视化直方图。

FLASH 还将信息性消息记录到标准输出。这些也可以

重定向到一个文件,如下例:

$ 闪存读取_1.fq 读取_2.fq 21 | T恤闪存.log

此外,FLASH支持几个影响输出的功能:

- 将合并的读取直接写入标准输出(--to stdout)

- 写入gzip 压缩输出文件(-z) 或使用外部

压缩程序(--compress-prog)

- 以交错的FASTQ 格式写入未组合的读取对

(--交错输出)

- 将所有输出读取以制表符分隔格式写入单个文件

(--制表符分隔输出)

-------------------------------------------------- --------------------------

选项

-------------------------------------------------- --------------------------

-m, --min-overlap=NUM 两个之间所需的最小重叠长度

读取以提供可靠的重叠。默认:

10bp。

-M, --max-overlap=NUM 预计最大重叠长度大约为

90% 的读取对。默认设置为65bp,

这对于从a 生成的100bp 读取效果很好

180bp 文库,假设呈正态分布

片段长度。重叠时间超过最大值

重叠参数仍然被认为是好的

重叠,但不匹配密度(下面解释)

是在第一个max_overlap 基数上计算的

重叠区域而不是整个区域

重叠。默认: 65bp,或根据

指定读取长度、片段长度和片段

长度标准差。

-x, --最大不匹配密度=NUM

最大允许数量之间的比率

碱基对和重叠长度不匹配。

两次读取不会与给定的重叠相结合

如果重叠导致基础密度不匹配

高于这个值。 Note: 任何发生

任一读取中的“N”都会被忽略并且不被计算在内

朝向不匹配或重叠长度。我们的

实验结果表明,较高的值

最大错配密度产生更大

正确合并的读取对的数量,但在

错误数量较多的代价

合并读取对。默认: 0.25。

-O, --allow-outies 还尝试在“outie”中组合读取对

方向,例如

阅读1:----------

阅读2: ------------ 而不是仅“innie”方向,例如

阅读1:------------

读取2: ----------FLASH在尝试每个时使用相同的参数

方向。如果读取对可以组合在

无论是“内向”还是“外向”,

将使用相同的选择更合适的一个

FLASH 通常使用的评分算法。

此选项还会导致额外的.innie 和.outie

要生成的直方图文件。

-p, --phred-offset=偏移量

用于的字符的最小ASCII 值

表示FASTQ 文件中碱基的质量值。

它应该设置为33,它对应于

到后来的Illumina 平台和Sanger

平台,或64,对应于

早期的Illumina 平台。默认: 33。

-r, --read-len=LEN

-f, --fragment-len=LEN

-s, --fragment-len-stddev=LEN

平均读取长度、片段长度和片段

标准差。这些是方便的参数

仅,因为它们仅用于计算

最大重叠(--max-overlap)参数。

最大重叠计算为

从平均大小的片段中读取平均长度

加2.5倍片段长度标准

偏差。默认值为-r 100、-f 180、

和-s 18,所以这可以得到最大重叠

65bp。如果指定了--max-overlap ,则

指定值覆盖计算值。

如果您不知道标准差

片段库,您可能可以假设

标准偏差是平均片段的10%

长度。

--cap-mismatch-quals 在不匹配位置分配的Cap 质量分数

到2. 这是FLASH v1.2.7 中的默认行为

和更早的时候。后续版本将改为计算

诸如max(|q1 - q2|, 2) 之类的分数;也就是说,

质量分数差异的绝对值,

但至少2. 本质上,新行为

防止低质量的碱基检出,这可能是

测序错误显着降低

高质量的质量,可能是正确的基础

称呼。

--interleaved-input 而不是需要文件MATES_1.FASTQ 和

MATES_2.FASTQ,允许单个文件MATES.FASTQ

双端读数交错。指定"-"

从标准输入读取。

--interleaved-output 将未组合的对写入交错的FASTQ 中

格式。

-I, --interleaved 相当于同时指定--interleaved-input

和--交错输出。

-Ti, --制表符分隔输入

假设输入采用制表符分隔格式

而不是FASTQ,采用下面描述的格式

"--制表符分隔输出"。在这种模式下你应该

提供单个输入文件,其中的每一行必须

包含读取对(5 个字段)或单个

读取(3 个字段)。 FLASH会尝试结合读取

对。单次读取将写入输出

如果还使用--tab-delimited-output,则按原样文件;

否则它们将被忽略。请注意,您可以

指定"-" 作为输入文件来读取

来自标准输入的制表符分隔数据。

-To, --制表符分隔输出

以制表符分隔格式(不是FASTQ)写入输出。

每行将包含一个组合对

格式“tagseqqual”或未组合的

格式为“tagseq_1qual_1seq_2qual_2”的对。

-o, --output-prefix=前缀

输出文件的前缀。默认:“输出”。

-d, --输出目录=DIR

输出文件的目录路径。默认:

当前工作目录。

-c, --to-stdout 将组合读取写入标准输出。在

此模式,具有FASTQ 输出(默认)

未组合的读数将被丢弃。以制表符分隔

输出,未组合的读取包含在

写入标准输出的制表符分隔数据。

在这两种情况下,都不会写入直方图文件,

并将信息消息发送到标准

错误而不是标准输出。

-z, --compress 直接使用zlib 压缩输出文件,

使用gzip 容器格式。类似于

指定--compress-prog=gzip 和--suffix=gz,

但可能会稍微快一些。

--compress-prog=PROG 通过压缩程序传输输出

PROG,将被称为“PROG -c -”,

加上--compress-prog-args 指定的任何参数。

PROG 必须从标准输入读取未压缩的数据

并将压缩数据写入标准输出

如上所述调用。

示例: gzip、bzip2、xz、pigz。

--compress-prog-args=ARGS

将传递的附加参数字符串

如果指定了压缩程序

--compress-prog=PROG. (参数“-c -”是

除明确指定外仍通过

论据。)

--suffix=后缀, --output-suffix=后缀

使用SUFFIX作为输出文件的后缀

在“.fastq”之后。假设后缀前有一个点,

除非提供空后缀。默认:

没有什么;或“gz”(如果指定了-z);或PROG 如果

指定了--compress-prog=PROG。

-t, --threads=NTHREADS 设置工作线程数。这是在

除了I/O 线程。默认:个

处理器。 Note: 如果您需要FLASH的输出

确定性地出现或以相同的顺序出现

原文是这样的,你必须指定-t 1

(--线程=1)。

-q, --quiet 不打印信息性消息。

-h, --help 显示此帮助并退出。

-v, --version 显示版本。

运行“flash --help | less" 以防止此文本滚动。

2.使用方法

flash read1.fq read2.fq -p 33 -r 250 -f 500 -s 100 -o 输出主要参数说明:

-m为拼接时重叠区域的最小长度阈值,默认10bp;

-M 重叠区域的最大长度阈值,

-x 重叠区域允许的最大碱基错配率(最大碱基错配数/重叠区域长度),默认为0.25;

-p 基础质量值类型,64或33;

-r 读取长度;

-f 片段长度,即测序文库的大小;

-s 库偏差;

-o 输出文件前缀;

-z 输出压缩文件

-t 设置线程数,默认为1,FLASH软件支持多线程,速度快;

FLASH拼接默认输出6个结果文件:

output.extendeFrags.fastq为拼接后的扩增片段序列文件;

output.flash.log是日志文件,详细记录了拼接过程中的参数以及拼接统计数据;

output.hist是拼接read长度的统计信息文件;

output.histogram为拼接后的读长直方图文件;

output.notCombined_1.fastq为不可拼接的reads1序列文件;

output.notCombined_2.fastq为不可拼接的reads2序列文件;

拼接

ls *1.fastq.gz |读取ID 时;

mkdir -p ${id%_*}

闪存${id%_*}_R1.fastq.gz -O ${id%_*}_R2.fastq.gz

-m 10 -M 100 -x 0.25 -z -o ${id%_*} -d ./${id%_*}

好了,本文到此结束,如果可以帮助到大家,还望关注本站哦!

用户评论

搞搞嗎妹妹

听说二代测序配对后还需要合并才能得到完整的基因组?

    有13位网友表示赞同!

恰十年

FLASH比其他拼接软件好用吗?具体有哪些优势?

    有14位网友表示赞同!

绝版女子

想用FLASH,可是官网上那么多参数选项都不知道怎么设置。有什么简单教程吗?

    有6位网友表示赞同!

寻鱼水之欢

二代测序数据质量对于拼接结果影响很大吧,使用FLASH后会自动进行质量控制吗?

    有11位网友表示赞同!

生命一旅程

我的数据量不大,用FLASH合适吗?会不会太花费时间?

    有20位网友表示赞同!

赋流云

想学习一下FLASH的原理,有推荐一些相关的文献吗?

    有12位网友表示赞同!

慑人的傲气

除了拼接本身,FLASH还可以做哪些事情呢?

    有10位网友表示赞同!

苏樱凉

使用 FLASH 拼接后的序列准确率怎么样?比其他软件高吗?

    有12位网友表示赞同!

温柔腔

FLASH 的开源性质很方便,随时都能更新和改进。

    有8位网友表示赞同!

迁心

拼接后需要怎么评估结果的好坏呢?有哪些常用的指标?

    有12位网友表示赞同!

柠夏初开

听说FLASH 可以处理不同类型二代测序数据,是真的吗?

    有6位网友表示赞同!

_心抽搐到严重畸形っ°

有没有使用 FLASH 拼接案例分享呀?能让我更清楚它的应用场景。

    有5位网友表示赞同!

青墨断笺み

FLASH 的安装和上手都比较简单吗?新手可以轻松学习吗?

    有13位网友表示赞同!

男神大妈

在数据量非常大的情况下,FLASH 能快速高效地完成拼接吗?

    有5位网友表示赞同!

厌归人

想了解一下 FLASH 的最新版本有没有什么改进?

    有9位网友表示赞同!

夏至离别

如果使用其他软件拼接后结果不好,还能用 FLASH 回填吗?

    有19位网友表示赞同!

聽風

会不会有更好的拼接软件替代 FLASH?

    有19位网友表示赞同!

Hello爱情风

感觉 FLASH 在科研领域使用非常广泛啊!

    有6位网友表示赞同!

坏小子不坏

希望以后 FLASH 的功能越来越强大!

    有10位网友表示赞同!

像从了良

学习基因组学,FLASH 应该会经常用到吧?

    有7位网友表示赞同!

【深度基因分析:二代测序序列高效拼接技术】相关文章:

1.蛤蟆讨媳妇【哈尼族民间故事】

2.米颠拜石

3.王羲之临池学书

4.清代敢于创新的“浓墨宰相”——刘墉

5.“巧取豪夺”的由来--米芾逸事

6.荒唐洁癖 惜砚如身(米芾逸事)

7.拜石为兄--米芾逸事

8.郑板桥轶事十则

9.王献之被公主抢亲后的悲惨人生

10.史上真实张三丰:在棺材中竟神奇复活

上一篇:《古代宫廷传奇:承欢记》 下一篇:高效解决交通违规问题的实用指南