当前位置: 首页 > news >正文

如何确定竞争对手网站网站用小程序

如何确定竞争对手网站,网站用小程序,做app和做网站相同和区别,工业设计公司发展方向上一篇文章中我们介绍了测序技术的由来与发展#xff0c;那么在介绍第三代测序的时候#xff0c;我们提到了关于测序深度和读长的问题#xff0c;那么本篇文章就详解介绍一下。 计算生物学与生物信息学漫谈-1-测序一路走来-CSDN博客 目录 1.测序深度SEQUENCING DEPTH 那么在介绍第三代测序的时候我们提到了关于测序深度和读长的问题那么本篇文章就详解介绍一下。 计算生物学与生物信息学漫谈-1-测序一路走来-CSDN博客 目录 1.测序深度SEQUENCING DEPTH 1reads 2Coverage 2.Base Call Quality 1什么是call 2Phred quality score 3.FASTQ 文件 1.测序深度SEQUENCING DEPTH 1reads 受测序水平限制测序时需先将基因组打断成DNA片段然后再建库测序。reads读长指的是测序仪单次测序所得到的碱基序列也就是一连串的ATCGGGTA之类的这些序列并不是基因组的完整组成部分而是通过高通量测序技术从基因组中获取的短序列片段。不同测序仪器产生的 reads 长度可能有所不同。不同的测序仪器reads长度不一样。对整个基因组进行测序就会产生成百上千万的reads。 2Coverage 不同的测序应用中生物结果和测序数据的解读在很大程度上受到覆盖基因组区域的测序读数数量的影响。通常多个序列会在基因组的某些区域重叠。测序深度衡量的是平均读数丰度计算方法是将所有与基因组匹配的测序短读数的碱基数除以该基因组的长度如果已知基因组大小。 如果reads读数长度相等则测序覆盖度测序深度计算公式为 如果reads读书长度不相等则测序覆盖度计算为 n是reads数。 测序覆盖率表示为基因组被测序的次数例如1X、2X、20X等。 测序深度影响基因组组装的完整性、从头组装和参考引导组装的准确性、检测到的基因数量、RNA-Seq中的基因表达水平、变异调用、全基因组测序中的基因分型、宏基因组学中的微生物鉴定和多样性分析以及表观遗传学中蛋白质-DNA相互作用的识别。因此在进行序列分析之前研究测序深度非常重要。碱基被测序的次数越多数据的质量就越好。 2.Base Call Quality 1什么是call 在基因测序和生物信息学领域“Base Call Quality”中的“call”指的是碱基判读即从测序过程中获得的原始数据中识别出每个碱基A、T、C、G的过程。 2Phred quality score 得到碱基在序列中位置的过程称为base calling我们之前讲过的各种测序无非就是想得到序列的碱基顺序但是目前有的方法及测序的仪器和样本都会造成最后的结果存在错误所以许多base calling的软件中会计算Phred Quality Score来量化发生错误的可能性且这个指标把难以量化的可能性转变为了数字参数 其中 p 是碱基调用出错的概率。 Phred质量分数使用ASCII单个字符进行编码。所有ASCII字符都有一个与之关联的十进制数字。然而由于前32个ASCII字符是非打印字符而整数33是惊叹号“!”的十进制数字因此Q0就是惊叹号并且以“!”开始的编码称为Phred33编码。 Illumina 1.8及更高版本使用这种Phred33编码Q33来在FASTQ文件中编码base calling的质量。较旧的Illumina版本例如Solexa使用Phred64编码在这种编码中字符“”其十进制数字为64对应于Q0。 表格中显示了Phred质量分数Q、相应的概率P以及十进制数字和ASCII代码。例如当调用碱基的概率为0.1时Phred分数将是10Q10但不是给出数字10而是将该质量分数编码为加号“”。 较高的Q分数表示错误概率较小而较低的Q分数表示碱基调用的质量较低更有可能碱基被错误地调用。例如质量分数为20表示在100次中有1次出错的概率1%的错误率相当于99%的调用准确性。一般来说Q分数为30被认为是高通量测序HTS中良好质量的基准。第二章表显示了一些Q分数及其对应的错误概率、碱基调用准确性和解释。 3.FASTQ 文件 像Illumina这样的测序技术提供了实时分析RTA软件该软件将单个碱基调用数据存储在称为BCL文件的中间文件中。当测序运行完成后这些BCL文件会被过滤如果样品是多重化的还会进行解复用然后转换成名为FASTQ的序列文件格式。 对于单端运行的每个样本将有一个FASTQ文件而对于双端运行的每个样本则会有两个FASTQ文件R1和R2R1文件用于正向读取R2文件用于反向读取。 FASTQ文件通常会被压缩它们可能具有“.fastq.gz”的文件扩展名。FASTQ是一种可读的文件格式已成为大多数高通量测序HTS技术输出存储的 facto标准。 一个FASTQ文件由多个记录组成每个记录包含四行数据如图所示。 FASTQ文件中每个记录的第一行以“”符号开始这一行被称为读取标识符因为它标识了序列读取。 一个典型的由Illumina仪器生成的读取的FASTQ标识符行如下所示 字符参数描述读标识符行的开始instrument设备ID或序列IDrun num仪器运行的次数flowcell ID流动池IDlane读取序列所在的泳道编号tile读取序列所在的tile编号xDNA簇的X坐标yDNA簇的Y坐标UMI 仅当使用唯一的分子标识符UMI时read读取编号单端读取为1或双端读取为2filtered如果读取通过了过滤则为Y如果没有通过则为Ncontrol num0没有任何控制位被激活或偶数 表中描述了Illumina FASTQ标识符行的元素而上图显示了一个包含三个读取记录的示例FASTQ文件。在索引序列中观察到的序列会被写入FASTQ标题以代替样本编号。这些信息对于故障排除和解复用非常有用。然而这些元数据元素可能会被其他元素修改或替换特别是在提交到数据库或被用户修改时。 FASTQ文件的第二行包含了测序仪推断出的碱基。这些碱基包括腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶分别用A、C、G和T表示。如果某个位置的碱基不明确由于测序错误而未确定则可能会包含字符N。 第三行以加号“”开始它可能包含其他附加的元数据或相同的标识符行元素。 FASTQ文件的第四行包含ASCII编码的字符串代表每个碱基的Phred质量分数。每个ASCII字符的数值对应于序列行中碱基的质量分数。 研究人员通常从测序仪器获取原始测序数据用于自己的研究。原始测序数据也可以从数据库下载科学家和研究机构会将自己的原始数据存档并公开提供。无论哪种情况原始测序数据通常都是以FASTQ文件的形式获得的。 NCBI SRA数据库是数百种物种原始数据的最大数据库之一。FASTQ文件以序列读取档案SRA格式存储可以使用SRA-toolkit下载和提取这是由NCBI开发的一系列程序集合可以从“https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi”提供的说明下载和安装。 主页 - SRA - NCBI --- Home - SRA - NCBI (nih.gov) 为了演示的目的我们将从NCBI SRA数据库下载原始数据。我们将使用一个单端FASTQ文件其运行ID为“SRR030834” 该FASTQ文件包含从格陵兰岛Qeqertasussuk出土的4000年前已灭绝的Saqqaq古爱斯基摩人头发束中测序得到的reads。为了保持文件组织性您可以创建目录“fastqs”然后使用“fasterq-dump”命令下载FASTQ文件确保您已在计算机上安装了SRA-toolkit并且它在路径上 Linux服务器安装SRAToolkit教程-CSDN博客 mkdir fastqscd fastqsmkdir singlecd singlefasterq-dump --verbose SRR030834 FASTQ文件可能包含多达数百万条目其大小可能是几兆字节或吉字节这通常使它们太大而无法在普通文本编辑器中打开。一般来说除非有必要进行故障排除或出于好奇否则无需打开FASTQ文件。要显示大型FASTQ文件我们可以使用一些Unix或Linux命令如“less”或“more”来逐页显示非常大的文本文件或使用“cat”来显示文件的内容。 Bio-Linux-shell详解-2-基本Shell命令快速掌握-CSDN博客 如果FASTQ文件名以“.gz”扩展名结尾这意味着该文件已使用“gzip”程序压缩。在这种情况下应分别使用“zless”、“zmore”和“zcat”命令而不是“less”、“more”和“cat”命令且无需解压缩文件。 我们还可以使用“head”和“tail”分别显示文件的前几行和最后几行。以下命令将显示文件的前15行 head -15 SRR030834.fastq 如果FASTQ文件很大我们可以使用“gzip”程序将其压缩以使其大小减少三倍以上。使用gzip压缩“SRR030834.fastq”文件将使其大小减少到不到一G字节。 gzip SRR030834.fastq 使用“gzip -d”可以解压一个已压缩的文件。这个命令会移除原始的压缩文件例如 .gz 文件并生成一个解压后的文件。如果你想要保留原始的压缩文件可以使用“gunzip -c”或者“zcat”命令并将输出重定向到一个新的文件中。 gzip -d SRR030834.fastq.gz 如果你需要知道FASTQ文件中的记录数可以使用“cat”或“zcat”与“wc -l”的组合后者用于计算文本文件中的行数。请记住FASTQ文件中的一条记录包含4行。 我们可以使用Unix管道符号“|”将“cat”命令的输出传递给“wc -l”命令。以下命令行将计算存储在FASTQ文件中的记录数 cat SRR030834.fastq | echo $((wc -l/4)) 如果需要显示目录中多个以“.fastq”为文件扩展名的文件的文件名和读取计数我们可以使用以下脚本 for filename in *.fastq; doecho -e “$filename\t cat $filename | wc -l | awk ‘{print $1 / 4}’”done 要以表格格式显示FASTQ文件您可以使用“cat”命令然后使用Unix管道将输出传递给“paste”命令该命令将FASTQ记录的四行转换为表格格式。 cat SRR030834.fastq | paste - - - - SRR030834_tab.txt less -S SRR030834_tab.txt 从FASTQ文件创建表格文件将帮助我们执行多种操作例如排序条目、过滤掉重复的读取、提取读取ID、序列或质量分数以及创建FASTA文件。我们期望FASTQ文件的标识符行的格式是一致的。如果您显示“SRR030834tab.txt”您会注意到标识符行的某些字段是由空格分隔的如果我们认为空格是列分隔符那么ID将在第一列序列将在第四列。然而在从其他FASTQ文件提取的表格文件中这个列顺序可能不同。假设我们只想从“SRR030834tab.txt”中提取ID和序列到一个单独的文本文件中那么我们可以使用“awk”命令如下 awk ‘{print $1 “\t” $4}’ SRR030834_tab.txt SRR030834_seq.txt “awk”命令从“SRR030834tab.txt”中提取第一列和第四列并打印出这两列它们之间用制表符分隔。输出被定向到一个新的文本文件“SRR030834seq.txt”。 Linux命令允许我们执行多步操作。假设我们想从FASTQ文件创建一个FASTA文件我们可以通过多个步骤来实现。首先我们需要像上面那样提取ID和序列到一个文件中然后我们可以移除“”符号只留下ID接着我们需要在每一行的开头添加“”且“”和ID之间没有空格最后我们将两列分开形成FASTA的定义行defline和序列将它们存储在一个文件中并删除临时文件。 cat SRR030834.fastq | paste - - - - \ SRR030834_tab.tmpawk ‘{print $1 “\t” $4}’ SRR030834_tab.tmp \| sed ‘s///g’ SRR030834_seq.tmpsed -i ‘s/^//’ SRR030834_seq.tmpawk ‘{print $1, “\n” $2}’ SRR030834_seq.tmp \ SRR030834.fastarm *.tmp 以上就是这次的全部内容下一次将介绍使用FastaQC工具进行Fasta文件过滤与质控。 有任何问题欢迎与我联系。
http://www.w-s-a.com/news/840762/

相关文章:

  • 福建南平网站建设创意交易平台网
  • 做直播网站要哪些技术内容营销理论
  • 价格划算的网站开发怎么找有赞做网站
  • 做网站店铺图片用什么软件网络营销方案格式
  • 做外贸要自己建网站吗有效的网络营销方式
  • 精通网站开发书籍做网站获取手机号码
  • 论坛做视频网站有哪些济南新站seo外包
  • 哪类型网站容易做冷水滩做微网站
  • 搭建企业网站流程保定徐水网站建设
  • 建设单位到江川区住房和城乡建设局网站伦敦 wordpress 设计
  • 响应式网站的服务麦德龙网站建设目标
  • 做国外单的网站叫什么海南省海口市网站建设
  • 杭州响应式网站案例wordpress5.2.2
  • 网站建设运营维护合同wordpress资源搜索插件
  • 国外网站流量查询东莞网站建设教程
  • 餐饮类网站建设达到的作用东莞工程建设交易中心网
  • 网站设计 知识产权湖北网站建设xiduyun
  • 猫咪网站模版下载中国风 古典 红色 网站源代码
  • 个人网站备案模板制作网站首页
  • 潍坊正规建设网站网站建设设计作业
  • 推荐一下网站谢谢辽宁住房城乡建设部官方网站
  • 网站文件大小英选 网站开发
  • 济南建网站哪家好wordpress编辑器排行
  • 在福州做搬家网站多少钱画册设计网站有哪些
  • 如何让别人浏览我做的网站哪些方法可以建设网站
  • 网站建设与管理网络推广的优点
  • 美食网站的设计与制作做网站的电销话术
  • 中国档案网站建设现状研究陕西建设厅执业资格注册中心网站
  • 网站建设的内容管理怎么用ps切片在dw里做网站
  • 建设婚恋网站用什么搭建涿州网站开发