二代测序数据预处理与分析

Next generation sequencing (NGS)

主要的测序技术及其产生数据的差异

常使用的工具列表

  • 质量控制Quality Control:FastQC、Fastx-toolkit
  • 拼接Aligner:BWA,Bowtie, Tophat, SOAP2
  • Mapper:Tophat, Cufflinks
  • 基因定量 Gene Quantification: Cufflinks, Avadis NGS
  • 质量改进 Quality improvement: Genome Analysis Toolkit(GATK)
  • SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGS
  • CNV: CNVnator
  • Indel: Pindel, Dindel, Unified Genotyper, Avadis NGS
  • Mapping to a gene: Cufflinks, Rsamtools, Genomic Features

Continue reading

KEGG Pathway数据结构

实体关系图

KEGG实体关系图

实体

名称 定义
Pathway specifies graph information stored in the KEGG pathway map 代谢通路图 path:ko00010
Entry The entry element contains information about a node of the pathway. 节点信息
Component a subelement of the entry element, and is used when the entry element is a complex node; namely, when the type attribute value of the entry element is “group”. 组件,一个复杂的节点,比如节点为Group类型时,包含的节点,可以存放到组件中
Graphics a subelement of the entry element, specifying drawing information about the graphics object. 节点在图位信息
Relation relationship between two proteins (gene products) or two KOs (ortholog groups) or protein and compound, which is indicated by an arrow or a line connecting two nodes in the KEGG pathways. 节点之间的关系
Subtype more detailed information about the nature of the interaction or the relation. 节点之间关系的更详细信息
Reaction chemical reaction between a substrate and a product indicated by an arrow connecting two circles in the KEGG pathways. 在KEGG通路中,用两个圆圈加箭头表示底物与产物之间的化学反应。 rn:(accession)rn:R02749
Substrate the substrate node of this reaction. 反应的底物 cpd:(accession)
gl:(accession)
Product the product node of this reaction. 产物 cpd:(accession)
gl:(accession)
Alt the alternative name of its parent element. 别名 cpd:(accession)
gl:(accession)

Continue reading

2011年度终结

2011年即将结束,也切好有些空闲,对这一年进行些终结与反思。这一年,乔布斯走了,每个人的生命都是有限的, 生的意义都需要常常的反思。

前几年,学习中心一直在计算机方面,软件工程、团队管理、数据库、系统管理、编程语言、前端开发等等,以前想做的事情,现在都可以做了,而在具体的某个方面再向前突破,由于缺少一些环境,所以动力不足。

而今年给自己订的主题是“突围”,如何突围,当反思使命与归属的时候,必然又回到了生物信息领域本身。这些年也一直在做着各种生物信息方面的数据库应用系统的开发,而环顾我接触的方方面面,其实都可以和数据库应用系统发生关联,而目前飞速发展的测序产业,也必将带动数据库应用系统的开发,这些数据得到了,但是如何来管理,如何来应用?以及结合自身的特点,建立不同的主题数据库的需求也会很多,所以突破的方向,也就是我博客围绕的主题,数据库信息系统,当然数据分析流程、现有系统的集成、各种模块的学习都必然有所关联。 Continue reading

直系同源预测方法

直系同源的基因通常具有相似的生物学功能,所以我们在进行一个未知序列的功能的鉴定的时候,其实质在找功能已知的同源基因。功能基因组的研究过程中,对于两个或者多个物种的同源基因进行鉴定,是功能基因鉴定、比较基因组、功能基因分类、pathway预测等待的基础。

基因相似性、一致性与同源性

  • 同源性是序列同源或者不同源的一种论断,而一致性和相似性是一种描述序列相关性的量;
  • 如果两条序列有一个共同的进化祖先,那么他们就是同源的,不存在同源性的程度问题,要么同源,要么不同源;
  • 同源蛋白总是在三维结构上有显著的相似性;
  • 两条蛋白即使没有统计上显著的一致性,其也可能是同源的;
  • 两条蛋白质是否同源的最强的证据来自于结构研究和进化分析;
  • 一致性(identity)表示了两个序列相同的程度;
  • 两条序列的相似性百分比(percent similarity)是相等于相似匹配之和;
  • 一般的一致性比相似性更有用些,因为相似性的衡量依赖于如何定义两个氨基酸残基是如何相似的;
  • 双序列的比对是排列两条序列以达到最大程度相同的过程,其目的是衡量两个分子的相似性和同源的可能性;
    Continue reading

去除重复序列

对于基因组序列进行分析时,首要的事情就是去除重复序列,本文详细介绍重复序列的种类,标记重复序列的流程,使用的工具,以及总结目前网上的数据库、wiki文档资源。

重复序列的种类

  • Interspersed repeats 散落重复
    • Transposon (Transposable elements (TEs) )转座子
  • DNA transposon DNA转座子
    • MER1MER2, Mariners
    • TIR(Terminal Inverted Repeat) 末端方向重复
  • Genomic island
  • Continue reading

    使用CAP3拼接构建uniGene

    RNA-seq对于两个处理样本进行分别测序,现在需要比对这两个测序结果的差别,使用CAP3,仍然是一个不错的选择。另外一个用途就是对于不断增加的转录组数据进行拼接,建立UniGene。

    Cap3简介

    Huang, X. 和 Madan, A 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征:

    • 利用正反向进行拼接,更正拼接错误、连接 contigs。
    • 应用 reads 的质量信息。
    • 自动截去 reads5`端、3`端的低质量区。
    • 产生 Consed 程序可读的 ace 格式。
    •  CAP3 能用于 Staden 软件包的中的 GAP4 软件。

    下载安装

    下载地址http://seq.cs.iastate.edu/cap3.html。下载操作系统,下载相应版本的,加压后,就可以使用。

    CAP3 详细参考文档可见http://deepc2.psi.iastate.edu/aat/cap/capdoc.html Continue reading

    主流的生物信息数据库模型

    什么是数据库,相关的概念

    数据库充斥着生物信息的每个角落,要数清楚这个主题,首先要解释一下,在不同场合下“数据库”的不同含义,主要包含4个方面:

    数据库管理系统

    数据库管理系统(Database management systems , DBMSs)是管理数据的软件系统,比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等,其是数据库的容器,是管理数据库综合软件系统。

    数据库模式(Database Schema)

    数据库模式指特定数据库的设计,也就是其内容的组织方式,就关系型数据库来说,就是其表、表中的列,以及表之间关系的设计。其可以在不同的数据库管理系统中实现,可以重复使用,构建不同的数据库应用。

    基于数据库的网站(Database Web Site)

    常被我称为数据库信息系统,其后台以数据库作为支撑,所有信息都存储在数据库中,通过网页提供访问接口,实现对信息的查询管理,构成一个容易交互的信息系统。生物信息领域内常见的如s FlyBase (http://flybase.org) ,ParameciumDB (http://paramecium.cgm.cnrs-gif.fr)等。常说的生物信息数据库资源,也通常指的是该类别的数据库。 Continue reading

    这个时代,生物信息,公司产业

    这两天在读乔布斯传,更多的了解了苹果,一条通向未来的光明大道展现在我眼前,改变世界,引领潮流,平凡的我们也应该做更多的反思。以科研为使命的研究人员,或者以服务为目的生物信息产业工人,无论是科研还是服务,其本质都是创造更多的价值,获得更多的物质或者精神上的财富。而在这个历史的洪流中,如何定位自己,如何能抓住机遇,成就一番事业。 Continue reading

    转换GFF工具–大汇总

    汇总,将各种格式转换为GFF格式的脚本。这些脚本分散在不同的软件包中,可以根据需要下载使用。

    bioPerl

    • search2gff              This script will turn a protein Search report (BLASTP, FASTP, SSEARCH, AXT, WABA) into a GFF File.
    • genbank2gff3.pl       — Genbank->gbrowse-friendly GFF3
    • gff2ps                    This script provides GFF to postscript handling. Continue reading

    Gbrowse SNV突变频率图绘制

    基因组的某位置,会发生突变,或者说对于多个物种的个体进行测序的话,会发现许多位置不是稳定的只是某个碱基,而应该用频率表示,ACTG出现的频率,如果某个位置有出现两个以上碱基的可能性,我们就将这个位置称为SNV,现在GBrowse中展示这些SNV,不仅是其位置,还要展示各个碱基出现的频率。

    SNV突变频率图

    思路1,适用 glyph=image

    根据Bio::Graphics中对于image的解释:可以传入一个url或者本地的路径,我想能不能创建一个动态画图的URL,其可以根据传入的参数,生成一个饼状的比例图,然后再配置文件中,动态生成image的url地址,如下: Continue reading