生物信息之心态分析

每一个分析之旅,尽管分析千差外别,而那份感觉或者心情却有几份的相像,轻轻的,却能感觉到。人类基因组测序已经十多年了,而近几年随着测序技术的发展,测序的成本呈指数下降,而测序产生的数据量呈指数上升,数据分析的需求开始激增,这就是我们所处的这个行业这个时代。

常常看到关于2000年那轮互联网泡沫的描述,经历了一场泡沫,互联网还成就了许多著名的公司,真真切切的融入与影响着我们的生活。而生物领域,同样,我们更为真切的感觉到了分子生物学泡沫对我们一代或者几代人的影响,想当年分子生物学、生物工程专业是多么的热门,大学了纷纷增设相关专业或者现有的专业改名与之挂靠,而以至于现在生物学方面的硕士博士的泛滥,同样相对的待遇也是同样的低。“二十一世纪是生物学的时代”,多么响亮的口号,而目前就公司于行业产值,还丝毫没有看到这方面的影子。

基因、分子克隆,转基因,生物工程到如今基因组、蛋白质组、转录组等各种组学、以及二代测序、个性化医疗,更多的应用还属于科研领域。科研、课题、博导、文章、圈子以及种种的外围切割,就是那一滩水。对于病毒、癌症、生物发酵、育种等等,关于生命本身的认识,并没有因为数据的增加,而有什么本质的改变。而数据仅仅只是给了我们对于生命的另外一个层面的描述,就如同对于绿叶、红花、肌肉的描述一样。数据堆砌着,文章累计着,有人从时间推测着,百年了,该有所质的突破了。。。

铛铛…..,又有新数据了,从测序公司拿到或者网上下载到,期盼已久的数据,怀着无比的希望打开,开始迫不及待的进入分析之旅。使用各种工具,加载各种算法,机器轰鸣着,一番运行,似乎经过运算,我们就能读懂数据中的一切,而几天下来,给我们的确实相反的沮丧,心里或许开始抱怨糟糕的设计、糟糕的数据质量、糟糕的算法。。。和想想中的差之千里。而生活还得继续,带着沮丧之情,肩负着艰巨的使命,继续挖掘。

而几轮的沮丧之后,开始渐渐明白

一个混沌进入另一个混沌,而或许正因为太广,太容易目空一切

测序的物种多了,测序的数量多了,我们却没有看到突飞猛进,反而平添了几分忧愁。

信息本身的复杂性,看看研究最多的人类基因组,看看身披无数文章的模式生物

观察数据,也就是测序样本、测序数据本身的有限性

我们需要在两者中间取得一个平衡,得到一个可信的结论。

即便是突破也是层级式的,一层层,或许看到的还是那份混沌,最少你应该明白,那就是你所期望的。

告别沮丧,怀着敬畏,尝试着,不断寻找与尝试着挖掘

如果,测序如水,不在制约,有人说,分析将成为制约,制约则意味着价值,不知道价值变成现金的日子,还会不会太远。

NCBI UniGene数据库介绍

NCBI的Unigene数据库有段历史了,而这次进行的一次转录组数据方面的分析,才让我更深入的理解其价值,所以再做介绍。

基于转录组的数据分析,UniGene是一个不可多得的资源,他将mRNA、EST序列以及功能gene进行整合,很容易明白EST、mRNA等转录组数据与gene的关系,同时通过EST所附带的信息,统计了基因的表达谱。UniGene参考了转录组、基因组的信息,通过多次循环聚类,整合尽可能多的数据,NCBI对UniGene按物种进行定期的更新,发布新的版本。

UniGene的数据可以通过FTP按物种进行下载,包括下列文件:

  • XX.data UniGene记录信息
  • XX.files.cksum 文件统计信息
  • XX.gb_cid_lid UniGene中序列的编号与Genbank AC号的对应的关系
  • XX.info 统计信息,
  • XX.lib.info UniGene与EST的对应关系
  • XX.profiles 表达谱信息,按照组织、时期表达进行分类
  • XX.retired.lst 上个版本UniGene编号与当前编号以及对应序列编号的对应关系
  • XX.seq.all 包括所有涉及到的EST、mRNA序列,FASTA格式(其中有#注释,在每个Unigene开始的时候,使用bioperl的seqIO解析时会报告错误,需要先将其删除)
  • XX.seq.uniq 可以代表Gene的,没有冗余的序列,FAST格式

Continue reading

Gbrowse权限管理

或许你的数据没有发布,你只想部分人员访问你的Gbrowse,这就涉及到了权限管理,GBrowse提供了多种机制,你可以限制访问者的主机、IP地址、域名,或者只有通过用户名密码登陆后才可以访问。
Gbrowse用户登录

Gbrowse 2.20以上的版本提供了以下三种权限管理的方式:

  1. 通过Apache提供的权限管理机制
  2. 构建自己的用户账户数据库
  3. 通过插件机制

Continue reading

二代测序数据预处理与分析

Next generation sequencing (NGS)

主要的测序技术及其产生数据的差异

常使用的工具列表

  • 质量控制Quality Control:FastQC、Fastx-toolkit
  • 拼接Aligner:BWA,Bowtie, Tophat, SOAP2
  • Mapper:Tophat, Cufflinks
  • 基因定量 Gene Quantification: Cufflinks, Avadis NGS
  • 质量改进 Quality improvement: Genome Analysis Toolkit(GATK)
  • SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGS
  • CNV: CNVnator
  • Indel: Pindel, Dindel, Unified Genotyper, Avadis NGS
  • Mapping to a gene: Cufflinks, Rsamtools, Genomic Features

Continue reading

KEGG Pathway数据结构

实体关系图

KEGG实体关系图

实体

名称 定义
Pathway specifies graph information stored in the KEGG pathway map 代谢通路图 path:ko00010
Entry The entry element contains information about a node of the pathway. 节点信息
Component a subelement of the entry element, and is used when the entry element is a complex node; namely, when the type attribute value of the entry element is “group”. 组件,一个复杂的节点,比如节点为Group类型时,包含的节点,可以存放到组件中
Graphics a subelement of the entry element, specifying drawing information about the graphics object. 节点在图位信息
Relation relationship between two proteins (gene products) or two KOs (ortholog groups) or protein and compound, which is indicated by an arrow or a line connecting two nodes in the KEGG pathways. 节点之间的关系
Subtype more detailed information about the nature of the interaction or the relation. 节点之间关系的更详细信息
Reaction chemical reaction between a substrate and a product indicated by an arrow connecting two circles in the KEGG pathways. 在KEGG通路中,用两个圆圈加箭头表示底物与产物之间的化学反应。 rn:(accession)rn:R02749
Substrate the substrate node of this reaction. 反应的底物 cpd:(accession)
gl:(accession)
Product the product node of this reaction. 产物 cpd:(accession)
gl:(accession)
Alt the alternative name of its parent element. 别名 cpd:(accession)
gl:(accession)

Continue reading

2011年度终结

2011年即将结束,也切好有些空闲,对这一年进行些终结与反思。这一年,乔布斯走了,每个人的生命都是有限的, 生的意义都需要常常的反思。

前几年,学习中心一直在计算机方面,软件工程、团队管理、数据库、系统管理、编程语言、前端开发等等,以前想做的事情,现在都可以做了,而在具体的某个方面再向前突破,由于缺少一些环境,所以动力不足。

而今年给自己订的主题是“突围”,如何突围,当反思使命与归属的时候,必然又回到了生物信息领域本身。这些年也一直在做着各种生物信息方面的数据库应用系统的开发,而环顾我接触的方方面面,其实都可以和数据库应用系统发生关联,而目前飞速发展的测序产业,也必将带动数据库应用系统的开发,这些数据得到了,但是如何来管理,如何来应用?以及结合自身的特点,建立不同的主题数据库的需求也会很多,所以突破的方向,也就是我博客围绕的主题,数据库信息系统,当然数据分析流程、现有系统的集成、各种模块的学习都必然有所关联。 Continue reading

直系同源预测方法

直系同源的基因通常具有相似的生物学功能,所以我们在进行一个未知序列的功能的鉴定的时候,其实质在找功能已知的同源基因。功能基因组的研究过程中,对于两个或者多个物种的同源基因进行鉴定,是功能基因鉴定、比较基因组、功能基因分类、pathway预测等待的基础。

基因相似性、一致性与同源性

  • 同源性是序列同源或者不同源的一种论断,而一致性和相似性是一种描述序列相关性的量;
  • 如果两条序列有一个共同的进化祖先,那么他们就是同源的,不存在同源性的程度问题,要么同源,要么不同源;
  • 同源蛋白总是在三维结构上有显著的相似性;
  • 两条蛋白即使没有统计上显著的一致性,其也可能是同源的;
  • 两条蛋白质是否同源的最强的证据来自于结构研究和进化分析;
  • 一致性(identity)表示了两个序列相同的程度;
  • 两条序列的相似性百分比(percent similarity)是相等于相似匹配之和;
  • 一般的一致性比相似性更有用些,因为相似性的衡量依赖于如何定义两个氨基酸残基是如何相似的;
  • 双序列的比对是排列两条序列以达到最大程度相同的过程,其目的是衡量两个分子的相似性和同源的可能性;
    Continue reading

去除重复序列

对于基因组序列进行分析时,首要的事情就是去除重复序列,本文详细介绍重复序列的种类,标记重复序列的流程,使用的工具,以及总结目前网上的数据库、wiki文档资源。

重复序列的种类

  • Interspersed repeats 散落重复
    • Transposon (Transposable elements (TEs) )转座子
  • DNA transposon DNA转座子
    • MER1MER2, Mariners
    • TIR(Terminal Inverted Repeat) 末端方向重复
  • Genomic island
  • Continue reading

    使用CAP3拼接构建uniGene

    RNA-seq对于两个处理样本进行分别测序,现在需要比对这两个测序结果的差别,使用CAP3,仍然是一个不错的选择。另外一个用途就是对于不断增加的转录组数据进行拼接,建立UniGene。

    Cap3简介

    Huang, X. 和 Madan, A 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征:

    • 利用正反向进行拼接,更正拼接错误、连接 contigs。
    • 应用 reads 的质量信息。
    • 自动截去 reads5`端、3`端的低质量区。
    • 产生 Consed 程序可读的 ace 格式。
    •  CAP3 能用于 Staden 软件包的中的 GAP4 软件。

    下载安装

    下载地址http://seq.cs.iastate.edu/cap3.html。下载操作系统,下载相应版本的,加压后,就可以使用。

    CAP3 详细参考文档可见http://deepc2.psi.iastate.edu/aat/cap/capdoc.html Continue reading

    主流的生物信息数据库模型

    什么是数据库,相关的概念

    数据库充斥着生物信息的每个角落,要数清楚这个主题,首先要解释一下,在不同场合下“数据库”的不同含义,主要包含4个方面:

    数据库管理系统

    数据库管理系统(Database management systems , DBMSs)是管理数据的软件系统,比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等,其是数据库的容器,是管理数据库综合软件系统。

    数据库模式(Database Schema)

    数据库模式指特定数据库的设计,也就是其内容的组织方式,就关系型数据库来说,就是其表、表中的列,以及表之间关系的设计。其可以在不同的数据库管理系统中实现,可以重复使用,构建不同的数据库应用。

    基于数据库的网站(Database Web Site)

    常被我称为数据库信息系统,其后台以数据库作为支撑,所有信息都存储在数据库中,通过网页提供访问接口,实现对信息的查询管理,构成一个容易交互的信息系统。生物信息领域内常见的如s FlyBase (http://flybase.org) ,ParameciumDB (http://paramecium.cgm.cnrs-gif.fr)等。常说的生物信息数据库资源,也通常指的是该类别的数据库。 Continue reading