生物信息学入门需要具备什么能力?

生信是一门交叉学科,甚至可以说就是一门比较复杂的技能,你本硕期间累积的各种生物学基础都是有效的,对计算机学科人士来说也是如此,你们在掌握生信技能的道路上将会殊途同归。

就好像木雕匠人这个职业雕刻木头工艺品的这个技能来说,假如某厨师已经熟练掌握各种各样的刀的使用技巧,握刀的姿势,砍/切/削 等,那么他需要的是熟练掌握各种雕刻原材料,树根,枯枝的特性。同理对于了解原材料的其他木匠来说,只需要学会雕刻的刀功即可。那么,是不是这两种人就可以成为木雕匠人呢,当然不是,更重要的是雕刻什么东西,掌握需要雕刻的物品的神形,获得只可意会不可言传的感觉。

【匠人】中国那些真正的木雕大师

生物信息学也是如此,完整的掌握了生物学基础,或者计算机基础,都是只是一个最基本的要求罢了。真正社会上做生物信息学数据分析, 往往更偏向于实战,是有套路的,有流程的,能做到这个就需要一两年的学习了。更麻烦的是,跟木雕匠人一样,你往往不局限于雕刻一类物品,生信数据处理也是如此,一般人熟知的就有WES,WGS,RNA-seq,ChIP-seq等,上游分析很简单了,都流程化了,但是下游分析五花八门,主要是消耗员工的时间和精力,其中还得是熟手。所谓的大健康方向,其实也是数据分析的个性化,并没有什么特殊之处。

所以对目前的你来说,如果还没工作就很好,可以苦学3个月,装模作样的入门足够你找到工作。如果已经毕业,那么就麻烦了,只能先不计报酬的做实习生,在项目中抓住机会学习了。

好了,扯了这么多鸡汤,下面是干货

生信完全入门线路图及资源大全

成为一个合格的生信工程师必经之路

6大基础知识的掌握

首先你需要了解一些测序基础知识,生物学基础知识,这个主要靠自己看,还有平时多积累。

在生信技能树论坛上面我列了一下,需要自行花时间自学,遇到不懂的名词多搜索,多熟记。对应我们生信技能树的论坛版块是: 生信技能树?生信技能树?生信基础?测序原理-数据格式-数据库

然后你需要掌握一门编程语言,可以从biotrainee.com/forum-90 里面的题目开始,当然你需要先来一些简单,你先看这个,biotrainee.com/thread-8 编程学会怎么着也得两三个月了。对应我们生信技能树的论坛版块是:生信技能树?互动作业?脚本能力实践?生信人必练的200个数据处理任务

如果是linux,不妨看看实验楼的练习:

  1. 全部课程   — >Linux, 新手入门, 计算机专业课 — >  Linux 基础入门(新版)


NGS组学技术的掌握

首先看 5 篇综述并翻译,涵盖主流的5个NGS组学技术:WES/RNA-seq/CHIP-seq/miRNA-seq/lncRNA-seq

  • Practical Guidelines for the Comprehensive Analysis of ChIP-seq Data : ncbi.nlm.nih.gov/pmc/ar

  • A survey of tools for variant analysis of next-generation genome sequencing data  : bib.oxfordjournals.org/

  • A survey of best practices for RNA-seq data analysis :  genomebiology.biomedcentral.com

  • Online resources for miRNA analysis  : sciencedirect.com/scien

  • Long non-coding RNA discovery pipeline : journals.plos.org/ploso

对应这些组学的PPT也需要自行搜索后浏览,掌握概念,原理。

然后看5篇测序数据分析例子

  • miRNA-seq :  RNA expression profiling of human iPSC-derived cardiomyocytes in a cardiac hypertrophy model.  : journals.plos.org/ploso

  • CHIP-seq  :  CARM1 Methylates Chromatin Remodeling Factor BAF155 to Enhance Tumor Progression and Metastasis cell.com/cancer-cell/ab

  • WES :  Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders  nejm.org/doi/full/10.10

  • LncRNA: Integration of Genome-wide Approaches Identifies lncRNAs of Adult Neural Stem Cells and Their Progeny In Vivo  sciencedirect.com/scien

  • RNA-seq: RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells

然后看5篇芯片数据分析例子:lncRNA : pubmedcentralcanada.ca/ ,我就不继续罗列了。

转录组流程

f1000research.com/artic

f1000research.com/artic

bioconductor.org/help/w


等你实践经验足够了,你会发现它们本质上都只是数据处理而已,你可以看我以前录制好的总结视频:有参组学(全基因组,全外显子组学,转录组学,表观)的几个NGS测序数据分析的表现形式的异同点

但是如果要真正步入生信的殿堂,编程其实是少不了的,请继续学下去。

关于R语言

知道什么是R语言,了解基本语法,Rstudio编辑器,读写文件,跟Excel的区别,绘图等可视化,生物信息学相关的bioconductor系列包。

尤为注意的是,初学者千万不要钻牛角尖,而是要广泛涉猎,牢记基础,应用加实践,其背后的计算机逻辑算法等可以后期再补,而且要时刻记住,学习R语言是为了分析生物信息学数据。

  • 约翰?霍普金斯大学的Bioconductor学习课程

  • 斯坦福大学的暑期小课程-用bioconductor做统计分析

  • a Little Book of R for Bioinformatics!



关于python

同样的,接下来你应该要开始实践:

生信技能树?生信技能树?互动作业?脚本能力实践?生信编程实战5个月传送门~~~  



培训咨询方式

Q   Q:  3498448850
Email:  bcc_peixun@163.com
张老师:  18618295767(微信同号)
于老师:  15621925881

主页链接

js