Skip to content

Latest commit

 

History

History
889 lines (609 loc) · 57.2 KB

README.md

File metadata and controls

889 lines (609 loc) · 57.2 KB

[TOC]

MicrobiomeStatPlot 微生物组数据分析与可视化

0.项目简介(Introduction)

高通量测序的发展极大地推动了微生物组/宏基因组领域的发展。微生物组的数据分析和解读需要微生物学、生物信息学、统计学、Shell和R语言、宏基因组学等多学科的知识,无论是中国还是世界范围内仍缺少系统的学习教材。宏基因组公众号成立的目的是打破微生物组数据分析解读的壁垒,推动本领域的发展。目前经常三年的积累,已发布数百篇本领域相关数据分析、可视化和科研经验的教程。但本领域发展迅速,很多教程需要更新,而且团队成员的知识和研究领域有限,需要更广泛的同行加入,打造宏基因组学入门百科全书,现向全球华人圈全面征集《微生物组数据分析与可视化实战》章节编写的创作者和审稿人

创始人就是你,赶快加入贡献你的智慧吧!

创作者要求

  • 本领域的专业同行,专业包括且不限于微生物学、生物信息学、微生物组学,或应用培养组学、扩增子、宏基因组、宏转录组、宏病毒组、宏蛋白组、宏代谢组、宏表观组等技术研究人类、动植物、环境的相关研究人员(年级和职称不限);
  • 有专业知识搜集和整理的能力,有记录电子笔记、发表文章经历者的优先;
  • 认领下方目录中章节,按照参考模板(一周内陆续发布前几节样章),采用有道云笔记markdown格式或Rmarkdown(加入后有免费培训)编写逻辑严谨、考虑读者感受、可重复性强的教程;
  • 对宏基因组编辑部提出的合理意见进行认真修改;

创作者福利

  • 创作者作为章节的作者之一;
  • 结识宏基因组核心团队成员,见习编辑可获取编辑的基础培训;
  • 发布文章三篇或过万字,可成为正式编辑,免费获得价值万元的最新扩增子、宏基因组分析流程或参加培训、会议的机会;
  • 相关教程、技术文档可推荐发表SCI论文,详见:《JoVE微生物组专刊征稿,写方法拍视频教程发SCI》
  • 根据贡献,获得团队发表论文、出版图书的署名权

审稿人要求

  • 专业审稿人,建议有发表文章经历,对自己擅长领域章节的逻辑、语言的全面修改和提出改进建议(同论文审稿);
  • 大众审稿人,对公众号发布文章中可改进地方提出意见或建议,可通过文章下方留言、联系公众号管理员等方式沟通;

审稿人福利

  • 专业审稿人可进入编辑部,作为审核文章的责任编辑,获得责编栏姓名和单位的署名权;
  • 大众审稿人的姓名和单位可出现在章节的致谢部分;
  • 审稿人节日福利红包!

联系宏基因组公众号

创作者和审稿人任务登记: https://kdocs.cn/l/c7CGfv9Xc 宏基因组创作者和审稿人登记表.xlsx,使用微信登陆金山文档,登记姓名、单位、研究方向、职称、负责章节具体分工等信息

联系人:白德凤 / 刘永鑫

微信:baidefeng1234win / meta-genomics

广告营销人员较多,添加微信务必备注姓名-单位-职位-研究方向,否则无法通过好友申请

邮箱:[email protected] / [email protected]

目前整理本领域基础知识、常用分析、必备技能的目录。部分章节有前期发布的资源和教程供参考。有自己擅长章节的作者,欢迎认领相应章节进行更新或从头创作。如果你觉得有自己擅长而且重要的知识和方法,欢迎联系我们一起讨论目录的更新。

中文的宏基因组学百科全书期待你的贡献!

推荐序

找在本领域积累多年的专家、学者,如朱永官院士、蓝灿辉总裁、赵方庆研究员、王军研究员、褚海燕研究员、韦中教授等对本书进行点评。

编者序

你能学到什么、近年来技术发展概述和展望。

1.生物信息与微生物组(Bioinformatic and microbiome)

1.1 生物信息概述

1.1.1 实验设计和元数据

1.1.2 分析的基本思路

1.2 Shell和Linux

1.3 R统计与绘图

1.3.1 R语言基础

1.3.2 ggplot2绘图基础

1.3.3 R语言绘图专辑

1.3.4 高级统计绘图

1.4 Python数据处理和绘图

1.5 微生物组概述

发展史:摸索,初步探索,建立方法,百花齐放。

测序平台和数据

常用研究手段

1.5.1 培养组

1.5.2 扩增子16S

1.5.3 宏基因组

1.5.4 其他宏组学

真菌组 18S/ITS

功能基因

代谢组

基因组

转录组

有时研究也会涉及宿主、微生物的基因表达研究。更多转录组、单细胞的文章可关注生信宝典公众号。

2.微生物组分析流程(原始数据到特征表)(Microbiome analysis pipeline)

盘点主流软件。高级阶段应该是各种方法步骤的自由组合,甚至是根据需要设计、开发方法。

2.1 培养组

2.2 扩增子

64, 33格式转换

2.2.1 USEARCH/VSEARCH

2.2.2 QIIME 2

2.3 宏基因组

2.3.1 有参分析Read-based

2.3.2 无参Assembly-based

2.3.3 功能注释数据库

2.3.4 分箱专题

2.4 认识特征表 Feature table

特征表是上游大数据分析的终点,是里程碑式的成果,同时也是下游分析的起始。

3.特征表的统计、可视化和解读(Visualization and interpretation)

3.1 统计学基础

3.1.1 正态性检验和方差齐性分析

3.1.2 t检验、方差分析、卡方检验使用注意事项

3.1.3 两组和多组秩和检验

3.1.4 多重比较的P值校正

3.1.5 物种数据标准化方法和注意事项

3.2 Alpha多样性

3.2.1 箱线图或柱状图

3.2.2 稀释曲线

3.2.3 维恩图

维恩图的变形,如UpsetView,网络图等。

3.3 Beta多样性

3.3.1 非限制性排序PCoA/NMDS

  1. 主成分分析PCA
  2. 主坐标分析PCoA
  3. 非度量多维尺度分析NMDS
  4. 对应分析CA
  5. 其他排序pls-da,opls-da,t-sne

3.3.2 统计方法PERMANOVA

  1. PERMANOVA
  2. ANOSIM
  3. MRPP

3.3.3 限制性排序

  1. 限制性主坐标分析Constrinaed PCoA
  2. 冗余分析RDA
  3. 典范对应分析CCA
  1. LDA

3.4 物种组成

3.4.1 堆叠柱状图

3.4.2 弦图

3.4.3 树图/气泡图

3.5 差异比较

3.5.1 t检验和秩和检验

3.5.2 负二项分布和计数型差异分析edgeR/DESeq2

  1. 什么是物种数据的过度离散现象和负二项分布
  2. 用edgeR包进行差异分析
  3. DESeq2包进行差异分析

3.5.3 STAMP与扩展柱状图

3.5.4 LEfSe和Cladogram

3.5.5 其他常用差异分析方法

  1. ANCOM分析
  2. ALDEx2分析
  3. songbird和DEICODE介绍
  4. limma

3.6 网络分析

3.6.1 网络基础知识

3.6.2 可视化入门

  1. 按分类或模块着色网络
  2. 网络属性
  3. 全局属性
  4. 节点属性

3.6.3 可视化进阶

  1. 双网络比对
  2. 多网络时间序列
  3. Gephi美化

3.7 机器学习

3.7.1 机器学习的常用算法

3.7.2 随机森林分类

黄适:这个RandomForest package 非常慢,已经完全不适应大数据分析需求。推荐使用ranger https://github.com/imbs-hl/ranger

  1. 分类
  2. 分类评估-ROC曲线及DCA分析

3.7.3 随机森林回归

  1. 回归
  2. 回归及效果评价

3.7.4 Adaboost/slime2

3.7.5 深度学习

3.7.6 来源追溯SourceTracker/FEAST

3.7.7 其他常用算法

  1. 人工神经网络分类
  2. 支持向量机分类
  3. 逻辑回归(GLM)

3.8 树形图

3.8.1 进化树构建

  1. 多序列比对
  2. 建树Fastree/RaxL
  3. 宏基因组中建树Phylophlan3
  4. iTOL美化进化树
  5. ggtree美化进化树

3.8.2 分类树构建

  1. Graphlan与Cladogram
  2. Krona
  3. Metacoder

3.9 相关分析

3.9.1 特征与环境因子相关

3.9.2 特征间相关(同网络)

3.9.3 相关分析的可视化

4. 文章套路总结(Routine and ideas)

4.1 扩增子

4.2 宏基因组

4.2.1 参考基因集

4.2.2 碳水化合物

4.2.3 抗生素抗性

4.3 扩增子+宏基因组

4.4 其他研究热点

  • 人类:肠型、肥胖、二型糖尿病、IBD、早产、关联分析
  • 动物:无菌小鼠、牛瘤胃、食性、宿主和微生物共进化
  • 植物:根际、叶际、代谢物、氮利用、抗病
  • 环境:抗生素耐药、抗生素挖掘、极端环境、生命之树

5. 附录(Appendix)

5.1 实验设计

实验方案,样本元数据收集,样本名命名规则和示例。

5.2 测序平台和测序技术

5.3 数据备份与发布

NCBI,GSA,EBI

5.4 图片排版和美化

5.5 杂志点评

CNS,Microbiome,ISME

相关文章按杂志分类

5.6 论文写作、投稿和文献整理

5.7 机遇与挑战

目前的优缺点和不足,未来的发展方向。

5.8 三代测序

NBT的PacBio和ONT文章简介

5.9 经验和资源推荐

经验

办工效率

书籍专著

国外教程

5.10 宏基因组精品文章(专题)

本书主要参考文献全文解读

网站数据库

软件算法和流程

方法评测

培养组

肠型

基金

人物传记

参考基因(组)集

病毒组

5.11 猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。 image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组” image

image

点击阅读原文,跳转最新文章目录阅读 https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA