Skip to content

CSUBioinformatics1801/parodyatlas

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

56 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

parodyatlas

这是生物信息学1801实训作业

  • 赵书莹、陈姝亦、黄海盛、李阿鹏、黎宸彰、卢文庆、雷宇、巫肇曦、杨子奕、张彦哲、郑思悦

要求

  • 仿制ProteinAtlas
  • 使用TCGA(tumer arrays)、GEO(mt-DNA/RNA)、proteomics,并整合
  • 能器官水平显示各类组学数据
  • 拥有非常炫酷的数据可视化和交互功能,包含搜索功能
  • 要求2021.11.14前给出设计方案(未落实)
  • 要求自2021.11.08日起,到2022.01.23结束,期间每日08:00-17:00待在后栋219进行开发工作(未落实)
  • 要求2022.01.23前完成肝癌或者小细胞癌的案例
  • 2022.01.21上交实训报告
  • 2019级在2022年底继续开发其他disease

设计思路

  1. 用户输入搜索疾病
  2. 程序处理用户搜索词,向各个疾病-组学数据库爬取部分数据集,返回疾病简介,和数据集链接,给用户选择
  3. 用户选择合适数据集,使用本程序的爬虫自动下载
  4. 本程序的脚本自动解析数据,并作图分析
  • Search -done-> OMIM疾病简介
  • Search -done-> GEO Paper -user select-> GSE ID -undone-> data analysis(undone)
  • Search -unable-> TCGA file names -user select-> manifests -done-> data analysis(undone)

page草图

design

类关系图

graph TB
    subgraph 爬虫
    用户输入-->输入处理
    输入处理-->GEO爬虫
    输入处理-->OMIM爬虫
    输入处理-->TCGA爬虫
    end
    subgraph 前端
    GEO爬虫-->GSE-ID
    OMIM爬虫-->OMIM简介
    end
    subgraph 数据分析
    TCGA爬虫-->RNA-seq
    TCGA爬虫-->miRNA
    GSE-ID-->富集分析
    end
Loading

前端

设计:杨子亦

{
    "Home":"search"
    "Members": Hudehua
    xxxx cancer page
    "Instructions":"分析流程"

realization
分工:巫肇曦,黄海盛

爬虫

search word->spyder->parser->.json
分工:张彦哲

数据分析

GSEIDs/TCGA data -> results as 炫酷的静态图,预处理后的数据
分工:郑思悦

缺少服务器与数据

  • 假后台:预爬去数据(代表性数据集)
  • 静态前端

定位人群

入门xxx癌症的研究生新生

功能

  1. 整合不同组学数据链接合集
  2. 代表类型(citation高)的数据的概览: 火山图(郑思悦)

快速体验

github pages

Reference

  1. tcga_downloader
  2. tcga_data_autodownload
  3. SnagerBox
  4. Liu, Xiangxiang, et al. "Elevated circulating miR-182 acts as a diagnostic biomarker for early colorectal cancer." Cancer Management and Research 10 (2018): 857.