这是生物信息学1801实训作业
- 赵书莹、陈姝亦、黄海盛、李阿鹏、黎宸彰、卢文庆、雷宇、巫肇曦、杨子奕、张彦哲、郑思悦
- 仿制ProteinAtlas
- 使用TCGA(tumer arrays)、GEO(mt-DNA/RNA)、proteomics,并整合
- 能器官水平显示各类组学数据
- 拥有非常炫酷的数据可视化和交互功能,包含搜索功能
- 要求2021.11.14前给出设计方案(未落实)
- 要求自2021.11.08日起,到2022.01.23结束,期间每日08:00-17:00待在后栋219进行开发工作(未落实)
- 要求2022.01.23前完成肝癌或者小细胞癌的案例
- 2022.01.21上交实训报告
- 2019级在2022年底继续开发其他disease
- 用户输入搜索疾病
- 程序处理用户搜索词,向各个疾病-组学数据库爬取部分数据集,返回疾病简介,和数据集链接,给用户选择
- 用户选择合适数据集,使用本程序的爬虫自动下载
- 本程序的脚本自动解析数据,并作图分析
- Search -done-> OMIM疾病简介
- Search -done-> GEO Paper -user select-> GSE ID -undone-> data analysis(undone)
- Search -unable-> TCGA file names -user select-> manifests -done-> data analysis(undone)
graph TB
subgraph 爬虫
用户输入-->输入处理
输入处理-->GEO爬虫
输入处理-->OMIM爬虫
输入处理-->TCGA爬虫
end
subgraph 前端
GEO爬虫-->GSE-ID
OMIM爬虫-->OMIM简介
end
subgraph 数据分析
TCGA爬虫-->RNA-seq
TCGA爬虫-->miRNA
GSE-ID-->富集分析
end
设计:杨子亦
{
"Home":"search"
"Members": Hudehua
xxxx cancer page
"Instructions":"分析流程"
realization
分工:巫肇曦
,黄海盛
search word->spyder->parser->.json
分工:张彦哲
GSEIDs/TCGA data -> results as 炫酷的静态图,预处理后的数据
分工:郑思悦
- 假后台:预爬去数据(代表性数据集)
- 静态前端
入门xxx癌症的研究生新生
- 整合不同组学数据链接合集
- 代表类型(citation高)的数据的概览: 火山图(
郑思悦
)
- tcga_downloader
- tcga_data_autodownload
- SnagerBox
- Liu, Xiangxiang, et al. "Elevated circulating miR-182 acts as a diagnostic biomarker for early colorectal cancer." Cancer Management and Research 10 (2018): 857.