OmicsSuite:定制流程化的多组学大数据分析与可视化套件
过去十多年来,以Roche FLX和Illumina Hiseq平台为代表的Next-Generation Sequencing(NGS)技术,及以PacBio Sequel和Oxford Nanopore平台为首的Third-Generation Sequencing(TGS)技术的广泛应用,促进了细胞分子生物学、遗传进化生物学和计算生物学领域的蓬勃发展。随着测序和质谱技术的快速发展致使生物信息学不断创新和迭代,基于命令行、集成安装、和在线分析服务的程序不断涌现。在线分析服务方便研究人员远程访问和提交任务。例如,EMBL(https://www.ebi.ac.uk/services/)为核苷酸序列分析提供了许多服务;ExPASy(https://www.expasy.org)实现了一系列氨基酸序列分析服务;Galaxy框架(https://github.com/galaxyproject/galaxy/)提供成熟的自建生物云平台;HiPlot(https://hiplot.cn)平台提供免费全面的组学在线分析及可视化应用。在线云平台往往需要强大的计算资源支持,需要专业的互联网团队协助开发和维护。基于Python的BioConda(https://github.com/bioconda/)社区、基于R的CRAN(https://cran.r-project.org)和Bioconductor(https://www.bioconductor.org)社区在生物信息学领域尤为活跃且举足轻重。这些程序大多以命令行或引入的形式使用,例如BioPython基于Python开发用于序列和结构分析,BWA基于Clang设计用于短序列比对,Trimmomatic基于Java开发用于FastQ数据过滤,Trinity基于Perl设计用于RNA-Seq 从头组装。命令行或基于脚本的程序具有很高的学习曲线,使其更适合深度开发人员。因此,与在线服务器和命令行相比,桌面程序更适合低资源消耗、低学习成本的科研办公场景。如MEGA用于多序列比对和系统发育树构建、BioEdit用于序列编辑和操作、和TBtools用于序列处理和基因组数据分析、Cytoscape用于构建分子互作网络等。这些程序受到了广泛应用和好评,但目前尚缺专用于定制化和流程化的多组学分析的程序。
OmicsSuite是一个定制化流程化的用于多组学大数据分析和可视化套件(GitHub仓库:https://github.com/OmicsSuite/,官网:https://omicssuite.github.io),其基于JavaFX和流行的Shiny框架创建了具有序列视图、表格视图和智能组件的用户交互界面。OmicsSuite内部集成Java运行时环境JRE(v11.0.11)和R运行时(v4.2.2),用户安装后无需额外配置即可正常运行。多组学分析功能是基于BioJava和R CRAN和Bioconductor社区提供的300+包开发,它包含超过3000+可调参数接口。OmicsSuite为科研者提供现代化的适合生物多组学数据分析的操作界面。默认布局窗口顶部为多级菜单栏,底部为快捷访问栏,左侧为可折叠的工具箱,中间为主页包含统计花瓣图,右侧为元信息和版本更新记录面板。当启动子应用时,布局会切换到用户分析交互界面,中间为分析页面,右侧是应用详情信息包含参考文献,分析页面从上到下依次为数据部分、参数组件部分、结果部分组成。固定组件Progress、Demo、Clear、Submit是任务管理组件,分别用于显示当前运行进度、运行示例数据、清除当前任务、提交新任务新参数。其他常见组件如Themes主题, Colors颜色, Fonts字体, Figure Width图宽, Figure Height图高, 和Figure DPI图DPI属于参数规范组件。这些组件为OmicsSuite实现统一的主题和配色,并以10.00×6.18英寸(300 dpi)的形式标准化输出图像,遵循黄金分割比例。
OmicsSuite包含12个类别共175个子应用程序,类别以此为:Sequence序列编辑、Statistics统计学、Algorithm算法、Genomics基因组学、Transcriptomics转录组学、Enrichment富集分析、Proteomics蛋白质组学、Metabolomics代谢组学、Clinical临床医学、Microorganism微生物学、Single Cell单细胞和表格操作(图2)。OmicsSuite可以分析几乎所有的多组学数据,每个分类对应不同类型的专业多组学数据格式。Sequence类别中的应用程序通常需要FastA、GenBank格式的序列文件,Genomics类别中的应用程序可以读取MAF(Mutation Annotation Format)格式文件中的数据;Metabolomics类别中的应用程序用于解析液相质谱数据mzML格式文件,此外Single-Cell类别的应用程序用于分析Matrix或HDF5格式的单细胞转录组或空间转录组学数据。
综上所述,OmicsSuite的关键特征包括:1)用户友好的交互体验,方便的Demo运行按钮,完整的参数组件,以及表格和图像预览窗口。2)全面覆盖多组学分析和可视化功能,特别是包含全面的代谢组学和单细胞分析工作流程。3)OmicsSuite支持读取大多数多组学原始数据,如LC-MS数据mzML格式、单细胞10x基因组学Chromium Matrix格式、以及Visium HDF5格式数据。4)提供了完整的基本可视化系统,对降维算法(PCA、PCoA、tSNE等)和聚类算法(Kmeans、Hclust、AGNES等)的直观操作界面,以及SEM模型构建和评估系统。