果蝇(Drosophila)是遗传学和功能基因组学研究的重要模式生物。随着多种果蝇物种基因组的高质量测序完成,跨物种比较分析和基因功能预测成为可能。在此背景下,准确鉴定直系同源基因(orthologs)成为连接不同物种、解析基因功能保守性的关键环节。然而,现有数据库多集中于模式物种黑腹果蝇(Drosophila melanogaster),对其他果蝇物种的资源整合相对不足,制约了系统性的比较分析。
2026年2月17日,广州医科大学广州霍夫曼免疫所刘陌教授团队与南开大学蔡祥睿团队等在 《hLife》 发表了题为 “DrosGB: An integrated multi-omics database for comparative genomics and functional annotation of 35 Drosophila species” 的研究论文,构建了果蝇基因组数据库 DrosGB(https://www.drosgb.com)。该资源整合了35种果蝇的基因组数据、876个转录组数据集、约42万个三维蛋白结构,并结合OrthoFinder、TOGA、Foldseek 和 SonicParanoid2 四种方法构建高可信直系同源基因集,旨在为果蝇属的比较基因组与功能研究提供多组学数据支持。
DrosGB收集了来自 FlyBase 和 NCBI 的35种果蝇基因组和注释数据(图1),并以黑腹果蝇作为参考,使用 OrthoFinder、TOGA、Foldseek 和 SonicParanoid2 四种工具分别鉴定直系同源基因,并对结果进行整合和过滤。结合 UniProt、Ensembl 和 NCBI 基因信息完成基因ID映射。同时,基于 DIOPT 数据库中黑腹果蝇与人类的同源关系,推导其余34种果蝇与人类的间接直系同源关系。为了提高可靠性,提取至少三种工具支持的直系同源基因对(即 Sum ≥ 3,Sum 表示支持给定直系同源基因对的鉴定工具总数),生成高可信的直系同源基因集(high-confidence ortholog set),并根据系统发育关系对其进行分类。 此外,进一步开展蛋白质三维结构预测、功能注释和基因表达分析,为果蝇基因研究提供多维度的数据支持。
在线平台包含五个主要模块:“Home”、“Tools”、“Browse”、“Download”和“About”。 其中, “Tools”模块集成了多个功能——基因搜索、同源ID 映射、BLAST、基因树构建、序列获取、引物设计、基因组共线性及三位蛋白结构搜索。 “Browse”模块包括三个子模块:物种信息、物种树和高置信度直系同源概览。“Download”模块提供四种同源推断工具的结果、高可信同源基因集数据、FlyBase 参考数据、基因表达数据、基因组与注释等资源。

图1 DrosGB 数据库的处理流程与内容概览
DrosGB 系统整合了 35 种果蝇的基因组、转录组、功能注释以及蛋白三维结构数据,并通过多种同源预测方法交叉验证,构建了高可信的直系同源基因集,弥补了现有数据库在跨物种整合方面的不足,为果蝇属的比较基因组和功能研究打下了更加扎实的数据基础。在网站功能上,DrosGB 设计了五大模块,集成基因检索、同源 ID 映射、BLAST 比对、基因树构建、序列获取、共线性分析、三维结构浏览等多种在线分析工具,同时支持原始数据下载,让研究者可以从“查数据”到“做分析”一步到位。
未来,随着广州霍夫曼免疫所主导建设的果蝇突变体库的完善,更多果蝇物种和组学数据的不断纳入,以及同源鉴定策略和可视化工具的持续优化升级,DrosGB 有望进一步提升数据深度与使用体验,逐步成长为果蝇比较基因组与功能研究领域的重要基础平台。
在这项研究中,共同通讯作者为广州医科大学广州霍夫曼免疫研究所刘陌教授和南开大学计算机学院蔡祥瑞教授,共同第一作者为郑淇(广州霍夫曼免疫所),张传畅(南开大学计算机学院)和张浚辉(广州霍夫曼免疫所)。该研究得到国家自然科学基金,广州市科技局基金等项目资助。
刘陌教授团队依托广州霍夫曼免疫所和广州医科大学附属第一医院,现招聘博士后2-3名,专业方向为生物信息学方向。课题组经费充裕,设备完善。期待优秀人才的加入!