上海交大医学院方海团队自主开发蛋白结构域语
随着AI工具AlphaFold2的问世,已快速解析了约2亿个蛋白质的结构,几乎覆盖了地球上已知的蛋白质。现如今,蛋白结构解析已变得可行,但大多数可用的蛋白序列缺乏相应的生物学注解。相比于全长的蛋白,其结构域在语义注解方面所受关注却较少。
该论文刊登在分子生物学领域老牌期刊 Journal of Molecular Biology 的年度计算资源(Computational Resources)专刊。论文详细介绍了最新版本的“蛋白结构域语义注解在线年版)”。
dcGO是一个基于关系数据库的蛋白结构语义注解在线数据库。它提供了对不同定义的蛋白结构域(包括SCOP超家族及家族,Pfam家族和InterPro家族)的注解功能,并且还包括了通路、转录调控因子、分子标志物、表型、疾病和药物等语义注释和分析功能。用户可以通过多样化的在线数据挖掘工作。
蛋白结构域作为蛋白质的功能与进化单元,其语义注释dcGO资源可用于蛋白功能预测(详见“连续3次蛋白功能预测CAFA国际性竞赛成果,Nature Methods 2013; Genome Biology 2016 & 2019”【1、2、3】),甚至表型预测(详见:)。
dcGO(2023年版)收录了7种不同的语义注解,以Ontology(本体化知识)为代表,涵盖功能、通路、转录调控因子、分子标志物、表型、疾病和药物。如图1总结所示,每个框代表一类语义注解,颜色深浅表示注释总数,内部数字描述了其注解的蛋白结构域数目(即SCOP、Pfam和InterPro)。
dcGO数据库的在线网站集多种计算机编程语言的优势联合开发,支持快速、便捷的数据库内容检索,并提供在线分析功能与动态展示结果。如图2所示,dcGO在线网站主页包括以下内容:浏览本体化知识树状结构的注解信息和注释的蛋白结构域、基于结构域的本体化知识注解富集分析、数据库访问帮助文档说明以及分页面搜索功能。
转化医学国家重大科技基础设施(上海)瑞金基地——生信大数据平台方海研究员为论文通讯作者,包超慧博士后为论文第一作者。此外,剑桥大学MRC分子生物学实验室和帝国理工大学的路畅博士对该工作做出了重要贡献。剑桥大学MRC分子生物学实验室的Julian Gough教授提供了宝贵的意见和帮助,上海交通大学网络信息中心的林新华主任提供了强有力的技术支持。该工作得到了国家自然科学基金、国家及上海高层次人才项目、上海高水平地方高校创新团队等支持。天选
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
相关文章:
相关推荐:
网友评论: