UniProt是一个为全球科研人员服务的全球最权威、更新最及时并且完全免费的蛋白质序列与功能信息数据库,它提供从基础序列到功能注释、跨库链接以及相关工具的一体化服务。其目的在于收集、整合并标准化来自文献和多个来源数据库的蛋白质知识,以此来支持生物学、医学和生物技术方面的研究。UniProt由EMBL - EBI、SIB和PIR共同运营,核心团队大概有90人,负责数据管理、软件开发和用户支持等工作。
数据库组成与“该查哪一块”
UniProtKB(知识库核心):
Swiss - Prot:经过人工校验,注释严谨,适合查找可靠的功能、定位和修饰信息。
TrEMBL:通过计算自动注释,条目数量多,但质量有好有坏,适合初步筛选或者同源搜索。
UniRef:按照相似度进行聚类,有90%和50%两档,在进行大规模组学研究或者机器学习时,冗余度较低。
UniParc:收录了所有历史版本的序列,能够追踪一条序列何时被拆分或者合并,适合进行溯源。
UniProt功能速览
序列检索与批量下载:主页的搜索框支持使用UniProt ID、基因名、蛋白名、EC号、GO术语等进行搜索;在结果页可以一键导出FASTA、XML、TSV格式。如果需要几百几千条序列,使用“Retrieve/ID mapping”工具,粘贴Accession列表就能打包下载。
功能与病理注释:每个条目默认会给出功能,如催化机理、信号通路、亚细胞定位、翻译后修饰、病理与生物技术等信息。所有字段都带有证据代码(ECO:××××),可以一眼区分是实验证据还是生物信息预测。
序列比对与同源搜索:内置了BLAST,支持只搜索Swiss - Prot或者全库搜索;搜索结果可以直接跳转到多序列比对、进化树、保守域等内容。
结构/相互作用/通路交叉链接:在页面右侧的“Cross - references”处,一键就能链接到PDB、String、KEGG/Reactome、ChEMBL,不用手动跳转。
注释可信度打分:评分范围是0 - 5星,星级越多,说明功能注释越丰富,证据越充分;算法是公开的,可以用于给下游AI模型设置阈值。
UniProt科研场景
分子对接/药物设计:先搜索靶点的UniProt ID,查看“Structure”栏下列出的PDB编码,然后直接去PDB下载对应的晶体结构,再结合文献中给出的结合口袋残基,就可以建立docking grid。
突变致病性分析:在“Natural variants”子表中找到与疾病相关的SNP,结合“Subcellular location”判断突变是否位于信号肽或者跨膜区,然后再链接到ClinVar进行临床证据复核。
多组学整合:使用UniRef90把蛋白ID处理成非冗余的,再与转录丰度、互作网络进行映射,这样可以显著减少计算量,并且避免对同一家族蛋白重复计数。
UniProt使用流程
打开UniProt官网uniprot.org,在搜索栏输入“TP53 human”或者Accession“P04637”。
在结果页左侧使用Reviewed过滤,只查看Swiss - Prot;点击条目后,先阅读“Function”和“Subcellular”部分,再点击“FASTA”按钮获取序列。
如果要做BLAST,点击工具栏中的“BLAST”,粘贴序列,数据库选择“UniProtKB”,参数使用默认值,点击Run,5 - 30秒就会出结果,还可以直接批量下载同源蛋白表。
进阶技巧
API自动化:使用RESTful URL格式(链接1),一条命令就能获取JSON注释,适合用Python/R脚本批量抓取数据。
置信度筛选:只保留annotationScore≥4的条目,能把“功能未知”蛋白的比例降到5%以下,提高下游机器学习标签的质量。
版本溯源:如果发现同一个ID的序列前后不一致,去UniParc查看“version number”,就能快速定位变更历史,避免实验重现性问题。
简单来说,UniProt把“序列 - 功能 - 结构 - 疾病 - 文献”这五维信息整合到了一个网页上,在生命科学研究中,只要涉及蛋白质,几乎都可以把它作为首选查询的地方。

论文工具
文献管理
中文文献
英文文献
选刊投稿
专利检索
学术检索
学术社区
Ai+学习
英语学习
考研考公
出国留学
资格考试
学习平台
宝藏网站 