UniProt：免费的蛋白质序列与功能信息数据库

UniProt是一个为全球科研人员服务的全球最权威、更新最及时并且完全免费的蛋白质序列与功能信息数据库，它提供从基础序列到功能注释、跨库链接以及相关工具的一体化服务。其目的在于收集、整合并标准化来自文献和多个来源数据库的蛋白质知识，以此来支持生物学、医学和生物技术方面的研究。UniProt由EMBL - EBI、SIB和PIR共同运营，核心团队大概有90人，负责数据管理、软件开发和用户支持等工作。

数据库组成与“该查哪一块”

UniProtKB（知识库核心）：

Swiss - Prot：经过人工校验，注释严谨，适合查找可靠的功能、定位和修饰信息。
TrEMBL：通过计算自动注释，条目数量多，但质量有好有坏，适合初步筛选或者同源搜索。
UniRef：按照相似度进行聚类，有90%和50%两档，在进行大规模组学研究或者机器学习时，冗余度较低。
UniParc：收录了所有历史版本的序列，能够追踪一条序列何时被拆分或者合并，适合进行溯源。

UniProt功能速览

序列检索与批量下载：主页的搜索框支持使用UniProt ID、基因名、蛋白名、EC号、GO术语等进行搜索；在结果页可以一键导出FASTA、XML、TSV格式。如果需要几百几千条序列，使用“Retrieve/ID mapping”工具，粘贴Accession列表就能打包下载。
功能与病理注释：每个条目默认会给出功能,如催化机理、信号通路、亚细胞定位、翻译后修饰、病理与生物技术等信息。所有字段都带有证据代码（ECO:××××），可以一眼区分是实验证据还是生物信息预测。
序列比对与同源搜索：内置了BLAST，支持只搜索Swiss - Prot或者全库搜索；搜索结果可以直接跳转到多序列比对、进化树、保守域等内容。
结构/相互作用/通路交叉链接：在页面右侧的“Cross - references”处，一键就能链接到PDB、String、KEGG/Reactome、ChEMBL，不用手动跳转。
注释可信度打分：评分范围是0 - 5星，星级越多，说明功能注释越丰富，证据越充分；算法是公开的，可以用于给下游AI模型设置阈值。

UniProt科研场景

分子对接/药物设计：先搜索靶点的UniProt ID，查看“Structure”栏下列出的PDB编码，然后直接去PDB下载对应的晶体结构，再结合文献中给出的结合口袋残基，就可以建立docking grid。
突变致病性分析：在“Natural variants”子表中找到与疾病相关的SNP，结合“Subcellular location”判断突变是否位于信号肽或者跨膜区，然后再链接到ClinVar进行临床证据复核。
多组学整合：使用UniRef90把蛋白ID处理成非冗余的，再与转录丰度、互作网络进行映射，这样可以显著减少计算量，并且避免对同一家族蛋白重复计数。

UniProt使用流程

打开UniProt官网uniprot.org，在搜索栏输入“TP53 human”或者Accession“P04637”。
在结果页左侧使用Reviewed过滤，只查看Swiss - Prot；点击条目后，先阅读“Function”和“Subcellular”部分，再点击“FASTA”按钮获取序列。
如果要做BLAST，点击工具栏中的“BLAST”，粘贴序列，数据库选择“UniProtKB”，参数使用默认值，点击Run，5 - 30秒就会出结果，还可以直接批量下载同源蛋白表。