全球蛋白資源資料庫UniProt

2021-05-21 23:52:58 字數 2620 閱讀 6428

uniprot 是乙個集中收錄蛋白質資源並能與其它資源相 互聯絡的資料庫 , 也是目前為止收錄蛋白質序列目錄最廣泛 、 功能注釋最全面的乙個資料庫 。 uniprot 是由歐洲生物資訊學研究所(european bioinformatics institute)、美國蛋白質資訊資源(prontein information resource)以及瑞士生物資訊研究所(swiss institute of bioinformatics)等機構共同組成的uniprot協會(uniprot consortium)編輯、製作的乙個資訊資源,旨在為從事現代生物研究的科研人員提供乙個有關蛋白質序列及其相關功能方面的廣泛的、高質量的並可免費使用的共享資料庫。

1 uniprot資料庫的構成

uniprot 資料庫由 uniprot 知識庫 ( uniprotkb )、 uniprot 檔案 ( uniparc )、 uniprot 參考資料庫

(uniref)以及uniprot元基因組學與環境微生物序列資料庫(unimes)構成。

1.1 uniprot知識庫(uniprotkb)

uniprot 知識庫是乙個專家級的資料庫 , 它可以通過與其它資源進行互動查詢的方式為使用者提供乙個有

關目的蛋白質的全面的綜合資訊。

uniprotkb包括兩個組成部分:uniprotkb/swiss-prot與uniprotkb/trembl。

1.1.1 uniprotkb/swiss-prot

uniprotkb/swiss-prot 主要收錄人工注釋的序列及其相關文獻資訊和經過計算機輔助分析的序列 。 這

些注釋都是由專業的生物學家給出的,準確性無需置疑。在uniprotkb中,注釋包括對蛋白質功能、酶學特

性、具有生物學意義的相關結構域及位點、翻譯後修飾情況、亞細胞定位、組織特異性、發育階段特異性、

結構、相互作用、剪接異構體、相關疾病資訊的注釋等等。注釋的另乙個重要工作就是對同一蛋白的所有相

關報道進行歸納、總結。對蛋白質序列進行仔細檢查之後,注釋人員還會將相關參考序列、剪接變異體、基

因變異體和疾病相關資訊全都整合起來,而且不同序列間有任何的差異也會標示出來。注釋人員還會將蛋白

質資料與其它核酸資料庫 、 物種特異性資料庫 、 結構域資料庫 、 家族遺傳史或疾病資料資料庫進行交叉參

考。1.1.2 uniprotkb/trembl

uniprotkb/trembl 收錄的則是高質量的經計算機分析後進行自動注釋和分類的序列 。 計算機輔助

注釋使用的是 spearmint 規則 , 而人工注釋依據的則是蛋白質家族規則 , 包括 hamap 家族規則 ( hamap

family rules )、 rulebase 規則 、 pirsf 分類命名規則以及位點規則 。 uniprotkb/trembl 還收錄了所有

embl-bank/ genbank/ddbj 核酸序列資料庫中的編碼序列的翻譯後蛋白質序列和來自擬南芥資訊資源庫

(tair)、sgd和人類ensembl資料庫中序列的翻譯後蛋白質序列。

其中 , 研究人員排除了諸如 embl-bank/ genbank/ddbj 資料庫中編碼小片段的序列 、 人工合成的序

列 、 大部分非胚系免疫球蛋白序列 、 大部分 t 細胞受體序列 、 大部分專利序列和一些高度過表達的序列 。 這

些選擇的記錄都是經過大量人工注釋的,然後根據注釋的情況收入uniprotkb/swiss-prot 資料庫。

3 uniprotkb附加的蛋白質文獻資訊

uniprot 一直致力於將 uniprotkb 注釋蛋白質時引用的文獻等資訊整合到 uniprot 中以供使用者參考 。 目

前 , 有將近 218 , 000 條 pubmed 的文獻被引用來注釋 uniprotkb 中將近 410 萬條序列 , 而這些文獻中有 66 % 都

被收錄到uniprotkb/swiss-prot中。其它諸如entrez gene資料庫、模式生物資料庫(mod)、sgd、mgi

等公共資料庫也都為每條基因或蛋白記錄提供引用文獻資訊。對於那些在不同資料庫中都被注釋過的基因來

說,每乙個資料庫都會根據自己的特點來有選擇的引用相關文獻進行注釋。因此,將各種不同的資料庫文獻

資源都整合到uniprotkb非常有必要。uniprot現在已經將收錄人類、小鼠、酵母和其它物種基因或蛋白質信

息的 5 個外部資料庫的引用文獻資訊整合進來了 , 這些外部資料庫包括 : entrez gene 裡的 generif 資料庫

(www.ncbi.nlm.n ih.gov/projects/generif)、sgd(www.yeastgenome.org)、mgi(www.informatics.

jax.org)、gad(geneticassociationdn.nih.gov)以及pdb(www.rcsb.org/pdb/)。

上述5個外部資料庫中共整合了約244, 000 條來自 pubmed同時uniprotkb 中還不曾收錄的引用文獻, 這

些文獻涵蓋了 uniprotkb 中約 110 , 000 條記錄 。 其它額外的文獻記錄都直接鏈結到 uniprot 蛋白質查詢網頁上

了 。 uniprot 還將繼續從其它 mod 資料庫和蛋白質功能資料庫中發掘更多的文獻資料補充到 uniprotkb 中 。

這些補充的文獻資料不僅有利於對uniprotkb中的記錄進行注釋,同時也有利於幫助使用者發掘出更多他們感

興趣的蛋白的資料。

全球IP位址資料庫

下面是乙個免費的全球ip位址資料庫,包括了國家,城市,地區,和經緯度,以便你可以利用google map在地圖上標註。這個資料庫的精確度可能有60 左右。sql format 更新至 2009年3月11日 csv format 多檔案 更新至 2009年3月11日 下面是怎麼使用這個資料庫。ip a...

資料庫之資源釋放

昨天碰到乙個問題,當多次訪問如下 後,資料庫 oracle 提示游標鏈結數已經達到最大 oledbdatareader datar cmd.executereader datar.read datar.close datareader我已經關閉了,到底是什麼資源沒有釋放呢。後來,我把程式改為oled...

資料庫連線資源釋放

專案執行過程中遇到了tomcat連線池資源不釋放,導致系統崩潰的問題。1 initialsize 連線池啟動時建立的初始化連線數量 2 maxactive 連線池中可同時連線的最大的連線數 3 maxidle 連線池中最大的空閒的連線數,超過的空閒連線將被釋放,如果設定為負數表示不限制 4 mini...