Biopython根據關鍵詞在NCBI上查詢文獻

2021-09-23 21:56:10 字數 1501 閱讀 1954

biopython是python的乙個庫,這個庫可以解決很多生物上的問題,使大量的生物資料簡單化,是個很好用的包。

對於資料庫上的各種資訊,有專門的函式處理,不用按照常規的文字處理方法,寫大量的**。比如很常見的報告中展示的參考文獻,一般思路是有了文章的pmid,然後通過爬蟲的方法,獲取這些文章的title,author,source等資訊。

from bio import entrez

entrez.email = '*********[email protected]' # always tell who you are

handle = entrez.egquery(term="epilepsy")

record = entrez.read(handle)

for row in record["egqueryresult"]:

if row["dbname"]=="pubmed":

print row["count"] #total is 143833

可以看到在pubmed資料庫中有epilepsy有關的文章有143833,所以取前40個看下輸出的資訊是什麼。

輸入上面的pmid,去驗證一下是否真的和 epilepsy有關,發現是真的。取前10個測試一下。

parse對於大檔案使解析使用,變成乙個迭代器。

id =idlist[0:10]

from bio import medline

handle = entrez.efetch(db="pubmed", id=id, rettype="medline",retmode="text")

records = medline.parse(handle)

records = list(records) #records 是乙個迭代器,所以只能訪問這些records一次。如果想儲存這些records,需要把他們轉成列表。

對於大量的資料,可以通過history來操作。具體見

長尾關鍵詞挖掘技巧五 如何根據關鍵詞寫文章

大家好,我是虛子雨。前面我給大家寫了四篇關於長尾詞挖掘技巧的文章,這裡就以第四篇為例 長尾關鍵詞挖掘技巧四 挖掘的具體工作 在這四篇文章中我介紹的都是關於長尾詞具體的該怎樣去挖掘,很多朋友看過之後覺得很不錯,很多人都跟我做了一定的交流,也有人要求我寫今天的這個主題。其實在做這個系列之前我就想好了在這...

關鍵詞密度

百科名片 目錄 隱藏 什麼是增加keywords密度的最好方式 關鍵字堆砌 keyword stuffing 的定義 關鍵字堆砌 keyword stuffing 關鍵字堆砌 keyword stuffing 是指在乙個網頁中非常密集地放置關鍵字。一般說來,如果關鍵字的出現過於頻繁,就會蓋過網頁的其...

關鍵詞提取

隱含主題模型優缺點 隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體 如人名 地名 機構名和產品名 的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差 典型的聚類演算法 層次聚類 hierarchical...