爬蟲時多種類資訊寫入

2021-09-12 11:42:07 字數 740 閱讀 9892

爬蟲時,我們一般會確定我們要哪些資訊然後寫入檔案中。但有時候遇到如下情況,我們需要的資訊有a,b,c,d,e,f,g,h。這8個資訊,但是在第乙個頁面中只有a,b,c,d這四個資訊,第二個頁面中有c,d,e,f,h這4個資訊,但我們寫入檔案的時候要求是如下格式:ab

cdef

ghab

cdcd

efh其他沒有的種類空著。最近就遇到了這種情況,我想到了如下方法。

首先我把回去到的資訊存入乙個二維列表[[a,1],[b,1],[c,2],[d,4],[e,7],[f,6],[g,8]]。這是我獲取到的實際資訊。我會建乙個空字典

dict = { 'a':' ',

'a':' ',

'b':' ',

'c':' ',

'd':' ',

'e':' ',

'f':' ',

'g':' ',

'h':' ',

第列表做迴圈去比較列表中的小列表的第乙個元素是否存在於自動中,如果有則把第二個元素存放在字典中。最終得到了資料字典,再把字典的值轉為列表存入檔案中,**如下

for i in range(len(infos)):

for key in ori_dict:

if infos[i][0] == key:

ori_dict[key] = infos[i][1]

ori_list = list(ori_dict.values())

listview 多種型別

1.type count 2,type position 3,getview by type override public int getitemviewtype int position else return type override public int getviewtypecount ...

爬蟲的種類

通用爬蟲 搜尋引擎用的爬蟲系統 再對這些網頁進行相關處理 提取關鍵字,去除廣告 最後提供乙個 使用者可用的介面。抓取流程 1.首先取一部分已有的url,把這些url放到待爬取佇列。2.從佇列裡取出這些url,然後通過dns得到主機ip,然後去這個ip伺服器 放入已爬取佇列中.3.分析這些網頁內容,找...

Serde 多種型別轉換

參考 如果在 json 中某個欄位有多種型別,可以使用下面的方式處理。use serde derive serialize,deserialize,debug struct person derive deserialize serde untagged 列舉型別的無標籤方式 enum stroru...