Scrapy中將item欄位轉為簡體or繁體

2022-06-19 13:09:09 字數 981 閱讀 4700

1. 安裝hanziconv

安裝乙個簡繁體轉換的包:

pip install hanziconv

2. 自定義乙個itempiples

找到專案中的pipelines.py檔案

新增自定義的pipeline:

from hanziconv import

hanziconv

class

hanziconvpipeline(object):

defprocess_item(self, item, spider):

project_info = item['

project_info']

for key, value in

project_info.items():

if value is

notnone:

ifisinstance(value, unicode):

value =hanziconv.totraditional(str(value))

print

key, value

project_info[key] =value

else: #

不為中文不處理

pass

else: #

value為none 初始化為空串

project_info[key] = ""

return item

此**為本人專案**,判斷value為unicode,則轉換為繁體;

若要將繁體轉換為簡體,請將totraditional改為tosimplified。

3. 配置專案pipeline

找到settings.py中的item_pipelines

新增自定義的pipelines:

item_pipelines =

:warning: 需手動修改為自己的專案名稱!

**於 

Scrapy中的item是什麼

這兩天看scrapy,看到item這個東西,覺得有點抽象,查了一下,有點明白了。item 是儲存爬取到的資料的容器 其使用方法和python字典類似,並且提供了額外保護機制來避免拼寫錯誤導致的未定義字段錯誤。爬取的主要目標就是從非結構性的資料來源提取結構性資料,例如網頁。scrapy提供 item ...

Scrapy中的item是什麼

這兩天看scrapy,看到item這個東西,覺得有點抽象,查了一下,有點明白了。item 是儲存爬取到的資料的容器 其使用方法和python字典類似,並且提供了額外保護機制來避免拼寫錯誤導致的未定義字段錯誤。爬取的主要目標就是從非結構性的資料來源提取結構性資料,例如網頁。scrapy提供 item ...

Scrapy中的Item與ItemLoader物件

scrapy之item與itemload item物件是種簡單的容器,類似於python的字典,用於儲存處理爬取到的內容,item的用法與字典基本一致,所以可以把item當做字典來操作 item宣告在scrapy專案的items.py中,通過class和field物件來宣告 import scrap...