scrapy 抓的段子裡的 n 去不掉

2021-09-02 12:57:00 字數 420 閱讀 2460

''.join(sel.css("div.item-content::text").extract()).strip()

資料庫裡的 段子 還是有 \n

如下:"body" : "我一朋友他戀上一位女神,頭一次表白被謝絕了,他掉頭就走。\n幾天後女神主動找他問:你咋只表白一次?為什麼不多表白幾次?\n於是朋友說了一番話:「刮獎刮到乙個謝字就足夠了。愛情也一樣,沒有必要把『謝謝惠顧』四個字刮的乾乾淨淨才肯放手。」",

''.join(sel.css("div.item-content::text").extract()).strip('\t\n\r') 也沒用

咋辦?''.join(sel.css("div.item-content::text").extract()).replace("\n","")

把 "\n" 換成 空字串 就行了。

scrapy的去重機制

1 scrapy是通過hashlib演算法轉成長度一致的url,然後再通過set集合去重的,有興趣看原始碼 from scrapy.utils.request import request fingerprint def request fingerprint request,include hea...

生活裡雷人的小段子

1 早點兒休息吧,明天還得上班呢。不行啊,我必須得加倍努力工作,要不,這麼高的房價,我恐怕入土之前也買不上一套房子了。你再這麼廢寢忘食地乾下去,恐怕要提前入土了。2 一同事打算向暗戀的mm表白,大夥都很高興,勉勵他好好想想如何煽情,爭取一鼓作氣拿下她。當天晚上,開頭一切都好,最後他向mm說 噢,你緊...

Scrapy框架的去重機制

今天在做了個練習,爬取乙個新聞列表頁的所有新聞內容。看一下控制台scrapy的log,可以發現 no more duplicates will be shown see dupefilter debug to show all duplicate 大概意思是不再顯示重複的內容。原來scrapy有預設...