scrapy 抓的段子裡的 n 去不掉

''.join(sel.css("div.item-content::text").extract()).strip()

資料庫裡的段子還是有 \n

如下："body" : "我一朋友他戀上一位女神，頭一次表白被謝絕了，他掉頭就走。\n幾天後女神主動找他問：你咋只表白一次？為什麼不多表白幾次？\n於是朋友說了一番話：「刮獎刮到乙個謝字就足夠了。愛情也一樣，沒有必要把『謝謝惠顧』四個字刮的乾乾淨淨才肯放手。」",

''.join(sel.css("div.item-content::text").extract()).strip('\t\n\r') 也沒用

咋辦？''.join(sel.css("div.item-content::text").extract()).replace("\n","")

把 "\n" 換成空字串就行了。

scrapy的去重機制

1 scrapy是通過hashlib演算法轉成長度一致的url，然後再通過set集合去重的，有興趣看原始碼 from scrapy.utils.request import request fingerprint def request fingerprint request,include hea...

生活裡雷人的小段子

1 早點兒休息吧，明天還得上班呢。不行啊，我必須得加倍努力工作，要不，這麼高的房價，我恐怕入土之前也買不上一套房子了。你再這麼廢寢忘食地乾下去，恐怕要提前入土了。2 一同事打算向暗戀的mm表白，大夥都很高興，勉勵他好好想想如何煽情，爭取一鼓作氣拿下她。當天晚上，開頭一切都好，最後他向mm說噢，你緊...

Scrapy框架的去重機制

今天在做了個練習，爬取乙個新聞列表頁的所有新聞內容。看一下控制台scrapy的log，可以發現 no more duplicates will be shown see dupefilter debug to show all duplicate 大概意思是不再顯示重複的內容。原來scrapy有預設...

scrapy 抓的段子裡的 n 去不掉

scrapy的去重機制

生活裡雷人的小段子

Scrapy框架的去重機制

相關推薦