2020最新最全Python面試題整理(五)

2021-10-24 14:54:43 字數 510 閱讀 6137

1 描述一下scrapy框架的執行機制?2 寫爬蟲使用多程序好,還是用多執行緒好?3 常見的反爬蟲和應對方法?

基於使用者行為,同乙個ip段時間多次訪問同一頁面 利用**ip,構建ip池

請求頭里的user-agent 構建user-agent池(作業系統、瀏覽器不同,模擬不同使用者)

動態載入(抓到的資料和瀏覽器顯示的不一樣),js渲染 模擬ajax請求,返回json形式的資料

selenium / webdriver 模擬瀏覽器載入

對抓到的資料進行分析

加密引數字段 會話跟蹤【cookie】 防盜煉設定【referer

4 分布式爬蟲主要解決什麼問題?

面對海量待抓取網頁,只有採用分布式架構,才有可能在較短時間內完成一輪抓取工作。

它的開發效率是比較快而且簡單的。

5 如何提高爬取效率?

2020最新最全Python面試題整理(七)

1 打亂乙個排好序的list物件alist?import random alist 1 2,3 4,5 random.shuffle alist print alist 2 現有字典 d 請按value值進行排序?sorted d.items key lambda x x 1 3 字典推導式 d 4...

2020最新最全Python面試題整理(六)

1 說說什麼是爬蟲協議?robots協議 也稱為爬蟲協議 爬蟲規則 機械人協議等 也就是robots.txt,通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。robots協議是 國際網際網路界通行的道德規範,其目的是保護 資料和敏感資訊 確保使用者個人資訊和隱私不被侵犯。因其不是...

2023年最全python面試題

1.python裡面如何實現tuple和list的轉換?答 直接使用tuple和list函式就行了,type 可以判斷物件的型別 2.什麼是lambda函式?它有什麼好處?答 lambda 表示式,通常是在需要乙個函式,但是又不想費神去命名乙個函式的場合下使用,也就是指匿名函式 lambda函式 首...