Python爬蟲工程師面試常見題

2021-08-20 22:50:54 字數 1520 閱讀 7072

一.專案問題:

一般面試官的第乙個問題八成都是問一下以前做過的專案,所以最好準備兩個自己最近寫的有些技術

含量的專案,當然一定要自己親手寫過的,在別的地方看的原始碼,就算看的再清楚,總歸沒有自己敲的

了解的多。以下是抽出的幾點

1.你寫爬蟲的時候都遇到過什麼反爬蟲措施,你是怎麼解決的

2.用的什麼框架,為什麼選擇這個框架(我用的是scrapy框架,所以下面的問題也是針對scrapy)

二.框架問題(scrapy)可能會根據你說的框架問不同的問題,但是scrapy還是比較多的

1.scrapy的基本結構(五個部分都是什麼,請求發出去的整個流程)

2.scrapy的去重原理 (指紋去重到底是什麼原理)

3.scrapy中介軟體有幾種類,你用過那些中介軟體,

4.scrapy中介軟體再**起的作用(面向切面程式設計)

三.**問題

1.為什麼會用到**

2.**怎麼使用(具體**,請求在什麼時候新增的**)

3.**失效了怎麼處理

四.驗證碼處理

1.登陸驗證碼處理

2.爬取速度過快出現的驗證碼處理

3.如何用機器識別驗證碼

五.模擬登陸問題

1.模擬登陸流程

2.cookie如何處理

3.如何處理**傳參加密的情況

六.分布式

1.分布式原理

2.分布式如何判斷爬蟲已經停止了

3.分布式去重原理

七.資料儲存和資料庫問題

1.關係型資料庫和非關係型資料庫的區別

2.爬下來資料你會選擇什麼儲存方式,為什麼

3.各種資料庫支援的資料型別,和特點,比如:redis如何實現持久化,mongodb

是否支援事物等。。

八.python基礎問題

# 基礎問題非常多,但是因為爬蟲性質,還是有些問的比較多的,下面是總結

1.python2和python3的區別,如何實現python2**遷移到python3環境

2.python2和python3的編碼方式有什麼差別(工作中發現編碼問題還是挺讓人不爽的)

3.迭代器,生成器,裝飾器

4.python的資料型別

九.協議問題

# 爬蟲從網頁上拿資料肯定需要模擬網路通訊的協議

1.http協議,請求由什麼組成,每個字段分別有什麼用,https和http有什麼差距

2.證書問題

3.tcp,udp各種相關問題

十.資料提取問題

1.主要使用什麼樣的結構化資料提取方式,可能會寫一兩個例子

2.正則的使用

3.動態載入的資料如何提取

4.json資料如何提取

十二.演算法問題

# 這個實在不好總結,比較考驗**功力,大部分會讓你寫出時間複雜度比較低的

演算法。小夥伴們要善用python的資料型別,對python的資料結構深入了解。

以上就是總結內容,歡迎小夥伴們共同**。每個公司各有特點,但是這些算是基礎,也是常見問題。

祝大家能找到理想工作,不寫bug

爬蟲工程師轉反爬蟲 如何入行爬蟲工程師

撰文 皓禹在現狀和想要達到的目標之間,總是有一條大河。大部分人花費了巨大的精力在水流裡掙扎,還沒能接近目標,就已經被湍急的水流沖走了。然而,總有少部分人能乘著小船,直達對岸。10年前,從普通學校畢業的我進入了一家小公司,傳統運維的工作重複性太高,特別枯燥。3個月之後,我跳槽了,薪酬是之前的兩倍。學一...

PHP工程師面試常見問題

九月快到了,又是一年秋招,所以要好好準備一下,針對不足和薄弱的地方進行學習,希望可以找到令自己滿意的工作。最近慕課網舉辦了一次分享面試經驗的活動,我從上面總結了一下常見的問題,來督促自己完善和提公升。後續會不斷更新,盡自己最大努力做到最好。加油!php面試 一 技術問題 1 基礎知識 如陣列的操作,...

演算法工程師面試常見問題

月份就要開始找工作了,一直期待能夠成為一名演算法工程師,所以在這裡總結一下演算法工程師常見問題。期待9月秋招時能有乙個好的結果。本篇部落格會一直更新下去。深度學習 c python 劍指offer leetcode基本就能解決 劍指offer演算法實現 1 過擬合問題 2 交叉驗證問題 3 模型融合...