bd爬蟲總結

爬蟲心得：

首先要有頁面的真是路徑，不然就算你的**很強，那也爬不到任何東西。

href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%e7%99%be%e5%ba%a6&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputt=1419&rsv_sug=1&x_bfe_rqs=03e80&x_bfe_tjscore=0.002404&tngroupname=organic_news&pn=20"

href="/s?ie=utf-8&cl=2&medium=0&rtt=4&bsst=1&rsv_dl=news_b_pn&tn=news&word=%e8%82%96%e4%ba%9a%e5%ba%86+%e5%9b%9b%e4%b8%aa%e6%9c%80%e4%b8%a5&x_bfe_rqs=03e80&x_bfe_tjscore=0.007253&tngroupname=organic_news&pn=20"

url1可以爬到你在瀏覽器看到的內容，但是url2你爬不到你在瀏覽器端看到的頁面，所以分析這兩個頁面url，可以看出兩處差別：

差別1：

url1：&rtt=1

url2：&rtt=4

差別2：

url1：&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputt=1419&rsv_sug=1&x_bfe_rqs=03e80

url2：url2沒有這些引數

修改url2：

href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%e8%82%96%e4%ba%9a%e5%ba%86+%e5%9b%9b%e4%b8%aa%e6%9c%80%e4%b8%a5&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputt=1419&rsv_sug=1&x_bfe_rqs=03e80&x_bfe_rqs=03e80&x_bfe_tjscore=0.007253&tngroupname=organic_news&pn=20"

修改之後的url2加上字首。。。可以爬到我們在瀏覽器看到的資料。

BD面試三面

上周二中午接到bd的問我周四能否去北京現場面試，我遲疑了下，要去北京？我最怕坐車了，哎！況且周四我們組還有活動的！就說需要安排下，待會給打過去！很快面試時間到了！中午飯過後，我就去地鐵到了大廈，從朝陽門到西二旗，中間從2號地鐵轉到13號地鐵，不知道要走好久到另外乙個點轉，招到了女工作人員的不屑，哎...

簡單爬蟲總結

url url主要有三部分組成 1 協議，常見的協議有http,https,ftp,file 訪問本地資料夾 ed2k 電驢的專用鏈結等等。2 存放資源的伺服器的網域名稱系統 dns 主機名或者ip位址有時候包含埠號，各種傳輸協議都有預設的埠號 3 主機資源的具體位址，如目錄和檔名等注意第一...

爬蟲總結（一）

requests模組 response urllib2.urlopen 讀取html原始碼使用read方法 html response.read 1.構造request物件 get請求 url 這種request是get請求，因為沒有給data傳值，如果需要使用get方式傳參，可以把引數經過urll...

bd爬蟲總結

BD面試 三面

簡單爬蟲總結

爬蟲總結（一）

相關推薦

BD面試三面