bd爬蟲總結

2021-09-24 22:45:45 字數 1182 閱讀 3714

爬蟲心得:

首先要有頁面的真是路徑,不然就算你的**很強,那也爬不到任何東西。

href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%e7%99%be%e5%ba%a6&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputt=1419&rsv_sug=1&x_bfe_rqs=03e80&x_bfe_tjscore=0.002404&tngroupname=organic_news&pn=20"
href="/s?ie=utf-8&cl=2&medium=0&rtt=4&bsst=1&rsv_dl=news_b_pn&tn=news&word=%e8%82%96%e4%ba%9a%e5%ba%86+%e5%9b%9b%e4%b8%aa%e6%9c%80%e4%b8%a5&x_bfe_rqs=03e80&x_bfe_tjscore=0.007253&tngroupname=organic_news&pn=20"
url1可以爬到你在瀏覽器看到的內容,但是url2你爬不到你在瀏覽器端看到的頁面,所以分析這兩個頁面url,可以看出兩處差別:

差別1:

url1:&rtt=1

url2:&rtt=4

差別2:

url1:&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputt=1419&rsv_sug=1&x_bfe_rqs=03e80

url2:url2沒有這些引數

修改url2:

href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%e8%82%96%e4%ba%9a%e5%ba%86+%e5%9b%9b%e4%b8%aa%e6%9c%80%e4%b8%a5&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputt=1419&rsv_sug=1&x_bfe_rqs=03e80&x_bfe_rqs=03e80&x_bfe_tjscore=0.007253&tngroupname=organic_news&pn=20"
修改之後的url2加上字首。。。可以爬到我們在瀏覽器看到的資料。

BD面試 三面

上周二中午接到bd的 問我周四能否去北京現場面試,我遲疑了下,要去北京?我最怕坐車了,哎!況且周四我們組還有活動的!就說需要安排下,待會給打過去!很快面試時間到了!中午飯過後,我就去地鐵到了大廈,從朝陽門到西二旗,中間從2號地鐵轉到13號地鐵,不知道要走好久到另外乙個點轉,招到了女工作人員的不屑,哎...

簡單爬蟲總結

url url主要有三部分組成 1 協議,常見的協議有http,https,ftp,file 訪問本地資料夾 ed2k 電驢的專用鏈結 等等。2 存放資源的伺服器的網域名稱系統 dns 主機名或者ip位址 有時候包含埠號,各種傳輸協議都有預設的埠號 3 主機資源的具體位址,如目錄和檔名等 注意 第一...

爬蟲總結(一)

requests模組 response urllib2.urlopen 讀取html原始碼使用read方法 html response.read 1.構造request物件 get請求 url 這種request是get請求,因為沒有給data傳值,如果需要使用get方式傳參,可以把引數經過urll...