年輕人的第乙個爬蟲

2021-08-18 06:56:58 字數 1299 閱讀 4263

學了python乙個多月了,也該自己動動手寫個爬蟲了

目標**:

原理:

1.儲存網頁源**

笨辦法,人工複製源**到txt檔案,再用open方法開啟

用requests.get

2.正規表示式匹配**

搞懂原理後,進入實際操作:

我們要提取的是src跟alt中間的部分,所以正規表示式為

'src="(.*?)" alt='
結果

#讀取網頁原始碼

在做這個爬蟲過程中遇到的一些問題:

pycharm中import requests報錯

檢查發現已經安裝了requests包,執行環境也正常,後來發現是interpreter沒有正確配置,經配置後可以正常匯入requests包

2.在執行到f.read()時出現錯誤:unicodedecodeerror: 'gbk' codec can't decode byte 0xb7 in position 219: illegal multibyte sequence

3.編碼格式錯誤解決後發現程式沒有結果

通過除錯在i=0處設定斷點進行debug,發現pic_url為空,所以應該是正規表示式出了錯誤,經反覆檢查後終於修改正確,最後爬取成功

第乙個爬蟲

很多人學習python的目的就是為了學習能夠實現爬蟲的功能,這裡,我使用了scrapy框架來實現了乙個簡單的爬蟲功能,這裡我簡單的介紹一下scrapy專案的建立,和執行。1,第一步是安裝scrapy,我相信到了這一步,大多數人都已經會安裝第三方庫檔案了,這裡主要是使用命令pip install sc...

第乙個爬蟲

一 程式測試 二 開啟360網頁 三 html計算 四 中國大學排名 爬取年費2018 五 函式介紹總結 1.requests 庫的網頁請求函式 函式 說明 get url timeout n 對應http的get方式,設定請求超時時間為n秒 post url,data 對應http的post方式,...

第乙個爬蟲

今天打算開始著手做bioasq的專案 除了看 的部分。學長分配的最初步內容是,去統計一下資料集裡面list factoid的數量,以及exact ans 在 snippets中的出現次數。本來覺得這是個很簡單的資料處理任務嘛,然後突然意識到,snippets裡的document給的是 這豈不是意味著...