簡單學習python爬蟲

2022-08-03 18:27:18 字數 1112 閱讀 6249

學爬蟲之前首先知道什麼是爬蟲:

ret.content 按照位元組顯示

ret.text 按照字串顯示

注:以上內容跟下面無關

1.新建乙個python專案spyder(名字自起)

2.點選file中的settings

3.點選project:spyder下的project interpreter

4.安裝bs4和requests

5.在1.py中進行導包

6.在1.py中用requests偽造瀏覽器行為,注意ret是乙個物件,

7.新增html.parser內建直譯器,目前市場上有兩中內建直譯器分別是html.parser和lxml,lxml需要我們單獨安裝。優點:速度更快.一般情況我建議優先使用html。parser

8,點選**開啟f12,複製一下id

9.找到div

10.進行處理,同理也可以將li.find("img")改為li.find("a")等等,也可以進行修改div.find_all(name='li')為div.find_all(name='ul')等等靠自己發掘

注意:不到萬不得已避免使用正規表示式。

使用bs4就能完成html解析,解析之後就變成乙個物件

Python簡單爬蟲學習

爬蟲 一段自動抓取網際網路資訊的程式。爬蟲排程器 程式入口,主要負責爬蟲程式的控制 url管理器 管理帶抓取url集合和已抓取的url集合。url實現的功能有 1.新增新的url到待爬去集合 2.判斷待新增url是否已存在 3.判斷是否還有待爬的url,將url從待爬集合移動到已爬集合 url的儲存...

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

Python開發簡單爬蟲 學習筆記

1.爬蟲簡介 爬蟲是能夠自動抓取網際網路資訊的程式 2.簡單爬蟲架構 3.url管理器 url管理器 管理待抓取url集合和已抓取url集合 防止重複抓取 防止迴圈抓取 urllib2 python官方基礎模組 requests 第三方包更強大,後期推薦使用 import urllib2 直接請求 ...