網路爬蟲入門

2021-07-09 02:23:24 字數 455 閱讀 9806

import urllib.request;

import re;

url = "";

data = urllib.request.urlopen(url);

# 返回物件,有各種方法

txt = data.read().decode("utf-8","ignore");

# ignore是為了在爬非utf-8的網頁時不會掛掉

# 主要是不會轉碼←_←

title = re.compile(r"""(.*?)""",re.dotall);

# 利用re.dotall使'.'可以代表newline

for ch in title.finditer(data):

file.write(ch.group(1)+'\n');

下面大牛的文章先存好以後慢慢看

網路爬蟲入門

1.爬蟲的定義 爬蟲是一種抓取網頁資訊的工具 2.爬蟲的三大基本功能 1.http請求 用於根據url獲取網頁原始碼 2.網頁解析 對獲取到的網頁原始碼進行解析,提取出符合需要的url鏈結和網頁內容 3.持久化 對提取到的網頁內容進行儲存 資料庫,檔案,建立索引等 3.爬蟲的分類及其工作流程 1.單...

python網路爬蟲入門

from urllib import request fp request.urlopen content fp.read fp.close 這裡需要使用可以從html或者xml檔案中提取資料的python庫,beautiful soup 安裝該庫 pip3 install beautifulsou...

網路爬蟲之Beautifulsoup入門(二)

開啟beautifulsoup之旅 在使用之前,我們還需要配置解析器,本文及之後都使用python自帶的解析器 html.parser 更多解析器介紹及比較可參考本人部落格 beautiful soup4 之table資料提取。我們使用乙個最常見的例子來說明其使用方法 html doc the do...