20171012 動態爬蟲爬取預約掛號有號資訊

2022-06-11 05:39:09 字數 599 閱讀 3740

-- 目標:針對醫院有些醫生有預約號不確定時間點有號,晚了就掛不到了,能有個監測爬去,有號就提醒的機制。

可能會用到:scrapy + phantomjs + selenium

環境: windows10 + vs 2015 + python 2.7

安裝 : scrapy

建立專案: 命令提示符 介面 使用語句 scrapy startproject s_scrapy

成功後會提示建立的目錄位址

cd s_scrapy

進入目錄

tree /f

樹形結構讀取目錄檔案

在vs中建立乙個python的專案,再增加現有檔案s_scrapy到專案中,這樣所有的專案檔案都匯入了,方便操作

放到cmd可以執行的路徑下面,再通過cmd 執行語句phantomjs ./test.js

當然了./test.js   路徑要對,可以自己改

-- python 2.7 安裝selenium 目的是為了呼叫phantomjs 這種沒有介面的瀏覽器,來實現互動功能

網路爬蟲 爬取動態網頁

import requests from bs4 import beautifulsoup res requests.get res.encoding utf 8 soup beautifulsoup res.text,html.parser commentcount soup.select one...

爬蟲爬取bilibili

1.根據url傳送請求給伺服器,獲取html文字 2.解析html文字,把需要的資料挑出來 3.從html中解析出超連結,繼續爬取其中的頁面 爬蟲的協議b站的爬蟲協議 尾巴加上 robots.txt 獲取相應的api 控制抓取的頻率 import requests url 發起網路請求 respon...

Python 爬蟲爬取網頁

工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...