python複習以及scrapy框架

2021-08-20 21:57:34 字數 1842 閱讀 2414

1.python中的物件導向

物件:已存在可被使用的例項稱之為物件,在python中萬物皆為物件,包括類,方法,函式,變數等都是物件

類:描述其他例項資訊的物件,在python中類也是乙個物件

方法:定義其他例項行為的物件稱之為方法(動態為方法)

屬性:定義其他例項特徵的物件為屬性(靜態為屬性)

在python中函式和方法的區別:

方法:定義其他例項行為的物件

函式:函式可對立定義和呼叫

python中的靜態方法和類方法:

靜態方法:使用裝飾器@staticmethod將方法變為靜態方法

類方法:使用裝飾器@classmethod將方法變為類方法

在python中方法也可以被稱之為屬性,例如下面的demo:

stu=student()-------有乙個student類,例項化乙個物件stu

stu.jump = lambda x: print("你跳了".format(x))----使用lambda表示式

stu.jump(2)------通過物件呼叫

2.python中常用的資料型別:

1.list----列表

2.tuple----元祖

3.dict----字典

4.set----集合

5.str----字串

3.scrapy框架(爬蟲)

流程圖:

scrapy主要包括了8個元件:

1.引擎(scrapy):用來處理整個系統的資料流處理, 觸發事務(框架核心)

2.排程器(scheduler):用來接受引擎發過來的請求, 壓入佇列中, 並在引擎再次請求的時候返回. 可以想像成乙個url

4.爬蟲(spiders)

爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的資訊, 即所謂的實體(item)。使用者也可以從中提取出鏈結,讓scrapy繼續抓取          下乙個頁面

5.專案管道(pipeline)

負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊。當頁面被爬蟲解析後,將          被傳送到專案管道,並經過幾個特定的次序處理資料。

7.爬蟲中介軟體(spider middlewares)

介於scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。

8.排程中介軟體(scheduler middewares)

介於scrapy引擎和排程之間的中介軟體,從scrapy引擎傳送到排程的請求和響應。

scrapy執行流程:

解析出的是鏈結(url),則把url交給排程器等待抓取

Python 基礎複習

類和物件 類 使用關鍵字class定義類 在類中能定義類成員變數和成員函式,類成員函式必須帶self引數 self是物件本身的引用,在成員函式中能引用self獲得物件的資訊 建構函式 def init self 通過預設引數實現多種方式構造物件 def init self,name color 析構...

複習python列表

list 1 1 2 3,4,1,2,1,1 count 自己實現乙個 count 函式 如果有返回 object 在list 1 中出現的次數 如果沒有返回 0def count list 1,object count 0for obj in list 1 if object obj count ...

python基礎複習

環境問題 python命令找不到 有可能是沒有配置環境變數 重啟電腦 只需要保留乙個 python 版本。pytest沒法執行,可以嘗試下面兩種命令 py.test python m pytest輸入 pytest html output.html,報html找不到的錯,可能是由於沒有安裝 pyte...