爬蟲基礎學習筆記 HTML

2021-09-12 07:38:13 字數 900 閱讀 6450

html頁面中,所有內容都包含在一對標籤內,標籤之間可以巢狀,標籤和標籤對應的內容共同組成html頁面。

標籤定義的內容元素稱為節點,節點的相互巢狀形成了網頁的結構,稱為html dom樹。dom是w3c的標準,即文件物件模型,定義了訪問xml和html文件的標準,html dom就是針對html文件的標準模型。

根據w3c的html dom標準,html文件內的所有內容都是節點:

html dom將html文件視為樹結構,這種結構稱為節點樹。

節點中的節點彼此間的關係可以用父節點(parent)子節點(child)兄弟節點(sibling)來描述。這些關係可以在html頁面要素多而複雜時,使用解析庫如beautifulsoup對頁面進行有效解析。如找到包含在a標籤下的所有p標籤,就可以使用

soup = beautifulsoup(url,"html.parser")` 

for p in soup.find("a").childrens:#完成對a標籤下的所有p標籤遍歷

當想要爬取頁面上某一特定內容,比如頁面內的**,通常是由等標籤巢狀組成,這時就要對頁面進行解析,找到我們要爬取的內容所在的標籤定向爬取。

當然現在頁面多用的是html5,html5的一些新特性與新標籤參考w3cschool

html 基礎學習筆記

1.target parent target self 本身視窗開啟 target top 頂部開啟 測試 2.測試1 測試2測試3 3.測試1 測試2測試3 4.首頁 產品5.首頁產品 測試 body體內文字的顏色 6.樣式 7.8.邊距屬性 9.設定縮圖 另一種顯示的方式 10.div 是層 c...

HTML 基礎學習筆記

html 指超文字標記語言 hyper text markup language 一種標記語言,用來描述網頁的一種語言。一 html 基本結構示意圖 2 html 標題 heading 是通過 標籤來定義的。3 html 段落是通過標籤 來定義的。這是乙個鏈結5 html 影象是通過標籤 來定義的。...

HTML基礎學習筆記(中)

html文字格式化 this text is bold this text is strong this text is big this text is emphasized this text is italic this text is small this text contains sub...