Python爬蟲之HTML知識

2021-08-15 11:11:59 字數 1981 閱讀 6421

html是一種標記語言,標記語言是一套標記,html用標記語言來描述網頁。

1.html的基本結構: 

1) 內容 : html 文件是由包裹,這是html文件的文件標記,也稱為html開始標記。

2): html 檔案頭標記,主要包含檔案的基本資訊,比如網頁的標題、關鍵字,在內容部分可以放置, ,等標記。該內容不會在瀏覽器中顯示。

3) 內容 : html檔案標題標記。網頁的"主題",顯示在瀏覽器視窗的左上邊。

4) 內容 : 這是html檔案的主體部分。主體部分的內容組成了我們所看到的網頁。

5)內容 : 頁面的元資訊。meta標記必須放在head裡面。

例子:

hello html!

2.html的格式標記:

1) : 強制換行標記

2) : 換段落標記。內容

3) : 居中對齊標記。

4)

:  預格式化標記。保留預先編排好的格式,常用來定義計算機源**。

5) : 列表專案標記。

6) : 無序列表標記。

7) html

python

css

js 紅豆生南國

春來發幾枝

願君多採擷

此物最相思

python爬蟲

3. html的文字標記:

1)python 爬蟲

python 爬蟲

python 爬蟲

font 標記------>>

python 爬蟲

python 爬蟲

python 爬蟲

python 爬蟲

python 爬蟲

python 爬蟲

b 標記加粗----->>python 爬蟲

i 標記斜體----->>

python 爬蟲

sub 標記下標------>>

32 標記上標------>>

45 cite 引用標記----->>

python 爬蟲

em 標記表示強調,顯示為斜體---->>

python 爬蟲

strong 標記表示強調,顯示為加粗--->>python 爬蟲

small 標記可以顯示小一號字型,可以巢狀使用---->>

python 爬蟲

python 爬蟲

big 標記可以顯示大一號字型,可以巢狀使用--->>

python 爬蟲

u標記表示顯示下劃線---->>

python 爬蟲

4. html的影象標記:

例子:

"140" //>

5.html**標記。

1)**的基本結構包括:、、、、等標記。

2):用法為。其中的屬性值有:width、height、border、align、cellspacing、cellpadding、frame、rules等。

3); 用於**中的標題。

4) : 定義行。

5) 或者: 定義元素,th會加粗,td不會加粗。

例子:

學號 

班級 姓名

年齡 籍貫

150001

(1)班

張三 16

上海 150002

(2)班

李四 15

浙江

學號 班級

姓名 年齡

籍貫 150001

(1)班

張三 16

上海

150002

(2)班

李四 15

浙江

HTML 爬蟲所需HTML知識

1 標籤 定義整體的表單區域 2 標籤 為表單元素定義文字標註 3 標籤 定義通用的表單元素 value屬性 定義表單元素的值 name屬性 定義表單元素的名稱,此名稱是提交資料時的鍵名 4 標籤 定義多行文字輸入框 5 標籤 定義下拉表單元素 6 標籤 與標籤配合,定義下拉表單元素中的選項 登錄檔...

Python爬蟲實戰之解密HTML

1.增加本人csdn訪問量 2.當作乙個python的練手專案 3.想寫出更優質的部落格技術文章,不再為了訪問量去寫文章。author ytouch date 2019 07 27 this py is used for brushing pageview for csdn 匯入相關爬蟲庫和解析xm...

Python爬蟲基礎之爬蟲的分類知識總結

通用網路爬蟲是搜尋引擎抓取系統 baidu google sogou等 的乙個重要組成部分。主要目的是將網際網路上的網頁 到本地,形成乙個網際網路內容的映象備份。為搜尋引擎提供搜尋支援。第一步搜尋引擎去成千上萬個 抓取資料。第二步搜尋引擎通過爬蟲爬取到的網頁,將資料存入原始頁面資料庫 也就是文件庫 ...