Python爬蟲頁面解析基礎 url編碼本質

2021-10-01 10:55:25 字數 955 閱讀 7049

其實url本質就是將中文字串進行utf8編碼,然後得到編碼後的物件轉換字串去掉開頭的b'以及末尾的',然後再將\x轉換成%,再將裡面內容x變成e最後將字串小寫變成大寫舉例

#拿我舉例

#第一步進行編碼

a= '我'

a= a.encode('utf8')

#第二步進行轉字串去除頭尾

a = str(a).strip("b'") #strip裡面的值不是匹配而是有無

#第三步將\轉換成%

a = a.replace('\\','%')

#第四部將x寫變成e

a = a.replace('x','e')

#第五步將小寫變成大寫

a = a.upper()

#一步到位

a=str(a.encode('utf8')).strip("b'").replace('\\x','%').replace('x','e').upper()

#結果%e6%88%91

#不行你可以訪問 我

#看看是不是一樣

領域:web開發,爬蟲,資料分析,資料探勘,人工智慧

from urllib import parse

str1 = '我'

str2 = parse.quote(str1)

print(str2)

#%e6%88%91

str1 = '%e6%88%91'

str2 = parse.unquote(str1)

print(str2)

#我

python爬蟲 資料解析

解析的區域性的文字內容都會在標籤之間或者標籤對應的屬性中進行儲存 使用正規表示式,利用字串匹配篩選出所需要的內容 例 ex re是python中使用正規表示式的庫 page text是爬取到頁面的原始碼 使用上面定義的正則匹配規則進行解析,得到的url img src list re.findall...

08 頁面解析之資料提取 python爬蟲

一般來講對我們而言,需要抓取的是某個 或者某個應用的內容,提取有用的價值,內容一般分為兩部分,非結構化的文字,或結構化的文字。json xml html html文字 包含j ascript 是最常見的資料格式,理應屬於結構化的文字組織,但因為一般我們需要的關鍵資訊並非直接可以得到 需要進行對htm...

python爬蟲基礎

一 什麼是爬蟲 通常爬蟲是從某個 的某個頁面開始,爬取這個頁面的內容,找到網頁中的其他鏈結位址,然後從這個位址爬到下乙個頁面,這樣一直不停的爬下去,進去批量的抓取資訊。那麼,我們可以看出網路爬蟲就是乙個不停爬取網頁抓取資訊的程式。二 爬蟲的基本流程 1,發起請求 向目標站點傳送乙個requests請...