Python網頁清洗

網頁清洗

題目python網頁清洗

設計在進行自然語言分析時，使用n-gram或者尋找常用片語，可以很容易地把一句話分解成若干個文字片段。通過例項**獲取合理的n-gram，下面的**將返回維基百科詞條「python programming language」的2-gram列表：

實現from urllib.request import urlopen

from bs4 import beautifulsoup

def ngrams(input,n):

input=input.split(' ')

output=

for i in range(len(input)-n+1):

return output

html=urlopen(「

bsobj=beautifulsoup(html,「html.parser」)

content=bsobj.find(「div」,).get_text()

ngrams=ngrams(content,2)

print(ngrams)

print(「2-grams count is :」+str(len(ngrams)))

**執行結果如下：

但是，從結果中可以發現，程式執行後會返回一些很有意思同時也很有用的2-gram序列： [『software』, 『foundation』]。同時也會出現一些凌亂的資料：[『years』, 『ago\xa0(1991-02-20)[1]\n\n\n\n\n\nstable』]。下面我們通過一些正規表示式來移除轉移字元（\n），再把unicode字元過濾掉。使用下面的改進後的程式：

from urllib.request import urlopen

from bs4 import beautifulsoup

import re

def ngrams(input,n):

content=re.sub('\n+'," ",input)

content=re.sub(' +'," ",content)

content=bytes(content,"utf-8")

content=content.decode("ascii","ignore")

input=content.split(' ')

output=

for i in range(len(input)-n+1):

return output

html=urlopen(「

bsobj=beautifulsoup(html,「html.parser」)

content=bsobj.find(「div」,).get_text()

ngrams=ngrams(content,2)

print(ngrams)

print(「2-grams count is :」+str(len(ngrams)))

執行結果如下圖所示，結果有所改善：

但是還有一些小問題，我們繼續增加下述的規則來進行資料清理：

剔除單字元的單詞，除非這個字元是「i」或「a」

剔除維基百科的引用標記（方括號包裹的陣列，如[1]）

剔除標點符號（注意：這個規則其實有點過往矯正了，後續我們會就這個問題繼續分析講解）

現在，清洗任務變得越來越長，我們把規則都移除出來，單獨建乙個函式，取名了cleaninput，**內容如下：

from urllib.request import urlopen

from bs4 import beautifulsoup

import re

import string

def cleaninput(input):

input=re.sub('\n+'," ",input)

input=re.sub('\[[0-9]*\]',"",input)

input=re.sub(' +'," ",input)

input=bytes(input,"utf-8")

input=input.decode("ascii","ignore")

cleaninput=

input=input.split(' ')

for item in input:

item=item.strip(string.punctuation)

if(len(item)>1) or (item.lower()=='a' or item.lower()=='i'):

return cleaninput

def ngrams(input,n):

input=cleaninput(input)

output=

for i in range(len(input)-n+1):

return output

html=urlopen(「

bsobj=beautifulsoup(html,「html.parser」)

content=bsobj.find(「div」,).get_text()

ngrams=ngrams(content,2)

print(ngrams)

print(「2-grams count is :」+str(len(ngrams)))

**中，引入了string，並使用了string.punctuation，目的是為了獲取到python所有的標點符號，並去除它們。如想要知道具體包含哪些符號，可在命令列執行print操作。

上述**執行結果如下圖所示，

從結果分析發現，挑選結果明顯更加乾淨了。

Python網頁清洗

清洗網頁資料

python清洗文字用python清洗文字檔案

python資料清洗

Python網頁清洗

清洗網頁資料

python清洗文字 用python清洗文字檔案

python資料清洗

相關推薦

python清洗文字用python清洗文字檔案