網頁正文識別及提取演算法 提取網路正文的實踐

2021-10-04 07:00:28 字數 1420 閱讀 3581

goose安裝

pip install goose-extractor

pip3 install goose
github:

簡單例項

:python3

python 3.7.6 (default, feb 16 2020, 17:48:02)

[clang 8.0.0 (clang-800.0.42.1)

] on darwin

formore information.

>>

> from goose3 import goose

>>

> from goose3.text import stopwordschinese

>>

> g = goose(

)>>

> url =

''>>

> print(article.title)

the serenity prayer_lu_zhao的部落格-csdn部落格

>>

> print(article.cleaned_text)

上帝,請賜予我寧靜,去接受我所不能改變的;

請賜予我勇氣,去改變我所能改變的;

並請賜予我智慧型,去辨別什麼可以改變,什麼不能。

用心生活每一天;用靈魂享受每個時刻;承受磨難,因為它是通向安寧的必經之路。

接受它原本的樣子,而不是我所期盼的樣子;

這樣,這一生我就有理由得到快樂,並在天堂與您一起得到極樂。

>>

>

只有中文。。。沒有英文了??因為選了中文就只有中文了嗎??

英文嘗試如下:

:python3

python 3.7.6 (default, feb 16 2020, 17:48:02)

[clang 8.0.0 (clang-800.0.42.1)

] on darwin

formore information.

>>

> from goose3 import goose

>>

> from goose3.text import stopwordschinese

>>

> g=goose(

)>>

> url =

''>>

> article = g.extract(url=url)

>>

> print(article.title)

the serenity prayer_lu_zhao的部落格-csdn部落格

>>

> print(article.cleaned_text)

>>

>

原文也有英文的呀。。

測試的原文:

淺識網頁正文提取演算法

淺識網頁正文提取演算法 因為要到一家網際網路公司參加自然語言處理實習生面試,對於崗位要求中提到的工作內容 網頁正文內容提取 的相關知識進行了一下突擊。重點看了一下網頁正文提取所涉及到的各種演算法,網上的內容很多,我只是看了其中一小部分,對各類演算法做了乙個簡單的了解,不敢說對其做乙個綜述,只是以乙個...

網頁內容爬取 如何提取正文內容

建立乙個新 一開始沒有內容,通常需要抓取其他人的網頁內容,一般的操作步驟如下 為每個網頁寫特徵分析這個還是太耗費開發的時間,我的思路是這樣的。python的beautifulsoup包大家都知道吧,import beautifulsoup soup beautifulsoup.beautifulso...

C 第五次作業 開源專案「網頁正文提取」的理解

執行結果截圖 提取 結果截圖 結果截圖 提取結果截圖 理解 正文提取的一種方法是利用html的dom樹來完成對網頁的正文資訊的分析和提取。dom document object model 是由w3c組織發布的一種訪問和操作html文件的規範。dom將html文件表示為樹形物件集合的形式,乙個dom...