C 第五次作業 開源專案「網頁正文提取」的理解

2021-07-03 16:25:30 字數 593 閱讀 1816

執行結果截圖: 提取

結果截圖: 

結果截圖:

提取結果截圖: 

理解:正文提取的一種方法是利用html的dom樹來完成對網頁的正文資訊的分析和提取。dom(document object model)是由w3c組織發布的一種訪問和操作html文件的規範。dom將html文件表示為樹形物件集合的形式,乙個dom樹包含有元素、樹形、文字等,每乙個html的元素被表示為樹的乙個節點,其中html中的巢狀結構被用dom樹中節點的父子關係表示,並列結構被表示為節點的兄弟關係。 

利用dom樹提取網頁正文方法的思路是利用網頁的原始檔建立乙個dom樹結構,遍歷dom樹,從網頁中刪除掉所有不是正文的資訊,包括廣告資訊、、鏈結群等,這樣剩下的就是正文資訊。 提取

結果截圖: 

C 第五次作業

專案一 陣列分離 includeusing namespace std int main for i 0 i 9 i else cout 偶數為 for i 0 i 專案二 陣列選擇 includeusing namespace std int main for i 0 i 10 i if k 9 ...

c 第五次作業

專案1 陣列分離 從鍵盤中輸入10個數放在陣列a中,將該陣列中奇數放到陣列b,偶數放到陣列c中後分別輸出 include using namespace std intmain for i 0 i 10 i else for n 0 n for n 0 n return 0 專案4 字串 參考上面的...

C 第五次作業

二陣列選擇 include using namespace std int main for int i 0 i 10 i if count 1 count 0 cout 不重複的數字有 for int i 0 i 三成績 includeint main int score 10 int score...