寫了乙個新浪部落格的爬蟲

2022-07-28 06:45:19 字數 1587 閱讀 3273

語言:c#

用到的第三方庫:

軟體介面:

由於原理非常簡單,花了乙個小時寫了一下,直接上**

using

system;

using

system.io;

using

system.net;

using

system.text;

using

system.text.regularexpressions;

using

system.threading;

using

system.threading.tasks;

using

system.windows.forms;

using

htmlagilitypack;

using

npoi.xwpf.usermodel;

namespace

blogspider

//////

抓取按鈕

/// ///

///private

void button1_click(object

sender, eventargs e)

//開啟執行緒

task.run(() =>

using (var webclient = new

webclient())

invoke((methodinvoker) (() =>));

});}

private

void getblogcontentrecursion(string

url,webclient wb)

word\\.docx

")) continue; //

如果有同樣標題的word文件就跳過

generateword(titlenode.innertext.replace("

", ""), articlenode.innertext.replace("

",""

)); }

invoke((methodinvoker)(() =>));

thread.sleep(

1000); //

}

var nextpagenode = parentnode.selectsinglenode("

//li[@class='sg_pgnext']/a

"); //

if (nextpagenode != null

)

}//////

生成word文件

/// ///

///private

void generateword(string title, string

content)

word\\.docx";

doc.write(f);

f.close();}}

}

雜湊分治 乙個部落格id 新浪部落格

海量資料的排序問題 1.如果資料不重複,可以使用位圖 2.海量資料,記憶體有限 歸併排序 如 設有數列 初始狀態 6,202,100,301,38,8,1 第一次歸併後 比較次數 3 第二次歸併後 比較次數 4 第三次歸併後 比較次數 4 top k問題 分而治之 雜湊對映 雜湊統計 排序 對於最終...

gcc和g 區別 乙個部落格id 新浪部落格

誤區一 gcc只能編譯c g 只能編譯c 兩者都可以,但是請注意 1.字尾為.c的,gcc把它當作是c程式,而g 當作是c 程式 字尾為.cpp的,兩者都會認為是c 程式,注意,雖然c 是c的超集,但是兩者對語法的要求是有區別的。c 的語法規則更加嚴謹一些。2.編譯階段,g 會呼叫gcc,對於c 兩...

今天寫了乙個簡單的新浪新聞RSS操作類庫

類庫不是很複雜,主要兩個功能 二 指定頻道url的xml檔案來獲取新聞資訊。首先,我們寫兩個類,乙個用於儲存新聞個息,另乙個用於儲存頻道資訊。新聞記錄實體 serializable public class newsitem 新聞鏈結 public string link 作者 public str...