抓取原CSDN上本人部落格頁面內容

2021-05-22 15:46:01 字數 1417 閱讀 3715

建立這個**的目的就是想把原來csdn上的文章搬過來,但是手工一篇一篇的從後台新增太慢了,csdn也沒提供搬家的工具。自己動手弄吧。

思路是:首先得到csdn上我的所有文章頁面,csdn上是分頁顯示的

比如這個

,然後利用c#訪問到抓取到html**  最後用正規表示式篩選出我們需要的內容,在入庫。

得到頁面的html** 引數一是url位址 2是編碼

private string getcontent(string url, string bm)

return content;

這個後來改進的,因為有的頁面抓取的時候會出問題 所以增加了單個頁面的抓取,如果在出問題 那就到後台新增下文章了。

protected void button_click(object sender, eventargs e)

//開始進行資料庫的新增

for (int j = 0; j < urllist.length; j++)}}

else

}//需要得到  標題名  時間  關鍵字(標題名)  內容 

regex rgcontent = new regex(@"", regexoptions.ignorecase);

matchcollection mc = rgcontent.matches(content);

stringbuilder sb1 = new stringbuilder();

for (int i = 0; i < mc.count - 1; i++)

catch

}nfrom = "原創";

content1 = sb1.tostring();//內容

string cate = sb.tostring();//類別

keyword = title;

try;

param[0].value = title; ;

param[1].value = htmlencode(content1);

param[2].value =dt;

param[3].value = nfrom;

param[4].value = sb.tostring();

param[5].value = keyword;

int i = sqlhelper.executenonquery(sqlhelper.connectionstring,commandtype.storedprocedure,"insertarticle",param);

if (i == 1)

//using (streamwriter sw = file.createtext(textname))

//else

}catch

}

配置Tomcat(原csdn部落格上的文章)

tomcat的相關配置 1 如何修改tomcat的埠 在tomcat目錄下的conf資料夾中開啟server.xml檔案 找到 將port 8080 中的8080修改即可,一般情況下修改為數值較大的數,最好大於10000不超過65535,避免埠衝突 2 如何設定虛擬目錄 在tomcat目錄下的con...

抓取csdn部落格的所有文章url

輸入部落格的主網域名稱,就可以抓取這個部落格所有的文章編號。coding utf8 import string import urllib2 import re import time import random class csdn spider def init self,url self.my...

爬蟲抓取自己csdn部落格點讚數

檢視自己文章的點讚數 瀏覽量。import requests,re,math url r requests.get url,headers text articles re.search d s 原創 r group 1 pages int math.ceil int articles 20 art...