rvest爬取雞蛋期貨資料(遇到的問題)

2021-08-20 03:28:16 字數 951 閱讀 5513

1.之前用rvest爬取網頁**,很順利,但這次用該語句時,因為電腦編碼問題,一直提示

error in doc_parse_raw(x, encoding = encoding, base_url = base_url, as_html = as_html,  : 

input conversion failed due to input error, bytes 0x86 0x31 0x31 0x30 [6003]

別的電腦可以出結果,我的電腦因為今天520,打算和女朋友統一戰線,有點小脾氣 ,那我只好想想其他方法。以下是之前所用**。

library(rvest)

tdist<-read_html("", encoding = 'gb2312')

t1<-tdist %>%html_table(fill = true)

write.csv(t1,"d:/qaac.csv")

2.想想有啥新方法,可以繞過雷區,畢竟小脾氣對直男來說是無解的。以下是新方法

library(rvest)

f <- tempfile()#建立臨時檔案

download.file("", f)

fchars <- readchar(f, file.info(f)$size)

stringi::stri_enc_detect(fchars)

# 發現文件是 gb18030 編碼,上面那個方法就是這個編碼問題

futf8 <- stringi::stri_encode(fchars, "gb18030", "utf8")

fhtml <- rvest::html(futf8)

#以上全為重新為網頁編碼的過程,此法可通用

t1<-fhtml %>%html_table(fill = true)

t1<-t1[[4]]#定位**位置

write.csv(t1,"d:/0qaac.csv")

Scrapy Mongodb爬取資料

scrapy爬蟲資料存到mongodb中 其實主要是前兩步 1 在settings.py中進行配置 item pipelines mongodb host 127.0.0.1 mongodb port 27017 mongodb dbname spider1 mongodb docname book...

Python資料爬取

二.scrapy爬蟲框架 資料 網路資料採集模型 第三方庫實現爬取 pyspider爬蟲框架 scrapy爬蟲框架 安裝scrapy 配置scrapy環境變數 建立scrapy專案的命令 建立spider 使用python指令碼執行命令列啟動爬蟲 from scrapy.cmdline import...

爬取 即刻 APP資料

一 使用fiddler獲取手機上的資料 2.首先要抓取資料 fiddler抓包,手機wifi 3.分析資料 解析json或者html,提取有用的資訊 4.編寫 獲取需要的資料 5.基本思路是對資料的抓取 分析 處理 呈現 7.設定手機wifi 在高階設定裡面輸入本地ip位址和埠號即可。9.後來在網上...