機器學習三之資料收集

2021-09-29 23:29:15 字數 2666 閱讀 1397

爬蟲、買、實時資料、網上公開的資料集

資料處理成指定的格式

篩選資料

輸入模型,進行訓練

調優儲存模型

load開頭的小資料集

fetch開頭的是大資料集

make 本地資料集

from sklearn.datasets import

*#鳶尾花資料集

data = load_iris(

)print

(data)

#獲取的特徵名

print

(data.feature_names)

獲取的特徵陣列

print

(data.data)

獲取的目標值名字

print

(data.target_names)

獲取的目標陣列

print

(data.target)

注意點:

載入本地資料集

data = fetch_20newsgroups(

)print

(data)

data = make_classification(

)print

(data[0]

)print

(data[1]

)生成本地的分類資料集

import requests

from lxml import etree

import matplotlib.pyplot as plt

import jieba

import nltk

from wordcloud import wordcloud,imagecolorgenerator

from sklearn.feature_extraction.text import countvectorizer,tfidfvectorizer

from pil import image

import numpy as np

url =

''headers =

#根據請求get post

response = requests.get(url=url,headers=headers)

# #請求狀態

# print(response)

# print(response.text)

# #bytes型別 用來爬的

# print(response.content)

html_str = response.text

#將str字串轉成html文件

html_doc = etree.html(html_str)

#提取崗位資訊

data = html_doc.xpath(

"//span[@class='zhaopin_zw']/text()"

)#提取崗位要求i

data1 = html_doc.xpath(

"//p[@class='zhaopin_yq']"

)context =

for i in data1:

i = i.xpath(

"text()")[

0].replace(

'\r',''

).replace(

'\n',''

).replace(

' ','')

.replace(

'\t',''

).replace(

'要求',''

)print

(context)

# #分詞

# for i in jieba.cut(context[0]):

# print(i)

list_word =

[word for word in jieba.cut(

''.join(context))if

len(word)

>1]

#進行詞頻統計

freq_dist = nltk.freqdist(list_word)

print

(freq_dist)

top_word = freq_dist.most_common(10)

print

(top_word)

#畫圖#的向量化

bg_img = np.array(image.

open()

)wc = wordcloud(font_path=

'c:\windows\fonts\simhei.ttf'

,background_color=

'white'

,max_words=

100,mask=bg_img,max_font_size=80)

#獲取詞頻資料

wc.generate_from_frequencies(freq_dist)

#獲取背景顏色

機器學習相關 學習資料收集

回憶專用 1 如何在各種平台上安裝 python 自行谷歌 2 開發環境搭建?搭建機器學習環境 3 如何學習 python 官方教程 文件 tutorial,language reference,library reference 4 如何入門人工智慧?抱大腿。機器學習速成課程 neural net...

機器學習 資料探勘 資料收集

leftnoteasy部落格 機器學習 pymining 開源中文文字資料探勘平台 ver 0.1發布 支援中文文字的資料探勘平台開源專案pymining發布 機器學習中的數學 4 線性判別分析 lda 主成分分析 pca 機器學習中的數學 3 模型組合 model combining 之boost...

機器學習資料收集(持續更新)

書籍 資料 the discipline of machine learning a few useful things to know about machine learning 個人主頁 李航 是msra web search and mining group高階研究員和主管,主要研究領域是資...