DeepChem的資料集

2021-10-19 19:43:58 字數 739 閱讀 9895

deepchem資料處理

deepchem的dc.data模組包含處dataset物件的各種工具。這些dataset物件是deepchem的核心。dataset物件是機器學習中資料集的抽象。也就是特徵,標籤,權重,以及相關標識的集合。在此僅作展示,而不是深入的解釋。

>>> import deepchem as dc

>>> import numpy as np

>>> n_samples = 50

>>> n_features = 10

>>> x = np.random.rand(n_samples, n_features)

>>> y = np.random.rand(n_samples)

>>> dataset = dc.data.numpydataset(x, y)

>>> dataset.x.shape

(50, 10)

>>> dataset.y.shape

(50,)

我們用numpydataset類,是存貯在記憶體中的資料集。這對於小型資料集可以工作得很好,也很便於實驗,但是對於大型資料集就不是很方便。大型資料集我們有diskdataset類。

>>> dataset = dc.data.diskdataset.from_numpy(x, y)

>>> dataset.x.shape

(50, 10)

更多有關deepchem的中文資料請見www.data-vision.net醫藥化工版塊。

資料集的拆分

零 概念 分層取樣 保留類別比例的取樣 一 留出法 拆成兩個互斥的集合,乙個訓練集s,乙個測試集t 缺點 t小 估結果不夠穩定準確 s小時,訓練時的資料s與s d差別較大,訓練出來的模型與用s d訓練出來的模型差別較大,降低了評估結果的保真性 二 交叉驗證法 k折交叉驗證的k個測試結果取平均作為最終...

資料集的讀取

建包 import numpy as np import pandas as pd 讀取資料 data pd.read csv r datingtestset.csv header none data 效果展示 5 效果展示 data.tail data.sample 以上兩個 都是輸出資訊,裡可以...

資料集的獲取

參考 鏈結 1 開啟乙個空白的excel,選中需要填充數字的區域 2 通過鍵盤直接輸入函式 randbetween start,end 後,按ctrl eenter快捷鍵,自動生成 注釋 randbetween函式用於生成某個數與某個數之間的隨機數 例如 我需要1 5000行內 第一列隨機生成 1 ...