paddlehub自定義資料集

2021-09-28 20:22:45 字數 2567 閱讀 7731

參考位址

在paddlehub中的例子需要構建資料集。demo中的**如下

dataset = hub.dataset.chnsenticorp(

)

當替換為自定義資料集時,首先需要將自己的資料集轉換為如下形式。

dataset = demodataset(dataset_dir=model_path)
from __future__ import absolute_import

from __future__ import division

from __future__ import print_function

from collections import namedtuple

import codecs

import os

import csv

from paddlehub.dataset import inputexample, hubdataset

class

demodataset

(hubdataset)

:"""demodataset"""

def__init__

(self,dataset_dir )

: self.dataset_dir = dataset_dir #模型路徑

self._load_train_examples(

) self._load_test_examples(

) self._load_dev_examples(

)def

_load_train_examples

(self)

: self.train_file = os.path.join(self.dataset_dir,

"train.tsv"

) self.train_examples = self._read_tsv(self.train_file)

def_load_dev_examples

(self)

: self.dev_file = os.path.join(self.dataset_dir,

"dev.tsv"

) self.dev_examples = self._read_tsv(self.dev_file)

def_load_test_examples

(self)

: self.test_file = os.path.join(self.dataset_dir,

"test.tsv"

) self.test_examples = self._read_tsv(self.test_file)

defget_train_examples

(self)

:return self.train_examples

defget_dev_examples

(self)

:return self.dev_examples

defget_test_examples

(self)

:return self.test_examples

defget_labels

(self)

:# 確定標籤,根據自己的資料集lable進行定義

"""define it according the real dataset"""

return

["0"

,"1"

] @property

defnum_labels

(self)

:"""

return the number of labels in the dataset.

"""return

len(self.get_labels())

def_read_tsv

(self, input_file, quotechar=

none):

"""reads a tab separated value file."""

with codecs.

open

(input_file,

"r", encoding=

"utf-8"

)as f:

reader = csv.reader(f, delimiter=

"\t"

, quotechar=quotechar)

examples =

seq_id =

0 header =

next

(reader)

# skip header

for line in reader:

example = inputexample(

guid=seq_id, label=line[0]

, text_a=line[1]

) seq_id +=

1return examples

Pytorch 自定義資料集

pytorch將資料集的處理過程標準化。繼承dataset類 pytorch中提供了torch.utils.data.dataset抽象類,使用時需要繼承這個類,並重寫 len 和 geiitem 函式。增加資料變換 pytorch提供了torchvision.transforms可以比較方便進行影...

pytorch 自定義資料集載入方法

更多python教程請到 菜鳥教程 pytorch 官網給出的例子中都是使用了已經定義好的特殊資料集介面來載入資料,而且其使用的資料都是官方給出的資料。如果我們有自己收集的資料集,如何用來訓練網路呢?此時需要我們自己定義好資料處理介面。幸運的是pytroch給出了乙個資料集介面類 torch.uti...

RDLC之自定義資料集一

標題 rdlc之自定義資料集 時間 2008年7月12日 目的 學習通過程式控制rdlc的資料集 內容 呈現職工資料,如圖 emp info.jpg 步驟 1 新建乙個web專案,如圖 new project.jpg 2 新增報表,如 圖 new report.jpg 3 新增資料集,如圖 new ...