Retailrocket資料集屬性分析

2021-10-09 16:17:28 字數 1190 閱讀 7672

近期計畫使用電商資料集做強化學習相關,從**中看到了retailrocker資料集,此資料集有四個檔案(如下圖),其中包括商品類別樹、事件日誌、物品熟悉日誌。

事件日誌包括了使用者對物品的「view」, 「addtocart」 or 「transaction」三個操作,在強化學習中可設定不同的獎勵;物品屬性日誌記錄物品的屬性變化,如**的變化等,由於此表的複雜性,所以下文特別分析了該錶的一些屬性特徵。

物品屬性中除了物品的「類別」和「有效性」屬性外,其餘屬性名字均做了hash,導致不能充分利用物品屬性。

從下圖可以看出,物品類別隨時間變化不頻繁,大多數物品的類別是乙個常量,少說物品的類別在兩個類別之間切換,建議將物品類別處理為常量。

如上圖,物品的有效性會隨時間無規律改變,在某一時刻,物品可能無效,所以,在強化學習狀態下,候選物品是乙個動態的過程,建議保留有效性的動態變化。

根據討論的官方回應,**屬性值都是數字,即以n開頭,另外根據統計資訊(如下圖),代號888和790出現的頻次最高,認為**很大可能是其中的乙個。

然後根據888屬性展開分析,其具體值如下圖,發現這個屬性值包含大量文字資訊,並且不同物品的屬性值不同,相同物品的屬性值相同,據此判斷次屬性可能屬於物品介紹特徵。

接下來分析790特徵, 特徵值如下圖,可以發現,790屬性值全部以n開頭,也就是說它的屬性值全部是數字,並且同一商品的幾個隨時間變化不大,據此猜測,此屬性值為商品**。

西瓜資料集3 0 西瓜資料集

編號,色澤,根蒂,敲聲,紋理,臍部,觸感,好瓜 1,青綠,蜷縮,濁響,清晰,凹陷,硬滑,是 2,烏黑,蜷縮,沉悶,清晰,凹陷,硬滑,是 3,烏黑,蜷縮,濁響,清晰,凹陷,硬滑,是 4,青綠,蜷縮,沉悶,清晰,凹陷,硬滑,是 5,淺白,蜷縮,濁響,清晰,凹陷,硬滑,是 6,青綠,稍蜷,濁響,清晰,稍凹...

資料集 Pascal voc2007資料集分析

作為標準資料集,voc 2007 是衡量影象分類識別能力的基準。faster rcnn,yolo v1,yolo v2都以此資料集為最為演示樣例,因此,有必要了解一下本資料集的組成架構。voc資料集共包含 訓練集 5011幅 測試集 4952幅 共計9963幅圖,共包含20個種類。aeroplane...

自己資料集轉化為coco資料集

1.將copy到對應資料夾 cd home aistudio cp r data hand143 panopticdb imgs data coco images 2.提取標籤資料 import json import os import cv2 dataset 根路徑,裡面包含images 資料夾...