inst2vec實驗記錄

2021-10-13 01:47:52 字數 955 閱讀 2284

解壓縮構建xfg

構建詞彙表vocabulary

訓練embedding

評估embedding

2023年12月25日晚上8點對polybenchgpu.zip這個最小的樣本進行了訓練,解壓縮過程,構建xfg過程,構建vocabulary過程,訓練過程都很順利,耗時大概10分鐘左右,時間最長的是最後評估embedding過程,這個過程執行了大概40分鐘之後,程式出現陣列越界錯誤,程式終止,此時時間大概是晚上9點,我對**的執行狀況進行了儲存,把整個專案壓縮為zip檔案。

我對這個陣列越界的粗略分析,認為導致出錯的原因是只是用了乙個樣本的緣故,因此,之後開始著手訓練所有的樣本。

經過了對解壓縮過程**的修改,程式能夠自動對所有壓縮包進行解壓縮了,然後開始第二次執行。在main.py中,對每個節點我都print當前時間,便於計算每個階段的耗時

2023年12月25日晚上10點開始第一次對所有的11個樣本進行訓練,

這次執行出錯了,由於是在我自己的台式電腦上,i5-4核+8g實在是不行,第二天中午我到實驗室的時候發現程式掛了。最可惡的是我自己手殘把專案關了,導致一點除錯資訊也沒有拿到。

2023年12月26日下午兩點,我在實驗室伺服器上(30+核心的處理器,&&, 16g記憶體),開始第二次對所有的11個樣本進行訓練。由於我在構建xfg、構建詞彙表vocabulary、訓練embedding、評估embedding,分別設定了斷點。執行到12月27日上午,我來實驗室的時候,程式出錯了,而且出錯的地方是構建xfgs的地方,也就是還沒開始訓練,只是在預處理階段就錯了。

2023年12月30日,我選取了最小的三個dataset進行實驗,這次實驗依然是除錯模式,設定的斷點與前兩次實驗相同。由於dataset變小了,這次實驗的前三個階段都很順利,成功的執行到了對訓練好的embedding進行evaluate的階段,但是我沒有建立相關的task,導致執行失敗。不過這次的實驗有價值,我也把實驗日誌拷貝出來,可以分析一波了。

word2vec初探(用python簡單實現)

因為看 和部落格的時候很常見,不論是幹嘛的,既然這麼火,不妨試試.從網上爬資料下來 對資料進行過濾 分詞 用word2vec進行近義詞查詢等操作 點 加號 同樣,點 加號。過一會兒會提示你安裝是否成功的。語料 網上爬下來的 自定義詞典 主要的python檔案 coding utf 8 import ...

word2vec中文語料處理及模型訓練實踐

word2vec,是一群用來產生詞向量的相關模型。這些模型為淺而雙層的神經網路,用來訓練以重新建構語言學之詞文字。網路以詞表現,並且需猜測相鄰位置的輸入詞,在word2vec中詞袋模型假設下,詞的順序是不重要的。訓練完成之後,word2vec模型可用來對映每個詞到乙個向量,可用來表示詞對詞之間的關係...

MATLAB中的ind2vec和vec2ind函式

先說容易理解的vec2ind吧,從命令名字上可以看出是 向量變索引 假設乙個3 6的稀疏矩陣t 1,0 1 0 0 1 0 t 2,1 0 1 1 0 0 t 3,0 0 0 0 0 1 通過vec2ind t 將會得到什麼?因為通過矩陣知道t是6列的,t 0 1 0 0 1 0 1 0 1 1 0...