最近處理的一些函式

2022-08-23 18:39:11 字數 3495 閱讀 3584

api

句子分割text_to_word_sequence,將乙個句子拆分成單詞構成的列表。注意這個函式對中文的分割無效

from tensorflow import

keras

text='

你去**了?我找不到你,快回**,where are you,mary?can you call me back?

引數:

返回值:字串列表

n=13words=keras.preprocessing.text.one_hot(text,

n,filters='

!"#$%&()*+,-./:;<=>?@[\]^_`~\t\n',

lower=true,

split="")

print(words)

數將一段文字編碼為one-hot形式的碼,即僅記錄詞在詞典中的下標。

【tips】 從定義上,當字典長為n時,每個單詞應形成乙個長為n的向量,其中僅有單詞本身在字典中下標的位置為1,其餘均為0,這稱為one-hot。

為了方便起見,函式在這裡僅把「1」的位置,即字典中詞的下標記錄下來。

整數列表,每個整數是[1,n]之間的值,代表乙個單詞(不保證唯一性,即如果詞典長度不夠,不同的單詞可能會被編為同乙個碼)。

keras.preprocessing.text.tokenizer(num_words=none,

filters='

!"#$%&()*+,-./:;<=>?@[\]^_`~\t\n',

lower=true,

split="",

char_level=false)

tokenizer是乙個用於向量化文字,或將文字轉換為序列(即單詞在字典中的下標構成的列表,從1算起)的類。

texts_to_sequences(texts)

texts_to_sequences_generator(texts)

texts_to_matrix(texts, mode):

fit_on_sequences(sequences):

sequences_to_matrix(sequences):

text=['

你去**了?我找不到你,快回**,where are you,mary?can you call me back?',\

'ming and hong are playing game in the yard.hey,what are you doing,趙薇?']

vocab_size =10 #

this is a hyperparameter, experiment with different values for your dataset

tokenize = keras.preprocessing.text.tokenizer(num_words=vocab_size, char_level=false)

tokenize.fit_on_texts(text)

#only fit on train

#print(tokenize.word_counts)

#print(tokenize.word_docs)

#print(tokenize.word_index)

#print(tokenize.document_count)

#注意看tokenize分詞的結果#

sparse bag of words (bow) vocab_size vector

description_bow_text = tokenize.texts_to_matrix(text) #

#texts_to_matrix(texts, mode):

#texts:待向量化的文字列表

#mode:『binary』,『count』,『tfidf』,『freq』之一,預設為『binary』

#返回值:形如(len(texts), nb_words)的numpy array

print("

分詞結果:\n

api

to_categorical(y, num_classes=none)
類別向量(從0到nb_classes的整數向量)對映為二值類別矩陣, 用於應用到以categorical_crossentropy為目標函式的模型中.

應用對屬性資料的特徵作處理:

三、

最近的一些感想

第一次出差,感覺就是客戶最急迫的事情就是解決他們的現場問題,經過qa的多次測試來發現其中可能存在的隱患,並解決他們,為量產做好準備。然後就是如果有經過測試的rom.bin最好儲存乙份,以免在更新軟體之後測試出問題,不知道什麼原因,然後又無法恢復到以前的測試版本,出差需要帶一些筆,紙之類的東西,記錄一...

最近的一些事

前段時間,工作不是很忙,閒暇的時候,做了很多自己喜歡做的事情。組內乙個技術很厲害的員工,要離職了,給我們分享了他的很多東西,我們收穫很大。有的同學已經開始自己創業了,想邀請我加入,但是我現在確實還沒有那個信心。自己買了很多書,再一次把自己定位為乙個技術人員,開始堅持不懈的專研技術。身體素質大不如以前...

最近的一些反思

1做什麼事情都要把相關的人聚集在一塊去解決問題,而不是找幾個沒有參與這件事情的人,因為一旦出了問題,就會去找參與者去解決 3還有無論去做什麼事情都要把事情吃透才罷休,否則一旦下次遇到類似的問題,你是躲避不了的,還是得解決,而且那個時候的情況會更加緊急 4現在感覺業務流程每乙個人都不太清晰,所有如果沒...