線性回歸就是對於現有資料擬合乙個線性關係函式
y =x
1∗w1
+x2∗
w2+b
y=x_*w_+x_*w_+b
y=x1∗
w1+
x2∗
w2+
b邏輯回歸就是對於輸出輸出起對應類別的概率
其中輸出層涉及softmax函式,來歸一化輸出值在0-1區間
除了輸入和輸出層還包含多個隱藏層,每個層的輸出要經過乙個啟用函式
讀入文字
分詞建立字典,將每個詞對映到乙個唯一的索引(index)
將文字從詞的序列轉換為索引的序列,方便輸入模型
spacy:
import spacy
text =
"mr. chen doesn't agree with my suggestion."
nlp = spacy.load(
'en_core_web_sm'
)doc = nlp(text)
print
([token.text for token in doc]
)
output:
['mr.', 'chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']
nltk:
from nltk.tokenize import word_tokenize
from nltk import data
'/home/kesci/input/nltk_data3784/nltk_data'
)print
(word_tokenize(text)
)
output:
['mr.', 'chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']
一段自然語言文字可以看作是乙個離散時間序列,給定乙個長度為t的詞的序列w1,
w2,…
,w
tw_,w_,…,w_
w1,w2
,…,
wt,語言模型的目標就是評估該序列是否合理,即計算該序列的概率
利用n元模型(基於n-1馬爾科夫鏈)估算概率
為了獲取訓練的小批量樣本和標籤,可分為隨即取樣和相鄰取樣
我知道結構,**還沒看懂,下次補上
菜鳥學習TASK1
鴿子部第一次task當然不能鴿掉,但是進度很迷,所以打算先對照task把概要大概寫下,然後把發展方案寫下,然後再一點點完善細節。task 了解c語言的幾大資料型別 包括陣列與字串 了解ascii碼和char型別的關係,有興趣的可以進一步了解unicode。基礎資料型別 整型 短整型short,整型i...
陣列學習task1
1.利用動態陣列解決資料存放問題 編寫一段 要求輸入乙個整數n,用動態陣列a來存放2 n之間所有5或7的倍數,輸出該陣列。托普利茨矩陣問題 如果乙個矩陣的每一方向由左上到右下的對角線上具有相同元素,那麼這個矩陣是托普利茨矩陣。給定乙個m x n的矩陣,當且僅當它是托普利茨矩陣時返回true。def ...
python學習打卡 Task1
基礎知識 注釋模組 內建函式dir 及help pep8 在mac終端輸入python可進入cpython互動式直譯器,利用print函式向世界打招呼吧 print hello,world 執行結果 hello,world input函式用於接收使用者輸入,先將輸入儲存在變數中,然後列印這個變數 d...