文字生成相關演算法總結

2022-08-24 07:42:12 字數 679 閱讀 8990

2023年google brain團隊提出基於深度學習的seq2seq模型。如圖1所示,該模型在結構上主要分為兩部分:編碼器encoder、解碼器decoder。encoder部分使用某一深度學習神經網路讀取輸入關鍵字或句子,將關鍵字或句子壓縮到乙個固定的維度;decoder部分的深度學習網路則讀取壓縮後的編碼,將其解壓為目標句子。其中encoder和decoder部分的深度學習網路可以由cnn、rnn、lstm、注意力機制等進行替換、組合。接下來對常見的深度學習演算法進行介紹。

卷積神經網路(convolutional neural networks, cnn)是一類包含卷積計算且具有深度結構的前饋神經網路(feedforward neural networks)。cnn通過卷積核從資料物件中提取特徵,間隔地對特徵作用池化,得到不同層次的由簡單到複雜的特徵,常用於影象任務。但通過文字的分布式向量表示,將一句話或乙個詞用乙個實數矩陣或向量表示後,就可以使用cnn在文字任務中進行卷積應用。

在可並行化設計方面cnn與注意力機制相較於其它深度學習模型易實現;在捕捉上下文及語序資訊方面rnn、lstm具有天然的優勢,但對於捕捉長距離的上下文及語序資訊時模型較複雜。cnn與注意力機制儘管在結構設計上對上下文語序的捕獲不佔優勢,但也可以通過後續模型結構的改進來實現。

文字生成器

給出 n 個單詞和文字長度 m 求有多少文字滿足其內至少包含乙個單詞,答案對 10007 取餘。直接求滿足的文字比較困難,我們考慮求答案的補集,也就是不包含任何乙個單詞的文字串的數量。對於這個答案我可以用 dp 求解,但考慮對單詞的查詢我們需要用 a c自動機解,因此題目就比較明顯了,ac 自動機上...

2017 8 14 文字生成器 失敗總結

以後凡是在乙個中出現 1次的題就直接轉0次用容斥好了 然後剩下的就是怎麼找乙個單詞也不出現的文字的個數了 顯然,這種計數類問題需要用dp 而且我們需要知道所有單詞會為我們新增字母造成影響,所以需要用ac自動機,跳過所有標記的單詞 以前是寫的指標ac自動機,但它不好寫而且巨慢 所以換了陣列 要注意用0...

使用TextRank演算法為文字生成關鍵字和摘要

使用textrank演算法為文字生成關鍵字和摘要 textrank演算法基於pagerank,用於為文字生成關鍵字和摘要。其 是 mihalcea r,tarau p.textrank bringing order into texts c association for computational...