文字多標籤分類 概述

2021-10-07 21:07:43 字數 875 閱讀 6377

表示分類任務中有多個類別,多類分類是假設每個樣本都被設定了有且僅有乙個標籤。 比如對一堆水果分類, 它們可能是橘子、蘋果、梨等,乙個水果可以是蘋果或者梨, 但是同時不可能是兩者。

給每個樣本一系列的目標標籤. 可以想象成乙個資料點的各屬性不是相互排斥的,比如乙個文件相關的話題. 乙個文字可能被同時認為是宗教、政治、金融或者教育相關話題。就是同乙個例項,可以有多個標籤。

有些樣本可能只有乙個類標,有些樣本的類標可能高達幾十甚至上百個。

例如包含藍天類標的樣本很大概率上包含白雲,如何解決類標之間的依賴性     問題也是一大難點。

1)轉化問題

轉化問題資料,使之適用現有演算法,比如把問題轉化為乙個或多個    單目標分類問題,或是回歸問題。      

2)演算法適應

指針對某一特定的演算法進行擴充套件,從而能夠處理多標籤資料,改進演算法,適用資料。    

1)整合式      

將訓練樣本按每個標籤構造乙個訓練集,每個樣本屬於或不屬於這個標籤,對每個標籤單獨訓練乙個分類器,然後將多個分類器的結果合成。

2)轉換成多分類        

將每個多標籤單獨看做乙個新標籤,在乙個更多的標籤集上做多分類。通過設定閥值來取多標籤.(例如使用sigmoid,取所有大於0.5的標籤作為多標籤)

3)標籤組合      

將每個多標籤組合單獨看做乙個新標籤,在乙個更多的標籤集上做多分類。

1)傳統機器學習模型中的多標籤分類模型有:      

knn多標籤版本mlknn,svm的多標籤版本rank-svm等。

2)在深度學習中常常是修改多分類模型的輸出層,使其適用於多標籤的分類。

基於bert實現文字多分類任務

已上傳至github 資料格式如下 複製run classifier.py,命名為run cnews classifier.py。新增自定義的processor class myprocessor dataprocessor def read txt self,data dir,flag with ...

了解HTML的標籤概述與分類

1.檔案標籤 構成html最基本的標籤 html html文件的根標籤 head 頭標籤。用於指定html文件的一些屬性,引入外部的資源 title 標題標籤。body 體標籤 html5中定義該文件是html文件 2.文字標籤 和文字有關的標籤 注釋 to 標題標籤,h1 h6 字型大小逐漸遞減 ...

css控制文字多行後 顯示

首先,webkit核心的瀏覽器實現起來比較簡單,可以通過新增乙個 webkit line clamp的私有屬性來實現,webkit line clamp是用來限制在乙個塊元素顯示的文字的行數。為了實現這個效果,它需要組合其他的webkit屬性 overflow hidden text overflo...