機器學習多示例學習MIL

根據訓練資料的歧義性大小，大致可以把在該領域進行的研究劃分為三種學習框架：監督學習、非監督學習和強化學習。監督學習的樣本示例帶有標記；非監督學習的樣本示例沒有標記，因而該學習模型的歧義性較大。多示例學習可以認為是與三種傳統學習框架並列的第四種學習框架，由dietterich等人於2023年提出，提出的背景是通過一項對分子活性的研究，文章是"solving the multiple-instance problem with axis parallel rectangles" ，下面就對多示例問題做乙個概念性的介紹。

多示例學習可以被描述為：假設訓練資料集中的每個資料是乙個包(bag)，每個包都是乙個示例(instance)的集合,每個包都有乙個訓練標記，而包中的示例是沒有標記的；如果包中至少存在乙個正標記的示例，則包被賦予正標記；而對於乙個有負標記的包，其中所有的示例均為負標記。（這裡說包中的示例沒有標記，而後面又說包中至少存在乙個正標記的示例時包為正標記包，是相對訓練而言的，也就是說訓練的時候是沒有給示例標記的，只是給了包的標記，但是示例的標記是確實存在的，存在正負示例來判斷正負類別）。通過定義可以看出，與監督學習相比，多示例學習資料集中的樣本示例的標記是未知的，而監督學習的訓練樣本集中，每個示例都有乙個一已知的標記；與非監督學習相比，多示例學習僅僅只有包的標記是已知的，而非監督學習樣本所有示例均沒有標記。但是多示例學習有個特點就是它廣泛存在真實的世界中，潛在的應用前景非常大。

多示例學習近幾年已經逐漸被用於基於機器學習框架的組織病理學影象癌症檢測等方面，是計算機輔助診斷這一學科中一種新崛起的方法，下面就按照我在**和網上學到的知識對多示例學習進行一下簡單的介紹。

在介紹多示例學習之前，首先要了解兩個概念：包（bags）和示例（instance）。包是由多個示例組成的，舉個例子，在影象分類中，一張就是乙個包，分割出的patches就是示例。在多示例學習中，包帶有類別標籤而示例不帶類別標籤，最終的目的是給出對新的包的類別**。有人說多示例學習是監督學習的一種擴充套件，不過我更加傾向於認為多示例學習是介於監督學習與無監督學習之間且不同於半監督學習的一種學習方法，因為用於訓練分類器的示例是沒有類別標記的，但是包卻是有類別標記存在的，這一點與以往的所有框架均不甚相同。還有一點就是多示例學習特有的規則：如果乙個包裡面存在至少乙個被分類器判定標籤為+的示例，則該包為正包；如果乙個包裡面所有的示例都被分類器判定標籤為-，則該包為負包。

多示例學習僅僅在全域性注釋的上進行訓練，但卻往往可以給出patch級或者畫素級的標籤。在我看過的幾篇**中，如果要求mil框架可以給出patch級別的標籤也就是給出instance級別的標籤，那麼訓練樣本中的instance必須存在標籤（僅僅標註一部分也可以）。

多示例學習中，定義「包」為多個示例的集合。與其他classification方法不同，此方法僅對「包」作標籤，「包」中的示例並無標籤。定義「正包」：包中至少有乙個正示例；反之，當且僅當「包」中所有示例為負示例時，該「包」為「負包」。

多示例學習的目的：①歸納出單個示例的標籤類別的概念。②計算機通過對這些已標註的「包」學習，盡可能準確地對新的「包」的標籤做出判斷。

我們就拿影象分類舉個例子：影象分類是基於影象內容來確定影象目標的類別。例如：一張上存在「sand」、"water"等各種示例，我們研究的目標是"beach"。在多示例學習中，一張影象作為乙個「包」：

多示例學習方法是20世紀90年代人們在研究藥物活性時提出來的。2023年，t. g. dietterich 等人對藥物活性**問題進行了研究。其目的是構建乙個學習系統，通過對已知適於或不適於製藥的分子進行學習，盡可能正確地**其他新的分子是否適合製藥。由於每個分子都有很多種可能的穩定同分異構體共存，而生物化學家只知道哪些分子適於製藥，並不知道其中的哪一種同分異構體起到了決定性作用。如果使用傳統的有監督學習的方法，將適合製藥的分子的所有穩定同分異構體作為正樣本顯然會引入很多雜訊。因此，提出來多示例學習的問題。

多示例學習自提出十幾年以來，一直成為研究的熱點。從最初t. g. dietterich等人提出該方法時給出的三個基於軸平行矩形的方法，到後來的dd、emdd、citation-knn，以及svm、神經網路、條件隨機場方法在多示例學習中的運用。

多示例學習具有廣泛的應用，例如：影象檢索、文字分類等。

機器學習 多示例學習MIL

機器學習 多示例學習MIL

MIL 多示例學習 特徵選擇

多示例學習

相關推薦

機器學習多示例學習MIL

機器學習多示例學習MIL

MIL 多示例學習特徵選擇