關於深度學習的可解釋性

在這裡學習的，在此簡要做了些筆記。

人類對模型決策/**結果的理解程度。

對於深度學習而言，可解釋性面臨兩個問題：①為甚會得到該結果？（過程）②為甚結果應該是這個？（結果）

理想狀態：通過溯因推理，計算出輸出結果，可是實現較好的模型解釋性。

衡量乙個解釋是否合理，需要考慮【可解釋性：通過人類可以理解的方式描述系統的內部結構】和【完整性：通過精確的方式描述系統的各個操作步驟】兩個方面。

為模型賦予可解釋性有利於確保公平性、隱私保護效能、魯棒性；同時可以說明input到output之間的因果關係。

1）完善深度學習模型

大多數深度學習模型是data-driven的黑盒模型，通過這些模型可以獲取知識（這些知識依賴於模型的組織架構、對資料的表徵方式），而模型的可解釋性可以顯式地捕獲知識。但因為深度學習模型不好解釋，質量保證工作難以實現。

2）深度學習模型和人的關係

如果模型具備較強的可解釋性：可以使使用者獲得良好的互動體驗，滿足好奇心，增加對模型的信任感。

如果機器做出的決策和人的意願有出入，使用者會試**釋這種差異；當模型的**結果對使用者的生活（尤其是一些涉及到安全、財產方面的決策）產生重要影響時，模型的可解釋性與使用者對模型的信任度息息相關。

4）深度學習模型和社會的關係

深度學習模型高度依賴於訓練資料，但是訓練資料可能會帶有偏見（人種、性別、職業等因素）；為了保證公平性，使用者要求學習模型具有檢測偏見的功能，能夠通過對自身決策的解釋說明其公平。

具有強可解釋性的模型也會具有較高的社會認可度，會更容易被公眾所接納。

本質可解釋性：對模型的架構進行限制，使其工作原理和中間結果能夠較為容易地為人們所理解（例如，結構簡單的決策樹模型）

事後可解釋性：通過各種統計量、視覺化方法、因果推理等手段，對訓練後的模型進行解釋

根據可解釋性方法與模型的匹配關係：針對特定模型的可解釋性、模型無關可解釋性

根據可解釋性方法的作用範圍：區域性可解釋性、全域性可解釋性

回答：輸入為什麼會得到相應的的特定輸出？（與剖析程式的執行過程相似）

方法：降低複雜度。比如通過設計表現與原始模型相似但更易於解釋的**模型，也可構建顯著性圖。

1）線性**模型（proxy models）

用線性可解釋的模型模擬「黑盒模型」，marco提出了一種新的模型無關的模型解釋技術【lime：通過學習圍繞**結果的可解釋模型，解釋任意模型的**結果。對輸入樣本進行擾動，識別出對於**結果影響最大的可理解的特徵。】

優秀的解釋方法具有以下特性：

① 可解釋性；② 區域性保真；③ 模型無關；④ 全域性視角

**模型提供了模型複雜度與可信度之間的量化方法。

2）決策樹方法

makoto提出新的規則抽取方法【cred：使用決策樹對神經網路進行分解，並通過c/d-rule演算法合併生成的分支，產生不同分類粒度，能夠考慮連續與離散值的神經網路輸入輸出的解釋】；deepred將cred的工作拓展到多層網路上，並採用多種結構優化生成樹的結構。

另一種決策樹方法是【ann-dt：使用模型的結點結構建立決策樹，對資料進行劃分；判斷節點是採用正負兩種方法判斷該位置的函式是否被啟用，以此劃分資料】

決策樹生成後，通過在樣本空間取樣、實驗，獲得神經網路的規則。對較淺的網路生成了可靠的解釋，但由於決策樹節點個數依賴於網路大小，對於大規模的網路，方法的計算開銷將相應增長。

3）自動規則生成

4）顯著性圖回答：網路包含哪些資訊？（與解釋程式內部的資料結構相似）

1）基於層的解釋

2）基於神經元的解釋1）注意力機制網路：學習一些功能，以提供對輸入/內部特徵的加權，進而引導網路其他部分可見的資訊。

計算input與其中間過程表示之間的權重。

2）分離表示法：使用單獨的維度來描述有意義的和獨立的變化因素，應用中可以使用深層網路訓練顯式學習的分離表示。

用高低維度的、含義不同的獨立的特徵表示樣本。

大多數dl模型學習到的特徵往往複雜地耦合在一起。通過對學習到的特徵解耦，可以得到解釋性高的編碼。

3）生成解釋法：可以把生**類可理解的解釋作為系統顯式訓練的一部分。