RDKit 基於隨機森林的化合物活性二分類模型

2021-09-30 17:01:07 字數 337 閱讀 7592

隨機森林是許多決策樹組成的模型。這個模型不僅僅是乙個森林,而且它還是隨機的,因為有兩個概念:

隨機抽樣的資料點;

基於要素子集拆分的節點;

隨機森林背後的另乙個關鍵點是,只考慮所有特徵的子集來分割每個決策樹中的每個節點。通常,這被設定為sqrt(n_features)意味著在每個節點處,決策樹考慮在特徵的樣本上分割總計特徵總數的平方根。考慮到每個節點的所有特徵,也可以訓練隨機森林。

如果你掌握單個決策樹、bagging決策樹和隨機特徵子集,那麼你就可以很好地理解隨機森林的工作原理。隨機森林結合了數百或數千個決策樹,在略微不同的觀察集上訓練每個決策樹,並且僅考慮有限數量的特徵來分割每個樹中的節點。隨

RDKit 化合物相似性搜尋(基於Python3)

化合物相似性在化學資訊學和藥物發現中具有悠久的歷史,許多計算方法採用相似度測定來鑑定研究的新化合物。本例項通過計算分子的morgan指紋進行相似性比對。匯入依賴包 usr bin env python3 from rdkit.chem import allchem as ch from rdkit....

化合物相似性搜尋 RDKit 化合物相似性搜尋

基於python3和rdkit的化合物結構相似性搜尋 化合物相似性在化學資訊學和藥物發現中具有悠久的歷史,許多計算方法採用相似度測定來鑑定研究的新化合物。本例項通過計算分子的morgan指紋進行相似性比對。匯入依賴包 usr bin env python3 from rdkit.chem impor...

RDKit 化合物亞結構搜尋與結果輸出

假定搜尋目標化合物作為mol字串包含在稱為mols的列表中。可以在以下流程中執行部分結構搜尋,並突出顯示匹配化合物的匹配部分結構。導入庫from rdkit.chem import allchem from rdkit.chem import draw,descriptors from rdkit....