RDKit 基於隨機森林的化合物活性二分類模型

2021-09-30 17:01:07 字數 337 閱讀 7592

隨機森林是許多決策樹組成的模型。這個模型不僅僅是乙個森林，而且它還是隨機的，因為有兩個概念：

隨機抽樣的資料點;

基於要素子集拆分的節點;

隨機森林背後的另乙個關鍵點是，只考慮所有特徵的子集來分割每個決策樹中的每個節點。通常，這被設定為sqrt(n_features)意味著在每個節點處，決策樹考慮在特徵的樣本上分割總計特徵總數的平方根。考慮到每個節點的所有特徵，也可以訓練隨機森林。

如果你掌握單個決策樹、bagging決策樹和隨機特徵子集，那麼你就可以很好地理解隨機森林的工作原理。隨機森林結合了數百或數千個決策樹，在略微不同的觀察集上訓練每個決策樹，並且僅考慮有限數量的特徵來分割每個樹中的節點。隨

RDKit 化合物相似性搜尋（基於Python3）

化合物相似性在化學資訊學和藥物發現中具有悠久的歷史，許多計算方法採用相似度測定來鑑定研究的新化合物。本例項通過計算分子的morgan指紋進行相似性比對。匯入依賴包 usr bin env python3 from rdkit.chem import allchem as ch from rdkit....

化合物相似性搜尋 RDKit 化合物相似性搜尋

基於python3和rdkit的化合物結構相似性搜尋化合物相似性在化學資訊學和藥物發現中具有悠久的歷史，許多計算方法採用相似度測定來鑑定研究的新化合物。本例項通過計算分子的morgan指紋進行相似性比對。匯入依賴包 usr bin env python3 from rdkit.chem impor...

RDKit 化合物亞結構搜尋與結果輸出

假定搜尋目標化合物作為mol字串包含在稱為mols的列表中。可以在以下流程中執行部分結構搜尋，並突出顯示匹配化合物的匹配部分結構。導入庫from rdkit.chem import allchem from rdkit.chem import draw,descriptors from rdkit....