案例¶
这里我们会展示DeepChem的一些使用案例。
We match against doctest’s
...wildcard on code where output is usually ignoredWe often use threshold assertions (e.g:
score['mean-pearson_r2_score'] > 0.92), as this is what matters for model training code.
在进入案例之前,我们需要导入一些常用的模块。
Delaney (ESOL)¶
Delaney(ESOL)是一个回归数据集,其中包含1128种化合物的结构和水溶性数据, 收录在`MoleculeNet <./moleculenet.html>`_的数据集合中。 该数据集被广泛用于建立基于分子结构(以SMILES字符串编码)估算溶解度的机器学习模型。
我们会使用数据集中的 smiles 字段进行训练模型预测实验测得的溶剂化能(expt)。
ChEMBL数据集¶
ChEMBL 数据集是手动收集整理具有类药性质的生物活性分子的数据库。 它包含了化学、活性、基因组数据(靶点数据),目的是加速从基因组信息寻找有效的药物分子。 该数据集的22.1版本也已经整合到`MoleculeNet <./moleculenet.html>`_的数据集合中, 里面包含了2个类别 “sparse” 和 “5thresh” 。 “sparse”是一个大的数据集,包含了 244,245 化合物的化合物的信息。 正如名字所示的那样,这个数据集中数据非常稀疏,大部分化合物仅仅有一个靶标的活性数据。
“5thresh” 是一个更小的数据集,包含了23,871 化合物的信息,每个化合物至少有5个靶标的活性数据。
Examples of training models on ChEMBL dataset included in MoleculeNet.
下面是基于`ChEMBL <https://www.ebi.ac.uk/chembl/>`_ 数据集进行训练的案例。