案例¶

这里我们会展示DeepChem的一些使用案例。

We match against doctest’s ... wildcard on code where output is usually ignored
We often use threshold assertions (e.g: score['mean-pearson_r2_score'] > 0.92), as this is what matters for model training code.

Delaney (ESOL)
- 多任务回归模型
- 图卷积模型
ChEMBL数据集
- 多任务回归模型
- 图卷积模型

在进入案例之前，我们需要导入一些常用的模块。

Delaney (ESOL)¶

Delaney（ESOL）是一个回归数据集，其中包含1128种化合物的结构和水溶性数据，收录在`MoleculeNet <./moleculenet.html>`_的数据集合中。该数据集被广泛用于建立基于分子结构（以SMILES字符串编码）估算溶解度的机器学习模型。

我们会使用数据集中的 smiles 字段进行训练模型预测实验测得的溶剂化能(expt)。

多任务回归模型 ¶

首先，我们会使用 load_delaney() 函数进行加载数据；然后通过 MultitaskRegressor 类的fit的方法进行训练模型。

对于Delaney数据集默认的特征化`featurizer <./featurizers.html>`_ 方式是 ECFP`（Extended-connectivity fingerprints）。对于图卷积模型 :class:`GraphConvModel <deepchem.models.GraphConvModel>，我们在加载数据的时候需要显示指定特征化的方式为:code:featurizer=’GraphConv’。

ChEMBL数据集 ¶

ChEMBL 数据集是手动收集整理具有类药性质的生物活性分子的数据库。它包含了化学、活性、基因组数据（靶点数据），目的是加速从基因组信息寻找有效的药物分子。该数据集的22.1版本也已经整合到`MoleculeNet <./moleculenet.html>`_的数据集合中, 里面包含了2个类别 “sparse” 和 “5thresh” 。 “sparse”是一个大的数据集，包含了 244,245 化合物的化合物的信息。正如名字所示的那样，这个数据集中数据非常稀疏，大部分化合物仅仅有一个靶标的活性数据。

“5thresh” 是一个更小的数据集，包含了23,871 化合物的信息，每个化合物至少有5个靶标的活性数据。

Examples of training models on ChEMBL dataset included in MoleculeNet.

下面是基于`ChEMBL <https://www.ebi.ac.uk/chembl/>`_ 数据集进行训练的案例。

案例¶

Delaney (ESOL)¶

多任务回归模型 ¶

图卷积模型 ¶

ChEMBL数据集 ¶

多任务回归模型 ¶

图卷积模型 ¶

案例¶

Delaney (ESOL)¶

多任务回归模型¶

图卷积模型¶

ChEMBL数据集¶

多任务回归模型¶

图卷积模型¶

多任务回归模型 ¶

图卷积模型 ¶

ChEMBL数据集 ¶

多任务回归模型 ¶

图卷积模型 ¶