俄罗斯科学院库尔纳科夫基础与无机化学研究所科学家发布全球最大二元混合溶剂溶解度数据库,助力药物开发与新材料创制

来自俄罗斯科学院库尔纳科夫普通与无机化学研究所、莫斯科国立大学以及国立研究大学“高等经济学院”的科学家团队,成功构建了全球首个涵盖有机化合物在二元混合溶剂中溶解度的大型数据库——MixtureSolDB,并同步开发了一款用于交互式数据可视化的在线应用程序。该数据库支持利用人工智能算法预测物质在二元混合溶剂中的溶解度值,标志着化学信息学领域的一项重要进展。相关研究成果已发表于《科学数据》期刊,该工具在药物开发及新一代功能材料创制方面展现出广阔的应用前景。

溶解度是化合物的关键物化性质之一,直接决定其在化学合成、材料科学与制药工业中的实际应用。在实际工艺流程中,混合溶剂的使用极为普遍,这显著增加了溶解度评估的复杂性。与纯溶剂相比,二元溶剂中溶质溶解行为受到溶剂比例、极性、氢键作用等多种因素影响,使得其预测极具挑战性。现代化学信息学面临的主要瓶颈之一是缺乏大规模、多样化的实验溶解度数据集。为突破这一限制,研究团队采用机器学习方法,无需逐一实验即可预测化学物质的性质,从而大幅加速科研进程并降低研发成本。

莫斯科科学家团队建立了目前全球最大的有机化合物在二元混合溶剂中的溶解度数据库,收录了超过17.5万个实验数据点。研究作者之一、俄罗斯科学院普通与无机化学研究所晶体化学实验室及颜色中心助理研究员列夫·克拉斯诺夫介绍:“在研究过程中,我们系统梳理了1115篇经过同行评审的科学文献,最终整合出175,166条溶解度实验值,涵盖810种有机化合物在750种独特二元混合溶剂中的溶解度数据,温度范围覆盖252 K至383 K。我们高度重视数据质量:每一条记录均经过严格验证、标准化和去重处理。”

所有溶质和溶剂的分子结构均以机器可读的SMILES格式呈现,确保数据库可被直接用于各类机器学习任务,无需额外的预处理步骤。此外,团队还开发了一款在线应用程序,支持用户通过化合物的化学结构或名称快速搜索溶解度值,实现数据的可视化与便捷导航。

据研究团队介绍,该数据库填补了混合溶剂中有机物溶解度全面数据集的长期空白,此前这一缺失严重制约了机器学习方法在该领域的应用与发展。过去的大多数研究集中在纯溶剂体系,而MixtureSolDB首次为二元混合溶剂提供了大规模、系统化的实验数据。

数据库中不仅包含最常见的二元体系,如水-乙醇、水-乙腈、乙醇-丙酮,还收录了其他具有实际工业意义的溶剂组合。这对开发创新化学工艺尤其重要:准确掌握混合溶剂中的溶解度,是优化合成条件、设计药物剂型、以及构建高效结晶与萃取方法的关键前提。

作者特别指出,莫斯科国立大学化学系一年级学生费奥多尔·库兹涅佐夫、弗拉基米尔·叶利斯特拉托夫和马特维·瓦西亚罗夫对本研究作出了重要贡献,这也是他们发表的第一篇科学论文。其中,费奥多尔·库兹涅佐夫和弗拉基米尔·叶利斯特拉托夫是2025年国际化学奥林匹克竞赛(IChO-2025)的获奖者,马特维·瓦西亚罗夫则是IChO-2024的获奖者,展现了俄罗斯青年化学人才在国际舞台上的卓越实力。