2024-11-12 05:01:14

机器学习技术推进实验设计

导读 帝国化学公司巴斯夫将在机器学习会议NeurIPS上展示优化实验设计的新技术。三篇概述了解决化学工业重要需求的新机器学习技术的论文被认为具...

帝国化学公司巴斯夫将在机器学习会议NeurIPS上展示优化实验设计的新技术。三篇概述了解决化学工业重要需求的新机器学习技术的论文被认为具有开创性,足以在机器学习研究最具竞争力的国际场所之一的NeurIPS会议上赢得认可。

这些技术是帝国理工和巴斯夫广泛合作的一部分,旨在帮助化学和其他领域的研发(R&D)科学家通过预测哪些实验将返回最有用的结果,以最少的试错来改进工业流程.它们还可以帮助自动化研发过程。预计这些进展将有助于加速开发创新的新化学产品以及更高效和可持续的制造方法。

巴斯夫/RAEng帝国计算机系数据驱动优化研究主席RuthMisener教授说:“我们与巴斯夫的研究通过使尖端的实验设计技术适应特定行业的要求,帮助化学工业实现数字化转型。这将“有助于创造更好、更可持续的化学。这项研究还在机器学习方面取得了重要的理论进展。NeurIPS的接受标志着我们的工作得到了更广泛的机器学习社区的认可。”

巴斯夫学术合作开发人员兼高级研究工程师ChristianHoltze博士表示:“在巴斯夫,我们认为数字化是加强我们作为化工行业研发领导者角色的关键,并解决了该行业对可持续性和复原力的迫切需求。“我们长期以来一直重视帝国理工在这一领域的尖端专业知识。一个突出的例子是我们与RuthMisener教授及其同事的合作,他们分享了我们为明天的化学工业开发颠覆性数字能力的愿景。”

优化研发

工业化学家经常进行实验以开发高性能产品,如涂料和电池,最大限度地提高化学品的纯度,并最大限度地降低生产它们的材料和能源成本。这需要测试多种成分组合和反应器设置,例如流速和温度。

由于实验过程本身成本很高,化学公司的目标是设计这些实验,以便在有限数量的实验迭代中尽可能优化制造过程。

考虑到这一点,事先决定在实验的每次迭代中测试哪些参数值是没有意义的。相反,化学家通常会使用不同的值进行少量初始迭代,并使用结果来粗略预测哪些设置(例如,哪些温度)将提供最佳性能。然后即时设计进一步的迭代,以逐步提高第一次预测的精度和准确性。

这种迭代过程的更复杂的版本不依赖于人类的直觉,而是依赖于优化算法。在贝叶斯优化中,一种算法将实验数据与称为高斯过程的统计背景假设相结合,以估计将实验变量与制造性能联系起来的数学函数。这个估计一开始是高度近似的,它并不表示为确定性,而是表示为在一系列可能函数上的概率分布。

该算法的目的是找到产生最佳制造性能的设置,概率分布通过使算法能够预测哪些实验设置最有可能产生更好的性能来帮助它做到这一点。一系列学术和工业领域的实验科学家越来越多地使用采用这种方法的机器学习算法。

“算法通常优于人类直觉,因为当有很多变量时,人们真的很难看到发生了什么,”巴斯夫的机器学习专家RobertMLee博士说,他与Imperial和Imperial的同事一起进行了这项研究。巴斯夫的同事BehrangShafei博士和DavidWalz博士。

“他们提供的另一个优势是自动化。在大多数情况下,我们仍然有一个人参与其中,但我们有几个案例可以关闭这个循环,这意味着你可以点击开始,将注意力集中在其他事情上,然后来回到一些好的结果。”

化学进展

虽然实验设计的优化已经是一个成功的领域,但工业化学仍在努力解决优化算法难以解释的实际限制。这些包括:

改变物理变量的成本——例如温度,改变一点比改变很多容易。

事实上,某些类型的实验数据比其他类型的数据返回得更快,化学家需要在收到所有数据之前做出实验设计决策,这称为异步批处理。

多个目标,例如需要最大限度地降低化学品制造成本,同时最大限度地提高质量和可持续性。

温度等连续变量与开和关等分类变量的组合。

多保真度,或某些数据源比其他数据源更值得信赖的事实。

输入约束,例如独立于实验的已知事实,例如以百分比表示的化学成分必须加起来为100%。

帝国理工和巴斯夫的研究人员开发的新技术适应了许多这些限制。一篇论文提供了一种在多个目标之间折衷的优化技术,而另一篇论文则考虑了输入约束和不同类型的变量。第三个原因是改变变量、多保真度和异步批处理的成本。

论文由博士撰写。帝国理工学院计算机和数学系的学生和学者与巴斯夫的研发科学家合作。该研究由巴斯夫和工程与物理科学研究委员会通过统计和机器学习博士培训中心资助。

机器学习的新领域

虽然受到化学实际需求的推动,但该研究已将这些转化为数学技术,在机器学习中具有一般应用,并有可能在化学工业本身之外产生巨大影响。

AlexanderThebelt先生,博士计算机专业的学生和一篇论文的主要作者说:“机器学习社区对这类问题越来越感兴趣。许多在机器学习中非常成功的应用程序都是你拥有大量数据的情况,并且您可以在算法中投入尽可能多的数据以使其发挥作用。并非所有领域都是如此。如果我们可以使用我们的技术发现可能对人类和工业产生巨大影响的新材料。它可以与迄今为止我们在机器学习中看到的任何成功一样大。”

Lee博士表示,应用工业化学问题在机器学习研究中开辟新的理论方法并不罕见。“机器学习领域的人传统上认为数据要么在表格中,要么在图片或文本中。一旦你说,我的输入不是这些东西,它们实际上是分子,然后人们说,哦,有趣,我可以将分子表示为具有节点和边的图,并做各种聪明的事情。”

“我们与Ruth[Misener]的合作非常有价值,因为她的团队一只脚是化学工程,一只脚是人工智能,这在这类工作中是必不可少的。与学术界合作对我们来说令人耳目一新;它为您提供了一种不同的方式看东西。这是我们无法在内部开发的东西。”