面向基础科学研究的强化学习方法及应用-卓汉逵|姚正安|周展文-中国计算机学会通讯2023年第8期-CCF数字图书馆

本文介绍了强化学习与不同基础科学领域的交叉应用案例，结合作者在交叉应用研究中的实践经验，建立强化学习交叉应用的一般流程和方法，以帮助研究者们快速实现强化学习与基础科学领域的交叉应用。

面向基础科学研究的强化学习方法及应用

413会员权益

前言

基础科学研究是人类文明的核心驱动力之一，旨在理解世界的基本原理，发明重塑世界的新技术，探索未知的新领域，以建立一个可持续发展的世界。随着人工智能技术的进步，基础科学研究有望得到加速发展。为此，需深入了解基础科学研究领域的本质，建立辅助基础科学研究的智能系统（暂且称为“科学的科学”）。借助人工智能系统，有望打破基础科学研究实践中受制于人工局限性甚至人类认知局限性的局面，形成一种人工和智能系统混合的基础科学研究模式。基础科学研究往往是一个序贯决策过程，当前决策（或者探索）的效果往往需要经过多步推理后才能预判得到。这与强化学习——特别是融合了多步推理能力的强化学习——具有很强的相似性。因此，利用强化学习辅助基础科学研究是值得探索的方向。目前已有一些这方面的工作，例如，Lutz等描述了一种基于强化学习“自上而下”地设计具有所需系统特性的复杂蛋白质纳米材料^[1]，展示了强化学习在蛋白质设计中的作用。谷歌建立了一种深度强化学习的物理芯片平面规划方法，在不到6个小时的时间里，自动生成了芯片平面图，在所有关键指标上都优于芯片设计师设计的平面图或可与其媲美，包括功耗、性能和芯片面积^[2]。Segler等人使用蒙特卡洛树搜索和符号人工智能发现有机化学逆向合成路径，将蒙特卡洛树搜索与指导搜索的扩展策略网络和过滤网络结合起来，以预先选择最有希望的逆合成步骤^[3]。

利用强化学习辅助基础科学研究，可以分为三类模型：（1）直接利用基础科学研究领域中的数据训练决策模型，即数据驱动方式；（2）根据基础科学研究领域知识，人工建立知识框架，再利用领域数据训练融合知识框架的决策模型，即数据和知识驱动的融合决策模型^[4]；（3）边自动学习领域知识，边利用领域数据训练融合知识的决策模型^[5]。这三类模型的通用性递进加强，将第2类模型中的领域知识设置为空即得到第1类模型，将第3类模型中的自动学习领域知识模块设置为固定的（人工的）领域知识即得到第2类模型。利用强化学习辅助基础科学研究的模型框架如图1所示，其中，强化学习与基础科学研究领域环境进行交互，以学习得到策略，即第1类模型；人工建立“基础科学研究领域知识”，建立知识推理方法对领域知识进行推理得到状态、动作等经验数据，并将其提供给强化学习以得到优化的策略，即第2类模型；利用强化学习抽取得到领域知识（而非由人工建立），利用知识推理方法得到经验数据，并将其提供给强化学习以进一步优化策略，形成“学习领域知识—优化策略—学习领域知识”的闭环，即第3类模型。

?1.jpg

可试看3页，会员免费看完整版请先登录

浏览PDF版

下载PDF

共0条评论

发表

作者

卓汉逵

CCF高级会员。

姚正安

中山大学数学学院教授、博导，逸仙学者。

周展文

CCF 学生会员。

摘要

显示全部

来源

中国计算机学会通讯
2023年第8期

关键词

1、强化学习

2、基础科学研究

3、AI 与物理

4、AI 与化学

共0条评论

发表

面向基础科学研究的强化学习方法及应用

面向基础科学研究的强化学习方法及应用

面向基础科学研究的强化学习方法及应用

评论

评论

关于

帮助