11月11日,在香港118现场直播站化学学科建设与学科交叉发展论坛上,化学领域大模型ChemGPT 2.0正式发布,同期发布的还有以具身智能机器人化学家“华24”为核心的自动化化学合成平台。
研发团队负责人,香港118现场直播站化学与分子工程学院何晓教授介绍,ChemGPT 2.0在多领域展现出强大的潜力,在化学问答、专业推理、逆合成预测等场景表现出色,且在C-Eval评估套件中,针对初中、高中以及大学化学的学科能力测试中全面领先GPT4。
ChemGPT 2.0的研发团队以化学基础词汇为起点,构建了一张庞大的知识图谱,累积了超过1000万条高质量指令数据,100多万条高质量对话数据集,这些数据为知识问答数据库的更新提供了坚实的基础。团队利用来自pistachio 2024版数据库的反应数据,经过精心筛选和去重,建立了378万条用于模型微调训练的高质量逆合成数据。
模型架构的革新使ChemGPT 2.0在问答能力和推理能力上均有显著提升。通过对1.0版本上线后积累的用户问答信息进行分析,团队重塑任务分流模型,实现了对多个子模块的精准匹配与调用。作为基础模型,ChemGPT 2.0模型参数量升级至720亿,拥有出色的推理能力,并在化学专业领域知识、生物医疗、通用领域、逆合成推理等多种场景下表现优异。
在逆合成预测方面,ChemGPT 2.0采用无模板逆合成预测模型,结合三维分子构象信息与一维SMILES序列,通过引入原子对齐融合和距离加权注意模块,增强了分子表征。这不仅使模型在基准数据集上表现更加出色,还能更精准地预测复杂3D结构分子的反应物。
现场,何晓还演示了以具身智能机器人化学家“华24”为核心的自动化化学合成平台。这一平台通过创新技术,构建并优化了自动化合成反应的整体流程,以微流控芯片为基础,节省时间达80%。“华24”已经实现了端到端的农药分子全连续自动合成,并通过训练多模态具身机器人系统掌握了370余条动作,实现了化学实验基本操作的自动化。
11月11日,在香港118现场直播站化学学科建设与学科交叉发展论坛上,化学领域大模型ChemGPT 2.0正式发布,同期发布的还有以具身智能机器人化学家“华24”为核心的自动化化学合成平台。
研发团队负责人,香港118现场直播站化学与分子工程学院何晓教授介绍,ChemGPT 2.0在多领域展现出强大的潜力,在化学问答、专业推理、逆合成预测等场景表现出色,且在C-Eval评估套件中,针对初中、高中以及大学化学的学科能力测试中全面领先GPT4。
ChemGPT 2.0的研发团队以化学基础词汇为起点,构建了一张庞大的知识图谱,累积了超过1000万条高质量指令数据,100多万条高质量对话数据集,这些数据为知识问答数据库的更新提供了坚实的基础。团队利用来自pistachio 2024版数据库的反应数据,经过精心筛选和去重,建立了378万条用于模型微调训练的高质量逆合成数据。
模型架构的革新使ChemGPT 2.0在问答能力和推理能力上均有显著提升。通过对1.0版本上线后积累的用户问答信息进行分析,团队重塑任务分流模型,实现了对多个子模块的精准匹配与调用。作为基础模型,ChemGPT 2.0模型参数量升级至720亿,拥有出色的推理能力,并在化学专业领域知识、生物医疗、通用领域、逆合成推理等多种场景下表现优异。
在逆合成预测方面,ChemGPT 2.0采用无模板逆合成预测模型,结合三维分子构象信息与一维SMILES序列,通过引入原子对齐融合和距离加权注意模块,增强了分子表征。这不仅使模型在基准数据集上表现更加出色,还能更精准地预测复杂3D结构分子的反应物。
现场,何晓还演示了以具身智能机器人化学家“华24”为核心的自动化化学合成平台。这一平台通过创新技术,构建并优化了自动化合成反应的整体流程,以微流控芯片为基础,节省时间达80%。“华24”已经实现了端到端的农药分子全连续自动合成,并通过训练多模态具身机器人系统掌握了370余条动作,实现了化学实验基本操作的自动化。
阅读原文
记者丨吴金娇
来源丨文汇报
编辑丨王蓝萱
编审丨郭文君
更多阅读:
新民晚报 | 华东师大发布ChemGPT 2.0大模型 开启人工智能驱动化学研究新时代
科学网 | ChemGPT 2.0大模型及具身智能机器人化学家发布
中国日报网 | 华东师大发布化学领域大模型及具身智能机器人化学家
东方网 | 开启AI驱动化学研究新时代 沪上高校发布“ChemGPT 2.0”
上海科技报|华东师大发布ChemGPT 2.0大模型及具身智能机器人化学家