港中深团队打造新型AI评测集,或可成为数学大模型检验的重要基准

  发布时间:2025-12-16 20:26:25   作者:玩站小弟   我要评论
近日,来自香港中文大学深圳)的一支科研团队通过求解器的引入,把大模型回答的数学模型交给求解器解决,进而通过比对求解器的答案,得以成功判断数学模型的正确性。这相当于为参加考试的考生准备了高级计算器,只需 。

近日,港中来自香港中文大学(深圳)的深团数学一支科研团队通过求解器的引入,把大模型回答的队打大模南京市某某广告制造厂数学模型交给求解器解决,进而通过比对求解器的造新重基准答案,得以成功判断数学模型的型A型检正确性。

这相当于为参加考试的测集成考生准备了高级计算器,只需输入方程就能得出准确答案。港中这样一来,深团数学就可以判断学生所写的队打大模方程是否正确。

基于这个理念,造新重基准该团队构建了一款名为 Mamo 的型A型检评测集,能够结合不同的测集成求解器评测大模型相应的建模能力。

未来,港中南京市某某广告制造厂这一评测集可能会成为数学大模型检验的深团数学重要基准,从而能够用于测试新训练大模型的队打大模建模能力。

同时,本次评测集的出现,也让评测中间过程成为可能,有望带动运筹大模型的发展。

谈及本次课题的初衷,研究人员表示在讨论 AI for math、特别是讨论大模型 for math 的时候,他们重点讨论了使用大模型做定理证明的任务。

借此发现采用现有的形式化定理证明工具,可以自动地验证证明过程的正确性,从而确定大模型的证明是否正确。否则,用自动化的方式判断一段数学证明的正确性是比较困难的。

以此为启发:他们想知道在其他任务中,是否存在和形式化定理证明工具一样的东西?如果有的话,能否让他们以简单的方式判断大模型的答案是否正确?

于是他们想到了求解器。当给定目标之后,求解器可以帮助运行出对应问题/对应方程的解。

通过对不同解答的比对,就可以判断中间过程、也就是判断数学模型的正确性。

此外,一直以来,人们对于大模型的数学能力的比较,一直是在最终结果(即一道题的最终答案)上,但却缺乏对于中间过程的关注。

打个比方,就是像数学考试解答题的判卷中,只考虑最后的答案正不正确,而忽略了中间的解题过程。但是,中间的解题过程和答案一样重要。

因此,课题组希望把这个评价体系拆开,不再只是关注最终答案,而是关注中间的解题过程。于是,便开展了本次研究并发表了相关论文。


图 | 论文作者黄旭函(来源:黄旭函)

日前,相关论文以《Mamo: 一个带有求解器的数学建模基准》(Mamo: a Mathematical Modeling Benchmark with 求解器 s)为题发在arXiv[1]。


图 | 相关论文(来源:arXiv)

下一步,他们将扩充数据,同时探索能够适配 Mamo 的不同求解器种类,以及构建相应的评测集。

参考资料:

1.https://arxiv.org/pdf/2405.13144

相关文章

  • 张纪中发长文悼念何晴:愿在天堂安息

      12月13日,著名演员何晴在北京安然离世,享年61岁。  12月14日,导演@张纪中 发文怀念何晴:  怀念何晴  张纪中2025/12/14  艺术之光永不落幕2025年12月13日,一颗闪耀的
    2025-12-16
  • 全国9省区市有暴雨到大暴雨 湖南局地有特大暴雨

      中央气象台7月28日06时继续发布暴雨橙色预警:  预计,7月28日08时至29日08时,湖南、湖北西部、贵州东北部、重庆东南部、广东中南部、广西东北部以及山东北部、辽宁中东部、吉林中东部等地的部
    2025-12-16
  • 恭喜徐嘉余、唐钱婷!中国游泳队再添两枚银牌

      北京时间7月30日凌晨,巴黎奥运会游泳项目举行多个单项决赛,中国游泳队再传捷报。  徐嘉余在游泳男子100米仰泳决赛中摘得银牌,唐钱婷在女子100米蛙泳决赛中同样夺得银牌。  恭喜徐嘉余、唐钱婷!
    2025-12-16
  • 黄河出现2024年第1号洪水

      记者从黄河水利委员会水文局获悉,受持续降雨影响,黄河唐乃亥水文站7月29日9时36分流量2510立方米每秒,未来水势仍将继续上涨。根据《全国主要江河洪水编号规定》,达到洪水编号标准,形成黄河202
    2025-12-16
  • 奥特曼抱紧迪士尼大腿,OpenAI能避免被踢下牌桌吗?

    本文来自微信公众号:超聚焦foci,作者:肖恩,题图来自:AI生成米老鼠和奥特曼这下真要碰面了。据The Information报道,12月11日,迪士尼宣布对OpenAI进行10亿美元的股权投资,并
    2025-12-16
  • “山东19万文科生滑档”系谣言,散布者被拘留5天

      据公安部网安局微信公众号27日消息,近日,2024年山东高考普通批投档线公布,随后在社交平台上“山东19万文科考生滑档”的谣言广泛流传,误导公众产生对教育公平的担忧,加重考生及家庭心理负担,引发社
    2025-12-16

最新评论

hgtkbf.com