好未来推出千亿级数学大模型MathGPT，即日开启内测|界面新闻

界面新闻记者 | 查沁君

首个数学领域的教育垂直大模型上线。

8月24日，时值好未来（NYSE：TAL）成立20周年，好未来CTO田密在直播活动中宣布，该公司自研的数学领域千亿级大模型Math GPT开启内测。

今年5月，好未来曾公布正在进行自研数学大模型的研发，由CTO田密牵头，命名为MathGPT。主要面向全球数学爱好者和科研机构，以解题和讲题算法为核心。

MathGPT官网显示，MathGPT的数学计算能力已覆盖小学、初中、高中的数学题，题型涵盖计算题、应用题、代数题等多个类型，还可以针对题目进行追问，暂未开放数学之外的问答互动。

用户使用MathGPT时，用文字或图片方式上传数学题，即可得到对话式的解答反馈，答案包含“分析”、“详解”、“点睛”三个部分；也可以通过“随机来一题”的按钮，随机生成数学题目并由系统给出解答。目前，MathGPT支持中文、英文版本的PC端和移动端。

据好未来提供的MathGPT技术报告显示，在六个公开数学评测集合CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学、Math401的测试结果中，MathGPT的表现不差。

其中，以微软华人研究团队发布的基准测试AGIEval为例，Open AI推出的GPT-4、好未来的MathGPT的正确率分别为39.2%、60.34%；但在Math401评测中，GPT-4略胜一筹，正确率高出MathGPT1.5个百分点。

ChatGLM2、GPT-4、MathGPT在C-Eval的初高中的全科测试表现。图源：好未来

同时，在C-Eval的初高中的全科测试集合上，MathGPT的表现成绩也普遍高于GPT-4和清华团队推出的第二代中英双语对话模型ChatGLM2。

一个普遍共识是，通用大模型“重文轻理”，在数学问题的解决、讲解、问答和推荐方面则存在明显的短板。即使是表现优异的GPT-4也曾在鸡兔同笼的基本数学问题上“栽跟头”。相比大模型更擅长的语文、英语，数学更偏逻辑思维、推理能力，大模型研发难度也更高。

“数学光喂内容没用，因为它是原理问题，现有技术没法做到套一下就能使用（的地步）。”网易有道（NYSE：DAO）CEO近期在媒体交流时表示，相反，如果是文字语言型的应用，不需要特别强的推理。从现有时间经验来说，英语、语文比数学的评测结果更理想，速度也更快。

作为曾经数学培训的头部公司，好未来积累了大量的数学数据和生产能力。2017年，成立AI lab开启人工智能研究。之所以研发数学垂直大模型，该公司称“在通往通用人工智能的路上，数学推理能力很重要，全球有很多大型公司在做相关研究。”

“AI带来了重新定义教育行业的机会，大模型技术使得大规模的因材施教真正有了实现的可能。”田密认为，大模型的本质，是一种更高效的、从数据中学习知识并加以应用的方式。

在AI能力的加持下，“学生自学+AI答疑”的新型学习方式成为广泛的可能。学习者获得优质教学内容的门槛、成本降低，获得的教学内容个性化、精细化程度持续升高，可以实现千人千面的AI教学和答疑辅导。

好未来正与中国信通院、复旦大学、科大讯飞（002230.SZ）、百度（BIDU.US）等科研机构、高校、企业一同编制教育大模型团体标准，从覆盖场景、应用成效、服务可靠等维度全面评估教育大模型能力，为教育大模型应用落地提供参考与指导。

大模型训练、运营及维护需要大量专业人才，好未来目前还在招兵买马。

MathGPT官网显示，其招聘岗位包括大模NLP算法工程师、大模型训练&推理加速工程师、MathGPT产品经理、AI后台Golang开发工程师、资深UI设计师（AI方向），以及用户研究。其中，前两个岗位的工作地点不局限于国内，还包括美国旧金山湾区的库比蒂诺（Cupertino），被称为“硅谷的心脏”，苹果公司总部也位于此。

在MathGPT发布同时，好未来也在官网更新了一个具有代表性和挑战性的数学任务评测集，供全球人工智能专家、数学爱好者体验和测评。

据田密透露，随着内测的顺利进行，MathGPT的解题能力将得到持续提升，基于MathGPT的产品级应用也正在加速研发中，将于近期发布。