大语言模型(LLMs)在高等数学领域的表现备受关注。一项新研究通过32道测试题,对7款AI模型进行高等数学能力评估,涵盖向量计算、几何分析、积分计算、优化问题等主题。
研究中,chatgpt 4o和Mistral AI表现出色,在不同类型数学问题上准确率较高,展现强大数学推理能力。而Gemini Advanced(1.5Pro)和Meta AI在某些积分和优化问题上存在不足。
此次评估引入重新提示(Re-Prompting)机制,发现其对提升模型准确率至关重要。部分模型首次回答错误,但重新提示后可修正答案。
在研究方法上,测试题总分320分,依据准确性和解题过程两个标准评估。测试题包含多个微积分主题,全面考查模型能力。
测试结果显示,所有LLM平均得分90.4(百分制)。ChatGPT 4o和Mistral AI得分310并列第一,不同模型在具体问题解答能力上存在明显差异。
结果分析表明,LLM有优势也有劣势。优势在于简单问题稳定性、重新提示有效性等;劣势体现在复杂积分计算、优化问题处理等方面。
该研究为LLM技术优化提供方向,对教育工作者、研究人员和开发者在数学教育与实践应用中选择LLM有重要参考价值。
© 版权声明
文章版权归作者所有,未经允许请勿转载。