大言语模型：推理才能缺少应战严峻 - 准确率动摇大问题难度影响大_压铸模具

近年来，大言语模型在各使命中的体现引重视，中心问题是其是否具逻辑推理才能。日前，苹果公司的 ImanMirzadeh 及团队提出 GSM-Symbolic 新基准，对多模型评价。成果显现，问题数值或姓名改变时，模型体现动摇明显，难度提高时体现敏捷下降。研讨以为，大言语模型缺少真实逻辑推理才能，简略改变能致准确率下降，如数值调整降 10%，无关子句参加降 65%。OpenAI 发布 GSM8K 数据集，模型准确率提高但推理才能存疑。研讨团队为探究发 GSM-Symbolic，从 5 方面说明大言语模型不具方式推理才能。包含 GSM8K 准确率不可靠，对称号和数字变化灵敏，问题难度增体现剧降，增加无关子句功能大降，扩展规划不能解决根本问题。研讨人员称，大言语模型更像形式匹配器，未来需打破完成逻辑推理以应对实际需求。