General365是美团LongCat团队联合中科院推出的通用推理评测基准,以K-12常识知识为边界,彻底解耦推理能力与专业知识依赖,真实衡量大模型在真实场景下的逻辑推理水平。基准包含365道原创种子题 + 1095道扩展变体,覆盖八大高难度推理维度,已成为衡量大模型通用推理能力的权威标尺。

1、高多样性全覆盖:
365道人工原创题目,扩展为1095个变体,覆盖复杂约束、分支枚举、时空推理、递归回溯、语义干扰、隐式信息、最优策略、概率不确定性八大推理挑战。
2、推理与知识严格解耦:
背景知识限定在K-12范畴,只测推理、不考记忆,避免靠知识库“作弊”。
3、高精度混合评分:
采用规则+大模型(GPT-4.1)混合评分机制,人工验证准确率达99.6%,结果稳定可信。
4、公正防污染设计:
公开180道种子题(共720题)作为社区测试集,另一半题目保密,有效规避数据污染与刷题过拟合。
5、全栈模型横向评测:
统一标准评测26+主流模型,包括OpenAI、Gemini、Anthropic、DeepSeek、Qwen、GLM、Kimi、LongCat等。
1、更真实:
聚焦日常通用逻辑,告别奥数式竞赛题,暴露模型“高分低能”问题。
2、更高区分度:
SOTA模型(Gemini-3-Pro)仅62.8%准确率,多数模型未达60%及格线,可精准区分模型差距。
3、更高多样性:
语义空间分布均匀,逻辑冗余度远低于BBH/BBEH,无模板化刷题收益。
4、完全开源可复现:
代码、数据集、评测脚本全部开放,社区可快速接入、复现、扩展。
General365权威结果:
1、26款主流大模型实测,最高分仅62.8%(Gemini-3-Pro)。
2、语义干扰、最优策略是当前模型最大瓶颈。
3、推理模型显著优于普通对话模型,差距最高可达30%+。
1、官方主页:https://general365.github.io/
2、GitHub仓库:https://github.com/meituan-longcat/General365
3、HuggingFace库:https://huggingface.co/datasets/meituan-longcat/General365_Public
4、arXiv论文:https://arxiv.org/pdf/2604.11778
1、大模型研发:
定位推理短板,指导模型在复杂约束、语义干扰、最优策略等维度优化。
2、企业选型:
提供客观、可复现的推理能力排名,辅助模型采购与落地。
3、学术研究:
为通用推理领域提供标准评测集,推动LLM从“领域专家”走向“通用智能”。
4、推理效率分析:
评估模型精度与Token消耗关系,衡量推理密度与效率。
标签:

自学ppt模板编程工具办公软件扩展插件在线教育平台音频工具学术论文媒体运营AI提示词PDF分析AI法律服务投诉举报实用工具教育学习