AI工作站

General365 – 美团LongCat团队开源大模型通用推理权威评测基准

AI工具 2026-05-16 08:17:00 

General365是美团LongCat团队联合中科院推出的通用推理评测基准,以K-12常识知识为边界,彻底解耦推理能力与专业知识依赖,真实衡量大模型在真实场景下的逻辑推理水平。基准包含365道原创种子题 + 1095道扩展变体,覆盖八大高难度推理维度,已成为衡量大模型通用推理能力的权威标尺。

General365 – 美团LongCat团队开源大模型通用推理权威评测基准

General365核心功能:

1、高多样性全覆盖

365道人工原创题目,扩展为1095个变体,覆盖复杂约束、分支枚举、时空推理、递归回溯、语义干扰、隐式信息、最优策略、概率不确定性八大推理挑战。

2、推理与知识严格解耦

背景知识限定在K-12范畴,只测推理、不考记忆,避免靠知识库“作弊”。

3、高精度混合评分

采用规则+大模型(GPT-4.1)混合评分机制,人工验证准确率达99.6%,结果稳定可信。

4、公正防污染设计

公开180道种子题(共720题)作为社区测试集,另一半题目保密,有效规避数据污染与刷题过拟合。

5、全栈模型横向评测

统一标准评测26+主流模型,包括OpenAIGeminiAnthropicDeepSeek、Qwen、GLM、Kimi、LongCat等。

General365核心优势:

1、更真实

聚焦日常通用逻辑,告别奥数式竞赛题,暴露模型“高分低能”问题。

2、更高区分度

SOTA模型(Gemini-3-Pro)仅62.8%准确率,多数模型未达60%及格线,可精准区分模型差距。

3、更高多样性

语义空间分布均匀,逻辑冗余度远低于BBH/BBEH,无模板化刷题收益。

4、完全开源可复现

代码、数据集、评测脚本全部开放,社区可快速接入、复现、扩展。

General365权威结果:

1、26款主流大模型实测,最高分仅62.8%(Gemini-3-Pro)。

2、语义干扰、最优策略是当前模型最大瓶颈。

3、推理模型显著优于普通对话模型,差距最高可达30%+。

General365项目资源:

1、官方主页:https://general365.github.io/

2、GitHub仓库:https://github.com/meituan-longcat/General365

3、HuggingFace:https://huggingface.co/datasets/meituan-longcat/General365_Public

4、arXiv论文:https://arxiv.org/pdf/2604.11778

General365应用场景:

1、大模型研发

定位推理短板,指导模型在复杂约束、语义干扰、最优策略等维度优化。

2、企业选型

提供客观、可复现的推理能力排名,辅助模型采购与落地。

3、学术研究

为通用推理领域提供标准评测集,推动LLM从“领域专家”走向“通用智能”。

4、推理效率分析

评估模型精度与Token消耗关系,衡量推理密度与效率。

标签: