AI工作站

General365 – 美团LongCat团队开源大模型通用推理权威评测基准

General365是美团LongCat团队联合中科院推出的通用推理评测基准，以K-12常识知识为边界，彻底解耦推理能力与专业知识依赖，真实衡量大模型在真实场景下的逻辑推理水平。基准包含365道原创种子题 + 1095道扩展变体，覆盖八大高难度推理维度，已成为衡量大模型通用推理能力的权威标尺。

General365 – 美团LongCat团队开源大模型通用推理权威评测基准

General365核心功能：

1、高多样性全覆盖：

365道人工原创题目，扩展为1095个变体，覆盖复杂约束、分支枚举、时空推理、递归回溯、语义干扰、隐式信息、最优策略、概率不确定性八大推理挑战。

2、推理与知识严格解耦：

背景知识限定在K-12范畴，只测推理、不考记忆，避免靠知识库“作弊”。

3、高精度混合评分：

采用规则+大模型（GPT-4.1）混合评分机制，人工验证准确率达99.6%，结果稳定可信。

4、公正防污染设计：

公开180道种子题（共720题）作为社区测试集，另一半题目保密，有效规避数据污染与刷题过拟合。

5、全栈模型横向评测：

统一标准评测26+主流模型，包括OpenAI、Gemini、Anthropic、DeepSeek、Qwen、GLM、Kimi、LongCat等。

General365核心优势：

1、更真实：

聚焦日常通用逻辑，告别奥数式竞赛题，暴露模型“高分低能”问题。

2、更高区分度：

SOTA模型（Gemini-3-Pro）仅62.8%准确率，多数模型未达60%及格线，可精准区分模型差距。

3、更高多样性：

语义空间分布均匀，逻辑冗余度远低于BBH/BBEH，无模板化刷题收益。

4、完全开源可复现：

代码、数据集、评测脚本全部开放，社区可快速接入、复现、扩展。

General365权威结果：

1、26款主流大模型实测，最高分仅62.8%（Gemini-3-Pro）。

2、语义干扰、最优策略是当前模型最大瓶颈。

3、推理模型显著优于普通对话模型，差距最高可达30%+。

General365项目资源：

1、官方主页：https://general365.github.io/

2、GitHub 仓库：https://github.com/meituan-longcat/General365

3、HuggingFace库：https://huggingface.co/datasets/meituan-longcat/General365_Public

4、arXiv论文：https://arxiv.org/pdf/2604.11778

General365应用场景：

1、大模型研发：

定位推理短板，指导模型在复杂约束、语义干扰、最优策略等维度优化。

2、企业选型：

提供客观、可复现的推理能力排名，辅助模型采购与落地。

3、学术研究：

为通用推理领域提供标准评测集，推动LLM从“领域专家”走向“通用智能”。

4、推理效率分析：

评估模型精度与Token消耗关系，衡量推理密度与效率。

标签：