AI 文本／哲学对话能力测评

这不是一份标准化的 benchmark。作为哲学研究者，我经常将自己撰写的材料与各主要模型对话，保持相同的材料和大致相同的提示进行横向对比。这也许是一个小众的测试场景——我不清楚模型开发者是否有针对性的训练，还是通用性能会自然体现在哲学对话与复杂文本处理之中。据我所知，目前只有 Claude 有专门的哲学家对话。

我相信 AI 的哲学对话能力是其最重要的能力之一。这里的评分来自我的实际对话和判断标准，而非固定题库。这需要一些特别的技艺：模型开发者也许更擅长工程评估，而我更擅长从用户的角度衡量模型的思维能力。

分数是稀疏的——某个模型在某维度上「待测」，意味着我还没有在足够多的场景里检验它，而不是它表现平庸。我不会为了把图填满而敷衍打分。

Claude
OpenAI
Gemini
Grok
Kimi
GLM
DeepSeek

尽力程度

文献检索

保持一致

记忆能力

边缘细节感知

理解能力

概念涌现

避免谄媚

条长 = 该模型在该维度的均分（0-100 绝对分）。「待测」表示尚未在该维度检验过，并非表现不佳。

总性能排行

综合分 = 已测维度的加权均值（权重归一化）。右侧 x/8 = 已测维度数。权重：理解 25%、尽力 20%、一致 20%、检索 10%、细节 10%、记忆 5%、涌现 5%、避免谄媚 5%。

评测维度

8 个维度（0-100 百分制）

尽力程度尽最大努力思考和回答问题。
文献检索在对话中主动检索知识库中的文献以验证对话。
保持一致在长对话中，始终保持先前的事实、概念、立场。
记忆能力良好的记忆整理和读取能力。
边缘细节感知捕捉语词或概念的细微差别和边缘情形。
理解能力真正理解问题的意图和层次。
概念涌现表露或概括出新的表述、概念、分类或观点。
避免谄媚避免讨好用户，强行建立合理连接。

近期测试记录

2026-06-26
初始结果（根据以往使用经验）
- Opus-4.8-max86.8
- Fable-5-max91.1
- GPT-5.5-plus76.3
- Grok-4.272.2
- Grok-4.360.3
- Kimi-K2.672.9
- DeepSeek-v4-pro69.5
- GLM-5.238.3
- Gemini-3.5-flash25.5
- Gemini-3.1-pro19.0
基于长期使用积累的整体印象，作为基准起点，后续会用具体场景的动态测试逐项覆盖。