AI 文本/哲学对话能力测评
这不是一份标准化的 benchmark。作为哲学研究者,我经常将自己撰写的材料与各主要模型对话,保持相同的材料和大致相同的提示进行横向对比。 这也许是一个小众的测试场景——我不清楚模型开发者是否有针对性的训练,还是通用性能会自然体现在哲学对话与复杂文本处理之中。据我所知,目前只有 Claude 有专门的哲学家对话。
我相信 AI 的哲学对话能力是其最重要的能力之一。这里的评分来自我的实际对话和判断标准,而非固定题库。 这需要一些特别的技艺:模型开发者也许更擅长工程评估,而我更擅长从用户的角度衡量模型的思维能力。
分数是稀疏的——某个模型在某维度上「待测」,意味着我还没有在足够多的场景里检验它,而不是它表现平庸。我不会为了把图填满而敷衍打分。
Claude
OpenAI
Gemini
Grok
Kimi
GLM
DeepSeek
尽力程度
文献检索
保持一致
记忆能力
边缘细节感知
理解能力
概念涌现
避免谄媚
条长 = 该模型在该维度的均分(0-100 绝对分)。「待测」表示尚未在该维度检验过,并非表现不佳。
总性能排行
综合分 = 已测维度的加权均值(权重归一化)。右侧 x/8 = 已测维度数。权重:理解 25%、尽力 20%、一致 20%、检索 10%、细节 10%、记忆 5%、涌现 5%、避免谄媚 5%。
评测维度
8 个维度(0-100 百分制)
- 尽力程度尽最大努力思考和回答问题。
- 文献检索在对话中主动检索知识库中的文献以验证对话。
- 保持一致在长对话中,始终保持先前的事实、概念、立场。
- 记忆能力良好的记忆整理和读取能力。
- 边缘细节感知捕捉语词或概念的细微差别和边缘情形。
- 理解能力真正理解问题的意图和层次。
- 概念涌现表露或概括出新的表述、概念、分类或观点。
- 避免谄媚避免讨好用户,强行建立合理连接。
近期测试记录
- Opus-4.8-max86.8
- Fable-5-max91.1
- GPT-5.5-plus76.3
- Grok-4.272.2
- Grok-4.360.3
- Kimi-K2.672.9
- DeepSeek-v4-pro69.5
- GLM-5.238.3
- Gemini-3.5-flash25.5
- Gemini-3.1-pro19.0
基于长期使用积累的整体印象,作为基准起点,后续会用具体场景的动态测试逐项覆盖。