AI 文本/哲学对话能力测评

这不是一份标准化的 benchmark。作为哲学研究者,我经常将自己撰写的材料与各主要模型对话,保持相同的材料和大致相同的提示进行横向对比。 这也许是一个小众的测试场景——我不清楚模型开发者是否有针对性的训练,还是通用性能会自然体现在哲学对话与复杂文本处理之中。据我所知,目前只有 Claude 有专门的哲学家对话。

我相信 AI 的哲学对话能力是其最重要的能力之一。这里的评分来自我的实际对话和判断标准,而非固定题库。 这需要一些特别的技艺:模型开发者也许更擅长工程评估,而我更擅长从用户的角度衡量模型的思维能力。

分数是稀疏的——某个模型在某维度上「待测」,意味着我还没有在足够多的场景里检验它,而不是它表现平庸。我不会为了把图填满而敷衍打分。

  • Claude
  • OpenAI
  • Gemini
  • Grok
  • Kimi
  • GLM
  • DeepSeek

尽力程度

Opus-4.8-max85Fable-5-max90GPT-5.5-plus65Gemini-3.5-flash10Gemini-3.1-pro5Grok-4.260Grok-4.330Kimi-K2.650GLM-5.235DeepSeek-v4-pro69

文献检索

Opus-4.8-max75Fable-5-max待测GPT-5.5-plus65Gemini-3.5-flash0Gemini-3.1-pro10Grok-4.280Grok-4.375Kimi-K2.675GLM-5.250DeepSeek-v4-pro60

保持一致

Opus-4.8-max90Fable-5-max90GPT-5.5-plus82Gemini-3.5-flash50Gemini-3.1-pro20Grok-4.278Grok-4.370Kimi-K2.680GLM-5.250DeepSeek-v4-pro80

记忆能力

Opus-4.8-max90Fable-5-max90GPT-5.5-plus75Gemini-3.5-flash0Gemini-3.1-pro0Grok-4.260Grok-4.375Kimi-K2.670GLM-5.20DeepSeek-v4-pro0

边缘细节感知

Opus-4.8-max90Fable-5-max90GPT-5.5-plus80Gemini-3.5-flash30Gemini-3.1-pro30Grok-4.275Grok-4.360Kimi-K2.675GLM-5.20DeepSeek-v4-pro70

理解能力

Opus-4.8-max90Fable-5-max95GPT-5.5-plus85Gemini-3.5-flash30Gemini-3.1-pro30Grok-4.278Grok-4.368Kimi-K2.685GLM-5.250DeepSeek-v4-pro80

概念涌现

Opus-4.8-max80Fable-5-max85GPT-5.5-plus83Gemini-3.5-flash0Gemini-3.1-pro0Grok-4.2待测Grok-4.3待测Kimi-K2.6待测GLM-5.2待测DeepSeek-v4-pro待测

避免谄媚

Opus-4.8-max85Fable-5-max90GPT-5.5-plus65Gemini-3.5-flash60Gemini-3.1-pro50Grok-4.260Grok-4.360Kimi-K2.670GLM-5.2待测DeepSeek-v4-pro65

条长 = 该模型在该维度的均分(0-100 绝对分)。「待测」表示尚未在该维度检验过,并非表现不佳。

总性能排行

Fable-5-max91.17/8Opus-4.8-max86.88/8GPT-5.5-plus76.38/8Kimi-K2.672.97/8Grok-4.272.27/8DeepSeek-v4-pro69.57/8Grok-4.360.37/8GLM-5.238.36/8Gemini-3.5-flash25.58/8Gemini-3.1-pro19.08/8

综合分 = 已测维度的加权均值(权重归一化)。右侧 x/8 = 已测维度数。权重:理解 25%、尽力 20%、一致 20%、检索 10%、细节 10%、记忆 5%、涌现 5%、避免谄媚 5%。

评测维度

8 个维度(0-100 百分制)

  • 尽力程度尽最大努力思考和回答问题。
  • 文献检索在对话中主动检索知识库中的文献以验证对话。
  • 保持一致在长对话中,始终保持先前的事实、概念、立场。
  • 记忆能力良好的记忆整理和读取能力。
  • 边缘细节感知捕捉语词或概念的细微差别和边缘情形。
  • 理解能力真正理解问题的意图和层次。
  • 概念涌现表露或概括出新的表述、概念、分类或观点。
  • 避免谄媚避免讨好用户,强行建立合理连接。

近期测试记录

  1. 初始结果(根据以往使用经验)

    • Opus-4.8-max86.8
    • Fable-5-max91.1
    • GPT-5.5-plus76.3
    • Grok-4.272.2
    • Grok-4.360.3
    • Kimi-K2.672.9
    • DeepSeek-v4-pro69.5
    • GLM-5.238.3
    • Gemini-3.5-flash25.5
    • Gemini-3.1-pro19.0

    基于长期使用积累的整体印象,作为基准起点,后续会用具体场景的动态测试逐项覆盖。