大模型评测诊断平台

洞察 · 评测 · 精进

auto_graph “1233”评测体系

workspace_premium 我们的优势

fact_check

错题本:已累积百万级大模型错题本(badcase),可精、准、快解决各个业务需求

update

最新:每周更新大模型排行榜

visibility

结果可见:所有大模型评测的方法、题集、过程、得分结果,可见可追溯

public

最全:全球最全大模型评测平台,已囊括200+大模型、300+评测维度

bolt

最方便:无需注册/梯子,国内外各个大模型可一键评测

查看大模型榜单及 badcase 申请私有大模型评测及诊断服务