大模型评测诊断平台

洞察 · 评测 · 精进

auto_graph “1233”评测体系

1个目标：以评测驱动，识别能力边界，针对性提升大模型能力
2个聚焦：大模型的通用能力、行业应用能力
3数3化：结构化评测基数（点线面体），badcase精数（自动化出题、验证、分析），训练数据集构建（系统化、针对性）

workspace_premium 我们的优势

fact_check

错题本：已累积百万级大模型错题本（badcase），可精、准、快解决各个业务需求

update

最新：每周更新大模型排行榜

visibility

结果可见：所有大模型评测的方法、题集、过程、得分结果，可见可追溯

public

最全：全球最全大模型评测平台，已囊括200+大模型、300+评测维度

bolt

最方便：无需注册/梯子，国内外各个大模型可一键评测

ReLE大模型榜单及 badcase 申请私有大模型评测及诊断服务