一个轻量级的 LLM 评测工具,支持批量测试用例,记录响应时间、token 用量和输出质量。

前往工具 →