学习资料
- 大型语言模型介绍 由 Andrej Karpathy 讲解
- 短期课程 由 DeepLearning.AI 提供
- 我们从一年的 LLM 构建中学到了什么:第一部分 第二部分 第三部分
- 书籍 理解 LangChain4j 由 Antonio Goncalves 编写
本地 LLM
评估
- 你的 AI 产品需要评估
- 创建推动业务成果的 LLM 评判者
- RAG 管道评估实用指南(第 1 部分:检索)
- RAG 管道评估实用指南(第 2 部分:生成)
- 黄金数据集对 LLM 评估有多重要?
- 案例研究:RAG 管道的无参考评估与基于参考的评估比较
- 如何评估复杂的生成式 AI 应用:细粒度方法
- 生成合成数据来测试 LLM 应用
代理
构建有效的代理 由 Anthropic 提供
排行榜
语言模型
- LMSYS 聊天机器人竞技场
- SEAL 排行榜
- 比较模型的质量、速度、价格等
- 幻觉:Vectara, Hallucinations
- 代码生成:BigCode
- 工具/函数:Gorilla, Nexus, Toolbench
- 性能(延迟、吞吐量、内存等)
- 企业场景