笔记

第一节课

理想情况，10s之内，要出现答案，首token

要记的问题
- 什么是langchain
- civitai上面有模型，可以用来训练自己
- autodl租用显卡

第二节课

temperature 是什么
top p是什么
比较常见的model设置：

前期都不是本地部署模型，都是调用API

Python环境:jupyter, Cursorpython工具箱dashscope api key ollama, vlm 部署大模型 https://modelscope.cn/下载大模型https://ollama.com/library 老师，如果让一个模型来分析下租房合同，分析出哪些条款有利于出租公司的，哪些条款有利于房东的，选哪个大模型更专业? gemini（谷歌的大模型） API KEY: dashscope 里面找一些模型，比如 qwen-max,deepseek-v3.1 关于大模型有些困惑，如果是通用大模型，不是通过Api来调取那刚刚说到下载模型是下载模型框架建立垂直模型吗 Q:识别读取分析pdf文件通常用那个模型 =>pdf读取的工具，比如MinerU（上海AI实验室OpenDataLab团队研发的智能数据提取工具）

Q:老师，课程将怎么训练大模型不?

模型微调（用低成本的方式来训练模型）

ds创新点：

deepseek的MLA 相当于图片的压缩版便宜快
MOE 不是原创，法国公司开始的，原理：医院分诊台，多个专家，提高速度，降低训练成本
- ds v3

抖音二创API：pat_2n8tXaYOCt43zYGA2COXIXxBqMkUJEOu2BfEVOz2RToidDbkUOs3ThT3lv2T0qmC

与 vLLM 类似的大模型推理和服务工具不少，以下是一些典型的项目和框架：

Text Generation Inference（TGI）：它是基于 Rust、Python 开发，并采用 gRPC 通信的服务器程序，是 Hugging Face 模型推理 API 的核心组件。它内置对 Flash Attention 和 Paged Attention 的优化，支持张量并行、INT4/FP8 量化、Token 流式输出等功能，能高效部署 Llama、Falcon 等主流开源 LLM ，服务稳定且文档丰富。
CTranslate2 ：这是用 C++ 和 Python 编写的库，可借助层融合、填充去除、缓存机制等优化技术，在 CPU 以及 GPU 上快速执行 Transformer 类模型推理。它内存管理灵活，支持 x86、ARM 等多种 CPU 架构，还可并行异步处理多个任务批次，不过它没有现成的 REST 服务组件。
OpenLLM：这是用于 LLM 生产化运作的开放平台，能让模型连接多个适配器，从而实现多任务处理。它兼容 PyTorch、TensorFlow 等多种后端框架，支持 GPTQ 等量化手段，还能和 LangChain 工具集对接，方便开发者构建复杂 AI 应用，但它原生缺少对分布式推理与自动批处理的内置支持。
Ollama：它是主打易用性的开源本地推理平台，兼容 Windows、macOS、Linux 等常见系统，带有直观图形界面。Ollama 内置超 1700 个预训练模型资源，默认使用 INT4 量化，能在普通家用电脑上轻松运行模型，非常适合个人开发者做本地原型开发。
SGLang：它是支持大语言模型与视觉语言模型的服务框架，借助 RadixAttention 优化实现前缀缓存，理论吞吐能达十万 token 每秒，内置 JSON 解析模块，输出结构化数据能力强，在金融、医疗等结构化查询场景表现优异。
LMDeploy：这是面向国产硬件的推理优化方案，对华为昇腾系列 GPU 有深度适配，能有效提升国产算力平台上的推理效率和显存利用率，同时在视觉 - 语言混合模型处理上具备明显优势，适合国内政府、企业在国产芯片环境下进行大模型落地部署。

笔记

第一节课

要记的问题

第二节课

CATALOG

FEATURED TAGS