笔记
第一节课
-
理想情况,10s之内,要出现答案,首token
要记的问题
- 什么是langchain
- civitai上面有模型,可以用来训练自己
- autodl租用显卡
第二节课
- temperature 是什么
- top p是什么
- 比较常见的model设置:
前期都不是本地部署模型,都是调用API
Python环境:jupyter, Cursorpython工具箱dashscope api key ollama, vlm 部署大模型 https://modelscope.cn/下载大模型https://ollama.com/library 老师,如果让一个模型来分析下租房合同,分析出哪些条款有利于出租公司的,哪些条款有利于房东的,选哪个大模型更专业? gemini(谷歌的大模型) API KEY: dashscope 里面找一些模型,比如 qwen-max,deepseek-v3.1 关于大模型有些困惑,如果是通用大模型,不是通过Api来调取 那刚刚说到下载模型是下载模型框架建立垂直模型吗 Q:识别读取分析pdf文件通常用那个模型 =>pdf读取的工具,比如MinerU(上海AI实验室OpenDataLab团队研发的智能数据提取工具)
Q:老师,课程将怎么训练大模型不?
模型微调(用低成本的方式来训练模型)
ds创新点:
- deepseek的MLA 相当于图片的压缩版 便宜 快
- MOE 不是原创,法国公司开始的,原理:医院分诊台,多个专家,提高速度,降低训练成本
- ds v3
抖音二创API:pat_2n8tXaYOCt43zYGA2COXIXxBqMkUJEOu2BfEVOz2RToidDbkUOs3ThT3lv2T0qmC
与 vLLM 类似的大模型推理和服务工具不少 ,以下是一些典型的项目和框架:
-
Text Generation Inference(TGI):它是基于 Rust、Python 开发,并采用 gRPC 通信的服务器程序,是 Hugging Face 模型推理 API 的核心组件。它内置对 Flash Attention 和 Paged Attention 的优化,支持张量并行、INT4/FP8 量化、Token 流式输出等功能,能高效部署 Llama、Falcon 等主流开源 LLM ,服务稳定且文档丰富 。
-
CTranslate2 :这是用 C++ 和 Python 编写的库,可借助层融合、填充去除、缓存机制等优化技术,在 CPU 以及 GPU 上快速执行 Transformer 类模型推理 。它内存管理灵活,支持 x86、ARM 等多种 CPU 架构,还可并行异步处理多个任务批次,不过它没有现成的 REST 服务组件 。
-
OpenLLM:这是用于 LLM 生产化运作的开放平台,能让模型连接多个适配器,从而实现多任务处理 。它兼容 PyTorch、TensorFlow 等多种后端框架,支持 GPTQ 等量化手段,还能和 LangChain 工具集对接,方便开发者构建复杂 AI 应用 ,但它原生缺少对分布式推理与自动批处理的内置支持 。
-
Ollama:它是主打易用性的开源本地推理平台,兼容 Windows、macOS、Linux 等常见系统,带有直观图形界面 。Ollama 内置超 1700 个预训练模型资源,默认使用 INT4 量化,能在普通家用电脑上轻松运行模型,非常适合个人开发者做本地原型开发 。
-
SGLang:它是支持大语言模型与视觉语言模型的服务框架 ,借助 RadixAttention 优化实现前缀缓存,理论吞吐能达十万 token 每秒,内置 JSON 解析模块,输出结构化数据能力强,在金融、医疗等结构化查询场景表现优异。
-
LMDeploy:这是面向国产硬件的推理优化方案,对华为昇腾系列 GPU 有深度适配,能有效提升国产算力平台上的推理效率和显存利用率 ,同时在视觉 - 语言混合模型处理上具备明显优势,适合国内政府、企业在国产芯片环境下进行大模型落地部署 。