Posted by zengchengjie on Monday, January 1, 0001

笔记

第一节课

  • 理想情况,10s之内,要出现答案,首token

    要记的问题

    • 什么是langchain
    • civitai上面有模型,可以用来训练自己
    • autodl租用显卡

第二节课

  • temperature 是什么
  • top p是什么
  • 比较常见的model设置:

​ 前期都不是本地部署模型,都是调用API

Python环境:jupyter, Cursorpython工具箱dashscope api key ollama, vlm 部署大模型 https://modelscope.cn/下载大模型https://ollama.com/library 老师,如果让一个模型来分析下租房合同,分析出哪些条款有利于出租公司的,哪些条款有利于房东的,选哪个大模型更专业? gemini(谷歌的大模型) API KEY: dashscope 里面找一些模型,比如 qwen-max,deepseek-v3.1 关于大模型有些困惑,如果是通用大模型,不是通过Api来调取 那刚刚说到下载模型是下载模型框架建立垂直模型吗 Q:识别读取分析pdf文件通常用那个模型 =>pdf读取的工具,比如MinerU(上海AI实验室OpenDataLab团队研发的智能数据提取工具)

Q:老师,课程将怎么训练大模型不?

模型微调(用低成本的方式来训练模型)

ds创新点:

  • deepseek的MLA 相当于图片的压缩版 便宜 快
  • MOE 不是原创,法国公司开始的,原理:医院分诊台,多个专家,提高速度,降低训练成本
    • ds v3

抖音二创API:pat_2n8tXaYOCt43zYGA2COXIXxBqMkUJEOu2BfEVOz2RToidDbkUOs3ThT3lv2T0qmC

与 vLLM 类似的大模型推理和服务工具不少 ,以下是一些典型的项目和框架:

  1. Text Generation Inference(TGI):它是基于 Rust、Python 开发,并采用 gRPC 通信的服务器程序,是 Hugging Face 模型推理 API 的核心组件。它内置对 Flash Attention 和 Paged Attention 的优化,支持张量并行、INT4/FP8 量化、Token 流式输出等功能,能高效部署 Llama、Falcon 等主流开源 LLM ,服务稳定且文档丰富 。

  2. CTranslate2 :这是用 C++ 和 Python 编写的库,可借助层融合、填充去除、缓存机制等优化技术,在 CPU 以及 GPU 上快速执行 Transformer 类模型推理 。它内存管理灵活,支持 x86、ARM 等多种 CPU 架构,还可并行异步处理多个任务批次,不过它没有现成的 REST 服务组件 。

  3. OpenLLM:这是用于 LLM 生产化运作的开放平台,能让模型连接多个适配器,从而实现多任务处理 。它兼容 PyTorch、TensorFlow 等多种后端框架,支持 GPTQ 等量化手段,还能和 LangChain 工具集对接,方便开发者构建复杂 AI 应用 ,但它原生缺少对分布式推理与自动批处理的内置支持 。

  4. Ollama:它是主打易用性的开源本地推理平台,兼容 Windows、macOS、Linux 等常见系统,带有直观图形界面 。Ollama 内置超 1700 个预训练模型资源,默认使用 INT4 量化,能在普通家用电脑上轻松运行模型,非常适合个人开发者做本地原型开发 。

  5. SGLang:它是支持大语言模型与视觉语言模型的服务框架 ,借助 RadixAttention 优化实现前缀缓存,理论吞吐能达十万 token 每秒,内置 JSON 解析模块,输出结构化数据能力强,在金融、医疗等结构化查询场景表现优异。

  6. LMDeploy:这是面向国产硬件的推理优化方案,对华为昇腾系列 GPU 有深度适配,能有效提升国产算力平台上的推理效率和显存利用率 ,同时在视觉 - 语言混合模型处理上具备明显优势,适合国内政府、企业在国产芯片环境下进行大模型落地部署 。