V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
leoSup
V2EX  ›  Local LLM

离网 Centos 服务器部署 Qwen-2.5-Coder

  •  
  •   leoSup · 17 天前 · 1433 次点击

    请教一下各位大佬,我想在一台隔离外网的服务器上搭建千问代码这个模型,我现在在服务器上安装了 Ollama ,然后去魔塔那边通过 git clone 下载了通义千问 2.5-代码-14B-Instruct-GGUF 模型文件,发现这个模型文件压缩称 tar 后有 150G ,服务器那边大概只有 200G 空间,估计是不能放进去并解压了。

    不知是否有比较小的模型文件资源可以在 win 下载后,上传到服务器中通过 Ollama 启动使用?
    
    我在 win 环境下通过 Ollama 下载的通义千问 2.5-代码-14B 只有 9G 的大小,在魔塔社区下载的确有 150 个 G ,这个是因为 Ollama 那边处理导致的吗?
    
    6 条回复    2024-12-10 14:22:29 +08:00
    MAzrael
        1
    MAzrael  
       17 天前   ❤️ 1
    是不是下载了所有的量化版本?只需要下载你需要的版本就行,如 qwen2.5-coder-14b-instruct-q4_k_m.gguf 就只有 8.99G
    leoSup
        2
    leoSup  
    OP
       17 天前
    @MAzrael #1 感谢,我确实是下载所有的量化版本,最近才开始接触部署 AI 大模型,对这些不太熟悉
    Actrace
        3
    Actrace  
       17 天前   ❤️ 1
    最方便的办法是 Docker ,先在镜像里部署完成,然后打包镜像,拉到 CentOS 里。
    vickhan
        4
    vickhan  
       17 天前
    下载好很多中间文件和 checkpoint 吧?那些直接删除就好了。14B 的模型没那么大
    leoSup
        5
    leoSup  
    OP
       17 天前
    @vickhan #4 应该是 1 楼说的那种情况,直接 git clone 下载了所有量化版本,但只需要按需选择一个就行,不同的版本会有点差异,比如占用内存,生成速度,偏向等等
    dcdlove
        6
    dcdlove  
       17 天前
    Ollama 装载模型,然后 one api 将接口转换成 openapi 的方式,然后就各种自由搭配调用了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2684 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 12:54 · PVG 20:54 · LAX 04:54 · JFK 07:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.