V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
V2EX  ›  Local LLM

Llama 3.3 70B

  •  
  •   Livid · 18 天前 · 3233 次点击
    https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

    在 LM Studio 里也可以下载了。
    21 条回复    2024-12-11 14:19:50 +08:00
    TonyG
        1
    TonyG  
       18 天前
    Livid ,好奇你是什么配置跑 70B 的?量化参数是什么?
    vfx666
        2
    vfx666  
       18 天前 via iPhone
    同问
    Livid
        3
    Livid  
    MOD
    OP
       18 天前
    @TonyG
    @vfx666

    2021 年的 M1 Max MBP 64GB 内存。

    LM Studio 会自动检测能跑的版本 Q3_K_L:



    实际跑起来之后大概能有 3.8 t/s:

    Livid
        4
    Livid  
    MOD
    OP
       18 天前
    这里有 128G 的 M4 Max 用户么,谁能试试 Q8_0 在 M4 Max 上能有多少 t/s
    privil
        5
    privil  
       18 天前
    groq 已经提供了 llama-3.3-70b-versatile
    Livid
        6
    Livid  
    MOD
    OP
       18 天前
    yzding
        7
    yzding  
       18 天前 via iPad
    有 m4 macmini 丐版能用的模型吗
    luguhu
        8
    luguhu  
       18 天前   ❤️ 1
    @Livid #4 M3 Max 128G 跑 Q8_0 大概是 3 token/s, M4 应该不会多很多. Mac 跑 70B 还是太勉强了
    Donaldo
        9
    Donaldo  
       18 天前   ❤️ 1
    @yzding #7 7b 的
    vipshf
        10
    vipshf  
       18 天前
    他还是被 9.8 和 9.11 的比较干趴下了,哈哈
    mumbler
        11
    mumbler  
       18 天前
    超过 10B 的模型在个人电脑上没有实用价值,现在的 7B 模型已经超过 gpt3.5 水平了,明年大概率也会出现 gpt4 水平的 7b
    s609926202
        12
    s609926202  
       18 天前
    这些模式下载到本地跑,能不能 “微调”
    xing7673
        13
    xing7673  
       18 天前
    @s609926202 70B 普通家用机器基本不可能微调,7B 都有点难
    wantstark
        14
    wantstark  
       18 天前
    lora 、qlora 大幅度降低了微调需要的资源;
    hertzry
        15
    hertzry  
       17 天前 via iPhone
    上午在 Hugging Face 请求模型使用权限被拒 :(
    cctrv
        16
    cctrv  
       17 天前   ❤️ 1
    https://imgur.com/a/hLHS2Ii

    m2u 128g
    5.72 tok/sec • 22 tokens • 2.37s to first token

    m4x 按道理相似的性能,或者更快一點點。
    APEC
        17
    APEC  
       16 天前
    64G M4 Max 已经在 LM Studio 里跑不动 Q4_K_M 了,后悔没入 128G 的版本,现在真是尴尬啊
    APEC
        18
    APEC  
       16 天前
    话说是否有可能将模型文件分片后,再使用 LM Studio 进行加载,然后成功运行?
    Donaldo
        19
    Donaldo  
       16 天前   ❤️ 1
    @APEC #17 Q4_K_M 才 42G ,没问题的,参考这个文章把分配给 GPU 的内存拉大点。https://www.reddit.com/r/LocalLLaMA/comments/186phti/m1m2m3_increase_vram_allocation_with_sudo_sysctl/
    beginor
        20
    beginor  
       14 天前   ❤️ 2
    M1 Max 64G 用户, 在 `/etc/sysctl.conf` 文件中添加选项 `iogpu.wired_limit_mb=57344` ,这样最多可以分配 56G 内存给显卡用。

    用 llama.cpp 可以运行 `llama-3.3-70b-instruct.q4_k_m.gguf` ,不过要限制一下上下文大小,不然还是内存不够, 生成速度大概是 4 token / second 。

    ```
    main: server is listening on http://127.0.0.1:8080 - starting the main loop
    srv update_slots: all slots are idle
    slot launch_slot_: id 0 | task 0 | processing task
    slot update_slots: id 0 | task 0 | new prompt, n_ctx_slot = 4096, n_keep = 0, n_prompt_tokens = 26
    slot update_slots: id 0 | task 0 | kv cache rm [0, end)
    slot update_slots: id 0 | task 0 | prompt processing progress, n_past = 26, n_tokens = 26, progress = 1.000000
    slot update_slots: id 0 | task 0 | prompt done, n_past = 26, n_tokens = 26
    slot release: id 0 | task 0 | stop processing: n_past = 354, truncated = 0
    slot print_timing: id 0 | task 0 |
    prompt eval time = 2035.41 ms / 26 tokens ( 78.29 ms per token, 12.77 tokens per second)
    eval time = 79112.92 ms / 329 tokens ( 240.46 ms per token, 4.16 tokens per second)
    total time = 81148.33 ms / 355 tokens
    srv update_slots: all slots are idle
    request: POST /v1/chat/completions 127.0.0.1 200
    ```
    beginor
        21
    beginor  
       14 天前
    如果用 LM Studio 运行 mlx 版本的 [Llama-3.3-70B-Instruct-4bit]( https://huggingface.co/mlx-community/Llama-3.3-70B-Instruct-4bit) 可以稍微快一点点,5.x tokens / 秒。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1488 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 61ms · UTC 17:12 · PVG 01:12 · LAX 09:12 · JFK 12:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.