打算配一台主机用于跑大模型玩，大佬们有推荐的配置吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 290 天前的主题，其中的信息可能已经有所发展或是发生改变。

虽然是搞互联网的，但是对硬件这块确实没啥研究，所以想请大佬们帮忙推荐下配置，目前在京东上看了朴赛装的机器，券后 27849 ，不知道是否有坑，求指教

第 1 条附言 · 290 天前

主要是本地推理，最大跑13B模型，目前考虑的cpu 14900kf、内存128g、显卡4090

30 条回复 • 2024-03-17 14:03:30 +08:00

52boobs

290 天前 via Android

如果你不太确定想怎么玩大模型，其实可以花点小钱租台顶配机器跑跑感觉有点意思的项目，玩一段时间后你自然就知道怎么选择了。

mythabc

290 天前

本地只能跑跑推理和 7B lora 训练。更大规模的训练可以选择租 A100
我的配置是：
GPU：4090D 虽然是 dog 版，但是目前 4090D 的性价比是比 4090 高的。
板 U 内存：B550I + 5800X + 2 *32G 以前攒的，跑大模型对 CPU 要求不高，内存要注意有一些步骤，比如 lora 合并、量化会使用内存，如果内存太小可能就跑不起来，64G 是需要的。

电源散热机箱：根据自己需求配把。

主要成本还是显卡。

forgetlight

290 天前

主要是在于你想要怎么大模型，我预估是做 inference ，不太可能 fine-tuning 。这样的话主要是根据你需要跑的模型大小是否能放进显存。最好是提前调研下需要在什么精度下跑什么模型。

mythabc

290 天前

顺带一提：我比较极限，把以上配置塞进了 SSUPD 里，一个 15L 体积的机箱。

v2bili

290 天前

@mythabc 你这个配置可以 AI 出图吗，2K 的图一个小时出 30 张行嘛？

rus4db

290 天前

超微 7048GR + 4×2080ti(22GB) FYI

dianso

290 天前

没必要自己买。

vultr 租一个就行。

按需使用，小时付费。

joshuasui

290 天前

我去年部署的 13900KF + 128G + 4090 ，大概一共两万内搞定全白配色
之前试过租云服务器，最大的硬伤就是每次开机用起来太麻烦了，可能是因为用的小平台，大平台如 aliyun 之类的又太贵。

shoumu

290 天前 via iPhone

@joshuasui 想法类似

HojiOShi

290 天前

@joshuasui 啥时间买的，啥配置。我差不多的配置花了三万。

ZXiangQAQ

290 天前

4090 显存不够吧，13B 的大模型如果 INT4 还好，如果 INT8 基本就需要 13-16G 显存了，fp 精度直接 30G+了扛不住

Ackvincent

290 天前

塔式 T640 加 GPU 显卡套件, 价格便宜量又足.

mushuanl

290 天前

大模型主要瓶颈在内存访问速度，直接上 mac 然后 llama.cpp, 大于 13B 的也能玩
因为 13B 简单玩几次就腻烦了，参数越高性能越好

HojiOShi

290 天前

@ZXiangQAQ 现在最新驱动有 fallback 回共享显存的选项，跑应该是能跑吧，只不过速度会减慢不少。

leo6668

290 天前

@joshuasui 老哥跑的啥模型，多大参数

churchill

290 天前

如果是玩，mac 更经济一些

mixtral 8x7b 也能跑

HojiOShi

290 天前

@churchill 你不是在开玩笑，这配置说经济是吧。

yplam

290 天前 via Android

@churchill 有没有实际跑过？我之前测过 m1 上跑那速度实在无法忍，还只是 6b 的模型

gam2046

290 天前

借楼问问，现在有没有什么大模型，可以用于看外语片的时候，能够根据音频出中文字幕的。

dayeye2006199

290 天前

你这价钱可以 colab pro 32 年的服务

churchill

290 天前

@yplam 自己玩的话没啥问题，速度还行

47b 的规模

youmilk

290 天前

@gam2046 windows 自带实时字母，勉强能用

youmilk

290 天前

@youmilk 字母->字幕

shoumu

290 天前 via iPhone

@dayeye2006199 pro 是 100 个计算单元，用不了多久吧

shoumu

290 天前 via iPhone

@churchill 之前在 m1 pro 上跑过 7b 的模型，感觉速度一般

yplam

289 天前 via Android

@churchill 47b 8bit ？感觉挺好

suuuch

289 天前

colab pro 可以先充值一个月试试看，只做推理的话，还是够用的，还可以免得冲动消费。。

shuimugan

289 天前

拿 2080ti 22g 跑 13B 8bit 量化，都能跑 30token/s 甚至更快。
准备好钱买第二块显卡或者换 2 张 7900XTX 跑 34B 的吧。
很明确告诉你 13B 级别，如果不是特别训练单一领域的，那么就是一个弱智。
比如最近最近新出的 StarCoder2 ，号称涵盖 619 种编程语言，我下载下来问几个语言、常用编程库、数据库之类的版本信息，15B 的训练数据落后 6 年，7B 的落后 9 年。

显卡显存不够内存来凑的内存回退机制不用看了，屎中屎，无论是玩画图还是玩 LLM 推理都是教你关掉的。

引用别人的回复
“生成式大语言模型的推理过程就是先把模型本身加载到运存，然后每生成一个字都需要把整个模型遍历访问一遍，所以决定速度的就是运存带宽（预训练或者微调时需要计算能力，但推理时几乎不需要，就是沿着预训练好的权重选择下一步路径，所以哪怕 1060 配上 48G 显存也是推理神器）。比如 7B 模型的 8 位量化版本，每个权重占一个字节所以就是 7G 大小（ 7B 参数是指有 70 亿个权重，8 位量化是指每个权重用 2 的 8 次方表示就是有 256 种下一步的可能，也就是占用 1 比特的空间，同理目前性价比最高的 Q4 量化就是 3.5G ），如果是加载到 4090 的显存，因为它的 GDDR 显存带宽是 1000GB/s ，那么生成速度就是 1000 除以 7 大概每秒 140 个字（词元）；如果是纯 CPU 推理，加载到 DDR4 的内存，带宽大概 30GB/s ，那么推理速度就是 30/7 大概 4 个字每秒”

内存堆高优势不大，ddr5 双通道带宽也就 70 ～ 100GB/s ，是 4090 的 1/10 。所以在 reddit 上可以看到 96 核跑 13B 的推理速度几 token/s 的景象。
现在优化手段就是把模型合理拆分，不活跃的丢 CPU ，活跃的丢 GPU ，既要避免 cpu 在围观 gpu 干活，又要避免 cpu 因为内存瓶颈干活慢，比如 https://github.com/SJTU-IPADS/PowerInfer

我每个月下载几百 G 的模型来测，用 M2 Ultra 192GB 玩了 3 个月了，最近就是因为它跑大模型的时候 cpu 不干活，我看不下去它在摸鱼，本来丢货架上不接显示器的，现在都接上显示器拿来写代码了。

附：本地模型写代码能力排名 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard 。

gam2046

288 天前

@youmilk #22 Windows 实时字幕是不带有翻译的，比如英语音频则显示英语字幕，而我希望不管音频语言是什么能帮我翻译到特定语言的字幕，比如中文。

joshuasui

286 天前

@HojiOShi 23 年 4 月吧，看了下现在自己配好亏啊，显卡、内存、存储全面涨价