1
eachann 215 天前 via iPhone
请问一下跑这类模型的用途是什么呢?是工作相关吗?还是只是为了折腾呀?
|
2
tanrenye 215 天前
中文模型还是看看国内的吧
|
3
wsbqdyhm OP @eachann 兼职做自媒体的,文字类的用 gpt4o 和 llama3:70b 一起,搭配 GPT-SoVITS 语音出片很好,声音自由度高一点,不会浓浓的 ai 味道,其次需要用到大量照片素材,网络搜寻的大多有版权,用 sd 输出的,版权要求没那么高。希望可以继续优化所用的工具,去掉一些明显 ai 味道、高效以及低成本是方向。 多个纬度相互平衡,没有最好,只有更好。
|
4
uCVqn130hR86WDU8 214 天前
llama3 可以用中文微调过的
|
5
idlerlestat 214 天前
据说 qwen 的中文模型不错
|
6
kenshinhu 214 天前
M2 本地跑 Mistral 还不错,phi 可以做成低推理的。
|
8
beginor 214 天前 via Android
64G 跑 70b 的 llama3 ,应该是 q4_k_m 量化版本的吧,我跑 q5_k_m 版本的会报错的?
|
10
beginor 213 天前
@wsbqdyhm ollama 只提供了 q4_0 版本的 [llama3]( https://ollama.com/library/llama3), 这个和原始模型相比,损失比较多,不推荐。
可以从 huggingface 直接下载 [meta/llama-3]( https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) 的原始模型,自己量化, 也可以下载 [已经转换好的 gguf 文件]( https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF) 一般推荐 q5_k_m 或 q4_k_m 版本的量化模型, 接近原始模型,如果配置够的话, 更建议运行 f16 版本模型 。 依据自己电脑的配置, 建议的优先级是:f32 > f16 > q5_k_m > q4_k_m > others . 另外我不玩 ollama ,ollama 虽然简单, 却隐藏了很多细节。 我玩的是 llama.cpp , 可以体会到更多的技术细节。 模型需要的内存大小大概就是模型文件的大小,量内存大小而行。64G 的 M1 Max 最多能分出 48G 内存来跑模型, 当然其它应用还要占用一些内存, 所以只能勉强运行 q4_k_m 的 70b 模型。 |
11
beginor 213 天前
@wsbqdyhm 不好意思, 我搞错了,ollama 也提供了[各种量化版本的 llama-3 模型]( https://ollama.com/library/llama3/tags),q5_k_m 量化版本是这个 https://ollama.com/library/llama3:70b-instruct-q5_K_M , 你可以拉下来看看还能不能跑起来
|
15
urlpha 212 天前
感觉可以开个 AI 板块了😁
|
16
a66243766 212 天前
先加入收藏可以一起玩,本地的情况下,其实本地跑确实资源不够,但是能感受很多技术细节
|
17
a66243766 210 天前
@beginor 我看过 ollama 的源码了 他里面编译了 llama.cpp ,模拟了在不同设备上的部署
func InitScheduler(ctx context.Context) *Scheduler { sched := &Scheduler{ pendingReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests), finishedReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests), expiredCh: make(chan *runnerRef, envconfig.MaxQueuedRequests), unloadedCh: make(chan interface{}, envconfig.MaxQueuedRequests), loaded: make(map[string]*runnerRef), newServerFn: llm.NewLlamaServer, getGpuFn: gpu.GetGPUInfo, } sched.loadFn = sched.load return sched } 都在 llm 包下 对于熟悉 golang 的这个框架有比较好的参考价值 |