V2EX › robbaa 的所有回复 › 第 1 页 / 共 2 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2

❮

❯

80 天前

回复了 kingmo888 创建的主题 › 软件 › 有没有好的计划管理工具（web/PC），帮忙推荐下，谢谢。

关键是习惯，养成习惯 vscode 都行

88 天前

回复了 jedeft 创建的主题 › 程序员 › 搞一台 4090 服务器放客厅怎么样？

@jedeft 考虑下室外，开空调都是烤火

226 天前

回复了 kitazawa 创建的主题 › 程序员 › 大学本科，课程期末设计，选什么项目比较好啊。。。。

@kitazawa 学校作业，有时间点，有实现功能就好了。

jsp 写个信息管理系统，安卓套一下 h5 搞定，几个页面：注册、登录、退出、列表、发布、更新

231 天前

回复了 techdai 创建的主题 › 生活 › 大家有什么泡水喝不腻的❓

吨吨杯+酸梅汤

240 天前

回复了 leeum 创建的主题 › Local LLM › 使用 llama3:70b 本地化部署， 100 人左右的并发，大概需要多少块 4090 才能满足？

@leeum 测试版还是有问题，结果不理想。

70b
单次请求：17~20s
并行 4 ，4 个请求，4 个成功，平均 30s
并行 6 ，6 个请求，6 个成功，平均 33s
并行 8 ，8 个请求，8 个成功，平均 41s
并行 9 ，9 个请求，9 个成功，平均 130s （确实如此）
并行 10 ，10 个请求，10 个成功，平均 142s
并行 11 ，11 个请求，11 个成功，平均 150s

8b
并行 8 ，8 个请求，8 个成功，平均 14s
并行 9 ，9 个请求，6 个成功，平均 25s
并行 10 ，10 个请求，10 个成功，平均 32s
并行 11 ，11 个请求，11 个成功，平均 34s
并行 12 ，返回异常

测试多了，还会出现“话痨”现象。正常回复在 40k 左右，“话痨”状态在 380k 以上

======

@imFu 我初学状态

241 天前

回复了 leeum 创建的主题 › Local LLM › 使用 llama3:70b 本地化部署， 100 人左右的并发，大概需要多少块 4090 才能满足？

ab -c 10 -n 10 -p ./testchat.json -T "application/json" -H 'Content-Type: application/json' http://localhost:11434/api/chat

testchat.json 中内容
```
{
"model": "llama3:70b",
"stream": true,
"frequency_penalty": 0,
"presence_penalty": 0,
"temperature": 0.6,
"top_p": 1,
"messages": [
{
"content": "安排一个南京的 2 天的旅游攻略，用中文回答",
"role": "user"
}
]
}
```

241 天前

回复了 leeum 创建的主题 › Local LLM › 使用 llama3:70b 本地化部署， 100 人左右的并发，大概需要多少块 4090 才能满足？

@ispinfx ollama 目前是单线程模型。
ab 工具测试 10 并发 10 请求，耗时 312 秒，没有并发可言

242 天前

回复了 leeum 创建的主题 › Local LLM › 使用 llama3:70b 本地化部署， 100 人左右的并发，大概需要多少块 4090 才能满足？

给你个参考：
环境：双 3090 + nvlink + docker
命令：ollama run llama3:70b --verbose
刚刚好可以塞下。

ollama-1 | ggml_cuda_init: found 2 CUDA devices:
ollama-1 | Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
ollama-1 | Device 1: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
ollama-1 | llm_load_tensors: ggml ctx size = 0.83 MiB
ollama-1 | llm_load_tensors: offloading 80 repeating layers to GPU
ollama-1 | llm_load_tensors: offloading non-repeating layers to GPU
ollama-1 | llm_load_tensors: offloaded 81/81 layers to GPU
ollama-1 | llm_load_tensors: CPU buffer size = 563.62 MiB
ollama-1 | llm_load_tensors: CUDA0 buffer size = 18821.56 MiB
ollama-1 | llm_load_tensors: CUDA1 buffer size = 18725.42 MiB

测试三次结果：

total duration: 25.820168178s
load duration: 1.436783ms
prompt eval count: 14 token(s)
prompt eval duration: 483.796ms
prompt eval rate: 28.94 tokens/s
eval count: 448 token(s)
eval duration: 25.203697s
eval rate: 17.78 tokens/s

total duration: 30.486672187s
load duration: 1.454596ms
prompt eval count: 479 token(s)
prompt eval duration: 2.025687s
prompt eval rate: 236.46 tokens/s
eval count: 496 token(s)
eval duration: 28.322837s
eval rate: 17.51 tokens/s

total duration: 21.176605423s
load duration: 2.629646ms
prompt eval count: 529 token(s)
prompt eval duration: 2.325535s
prompt eval rate: 227.47 tokens/s
eval count: 324 token(s)
eval duration: 18.622355s
eval rate: 17.40 tokens/s

262 天前

回复了 heng0226 创建的主题 › 南京 › 五一去南京旅游需要注意什么

别来，本地人都挤的没地方去了 T_T

313 天前

回复了 zooo 创建的主题 › 生活 › 话说正月里能不能理发？

建议别剪，人言可畏

335 天前

回复了 XvKai 创建的主题 › 南京 › 网友们好啊！谁能推荐下南京景点吗？

请参照高德地图角落点亮，把剩余的 81.1%点亮~

---
同南京人，我大榴莲都没去过 T_T

2023-12-20 13:22:52 +08:00

回复了 cyberocx 创建的主题 › 音乐 › 2023 网易云村年度听歌报告又出来了，来聊聊看你的年度最佳歌曲吧！

Toca Toca