04-05-2026, 09:46 AM
前几天入了张 AMD RX 6800XT 显卡,用来跑 LLM 推理。这张卡有 16G 显存,价钱 2000 块左右,性价比还可以。我手上还有一张 AMD Instinct MI50 32G, 是之前还便宜的时候入的,现在 32G 卡的价钱也到 2000 多了,感觉不太值了,加上我想测试一下新架构,所以没想再买一块。
用 llama.cpp 的 llama-bench 测试 Qwen3 4B,6800XT 的 prompt process 速度可以到 MI50 的两倍,虽然显存带宽只有 MI50 的一半,但是 token 生成的速度还是比 MI50 快。6800XT 似乎用 Vulkan 比用 ROCm 性能要好。
拿 Qwen3.5 27B 测试,由于我手上的 Q4 量化的权重没法放进 16G 显存,所以显存要么放到 32G 的卡里面,要么两张卡都用。用两张卡的时候,prompt process 速度有所提升,token 生成速度稍慢一点。原来单张 MI50 可以放 201k 的上下文,加上一张 16G 的卡之后,可以跑满 256K 上下文。
另外还测了 Qwen3.5 122B-A10B, 48G 显存还是不够,部分权重要在 CPU 上跑,token 生成速度可以到 15tok/s 的样子,还可以,prompt process 就不行了。
用 llama.cpp 的 llama-bench 测试 Qwen3 4B,6800XT 的 prompt process 速度可以到 MI50 的两倍,虽然显存带宽只有 MI50 的一半,但是 token 生成的速度还是比 MI50 快。6800XT 似乎用 Vulkan 比用 ROCm 性能要好。
拿 Qwen3.5 27B 测试,由于我手上的 Q4 量化的权重没法放进 16G 显存,所以显存要么放到 32G 的卡里面,要么两张卡都用。用两张卡的时候,prompt process 速度有所提升,token 生成速度稍慢一点。原来单张 MI50 可以放 201k 的上下文,加上一张 16G 的卡之后,可以跑满 256K 上下文。
另外还测了 Qwen3.5 122B-A10B, 48G 显存还是不够,部分权重要在 CPU 上跑,token 生成速度可以到 15tok/s 的样子,还可以,prompt process 就不行了。
