Ollama模型量化指南：教你把大模型塞进家用电脑，实测省显存50%

很多朋友想用本地大模型，但被显存劝退了。今天教你怎么用量化技术，把70B的模型压缩到家用显卡能跑的程度。

什么是模型量化

简单说就是用更少的bit表示模型参数。原始模型通常是FP32（32位浮点），量化后可以是FP16、INT8、INT4甚至更低。位数越低，体积越小，显存占用越少，但精度也会有所损失。

ollama list
ollama show 模型名

Ollama支持多种量化级别，推荐用Q4_K_M，性价比最高。

ollama run 模型名 --verbose
# 或者用Modelfile自定义量化参数

我用RTX 4060 Ti 16G测试Llama3 8B：

下期讲如何在Ollama上跑长上下文模型，以及如何优化推理速度。