实验：量化部署工作流

目标

把 7B 模型从 FP16 量化到 INT8，验证精度和性能差异。

pip install autoawq vllm

# 直接从 HuggingFace 拉取 INT4 量化版本
vllm serve hugging-quants/Meta-Llama-3-8B-Instruct-AWQ-INT4 \
  --quantization awq \
  --host 0.0.0.0 \
  --port 8000

from lm_eval import evaluator
from transformers import AutoModelForCausalLM

# 分别跑 FP16 和 INT4 的 MMLU 测试
# 对比分数差异

# 用 ab 或 wrk 进行压测
ab -n 100 -c 10 http://localhost:8000/v1/chat/completions

记录：