PaperReading

AwesomeQuantizationMethod

Quantization 量化是指在推理性能损失最小的情况下，减少模型参数中的比特数 (即精度) 的过程。对模型进行量化的好处有减小模型体积。提升推理速度。在模型推理时，需要不断地从内存中读取模型权重和中间激活值。量化后就能在相同时间内读取更多数据。处理器执行整数运算的速度远快于浮点运算，如果硬件有专门的低精度计算单元可以显著增加运算速度。 Uniform Quantization Comparison between uniform quantization (left) and non-uniform quantization (right). ...

HASTILY

Paper reading of HASTILY.

MixQ

Paper reading of MixQ.

SpecInfer

Paper reading of SpecInfer.

APTMOE

Paper reading of APTMOE.

StreamingGS

Paper reading of StreamingGS.

HybridMoE

Paper reading of HybridMoE.

SpARC

Paper Reading of SpARC.

Oltron

Paper Reading of Oltron.

SpInfer

Paper reading of SpInfer.