Blogs
Articles
LM Evaluation Harness
Source code reading of lm-evaluation-harness.
Self Verification Length Policy
Paper Reading of SVIP.
UnderstandingMetricsForLLMs
传统上,语言模型的性能是通过困惑度 (Perplexity)、交叉熵 (Cross Entropy) 和每字符比特数(Bit Per Character)来衡量的。随着语言模型越来越多地被用作其他NLP任务的预训练模型,它们也经常根据它们在下游任务中的表现进行评估。GLUE基准分数是对语言模型进行更广泛的多任务评估的一个例子。 ...
AwesomeQuantizationMethod
Quantization 量化是指在推理性能损失最小的情况下,减少模型参数中的比特数 (即精度) 的过程。对模型进行量化的好处有 减小模型体积。 提升推理速度。 在模型推理时,需要不断地从内存中读取模型权重和中间激活值。量化后就能在相同时间内读取更多数据。 处理器执行整数运算的速度远快于浮点运算,如果硬件有专门的低精度计算单元可以显著增加运算速度。 Uniform Quantization Comparison between uniform quantization (left) and non-uniform quantization (right). ...
HASTILY
Paper reading of HASTILY.
MixQ
Paper reading of MixQ.
SpecInfer
Paper reading of SpecInfer.
APTMOE
Paper reading of APTMOE.
StreamingGS
Paper reading of StreamingGS.
HybridMoE
Paper reading of HybridMoE.