Loading / 加载中

自托管 Gemma 2 9B 基准测试:FP8 量化在 NVIDIA L4 上造成 58% 预填充延迟损失,但提升解码效率并释放显存 | thinkgap