Google présente TurboQuant : un nouvel algorithme de compression réduisant la mémoire cache des LLM de 6x et offrant jusqu'à 8x d'accélération, sans perte de précision
Google a développé TurboQuant, un cadre de quantification sans données visant à réduire de manière significative la taille du cache clé-valeur des modèles de langage, tout en offrant une accélération jusqu'à 8 fois sans perte de précision.