NVIDIA présente un pipeline de codage KVTC pour compresser les caches clé-valeur de 20x pour une utilisation efficace des LLM
Les chercheurs de NVIDIA ont développé KVTC, un pipeline de codage permettant de compresser les caches clé-valeur des modèles de langage de grande taille jusqu'à 20 fois. Cela résout un défi majeur d'ingénierie pour le déploiement à grande échelle de ces modèles, en réduisant considérablement l'empreinte mémoire du cache.