Lire le cache KV avec de la lumière réduit le transfert mémoire de 16 fois
Lors de l'inférence de longs textes avec des LLM, la bande passante mémoire est un goulot d'étranglement, pas le calcul. Pendant la décodage des Transformers, le cache KV complet doit être scanné à chaque génération de jeton, ce qui a une complexité en O(n) par rapport à la longueur du contexte n.