Hugging Face перепостив інструмент turboquant-gpu, заявляє про забезпечення 5.02-кратного стиснення кешу KV

ME Новини повідомляють, 6 квітня (UTC+8), Hugging Face нещодавно ретвітнув повідомлення від anirudhbv_ce, яке оголосило про запуск інструменту turboquant-gpu. Цей інструмент стверджує, що може забезпечити до 5.02-кратного стиснення кешу KV для будь-якого GPU (включаючи RTX, H100, A100, B200). У статті зазначено, що його особливості включають: сумісність з бібліотекою Hugging Face Transformers; мінімальний API, який, за заявою, дозволяє здійснити стиснення та генерацію всього за 3 рядки коду; використання технології стиснення KV з об’єднанням Lloyd-Max у 3-бітовому форматі, з обіцянкою досягнення косинусної схожості 0.98. У статті вважається, що його продуктивність перевищує MXFP4 (3.76-кратне стиснення) та ще один невказаний план. (Джерело: InFoQ)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити