Ну что, пацаны, запускаем на микроволновках?
Кто готов сжать в 1 бит )
мда, на чем запускать это ? сравнение бы с другими open source MOE моделями, а так не понятно зачем оно вообще нужно такого размера, подозреваю что оно лучше в русском языке, но в нем и другие отлично справляются
мда, на чем запускать это ? сравнение бы с другими open source MOE моделями, а так не понятно зачем оно вообще нужно такого размера, подозреваю что оно лучше в русском языке, но в нем и другие отлично справляются
Ну вот как раз чтоб затестить и нужны кванты, а бенчмарки не показательны, ну нарисовали бы они там +100500% как Qwen team делает, смысл то, о модели это ничего не скажет.
В общем надеемся и ждем, что среди русскоязычного коммунити есть квантизаторы, которые сожмут нам модельку
I see some small GGUFs coming in for llama.cpp by DevQuasar here: https://huggingface.co/DevQuasar/ai-sage.GigaChat3-702B-A36B-preview-bf16-GGUF
Was having a chat template issue though, discussing it here: https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview-bf16/discussions/1
мда, на чем запускать это ?
Запустить можно на любом CPU с 512 GB RAM, когда выйдут 4-5 битные кванты. На DDR4 в 8-канале у такой модели скорость инференса будет в районе 3-4 t/s. На DDR5 кратно выше при том же количестве каналов памяти.
Выложу Q8_0, Q4_K_M и Q5_K_S под 1ТБ и 512ГБ оперативы соответственно, если меня не опередят. В более низких квантах смысла не вижу, да и скорее всего кто-то их уже точно зальет.
https://huggingface.co/spaces/huggingface/InferenceSupport/discussions/6272
Проголосуйте реакцией, чтоб провайдеры обратили внимание и запустили на своих мощностях)
Спасибо всем за вклад в мировое открытое сообщество. Если можно, позвольте поделиться некоторыми из своих знаний.
На одном сокете AMD EPYC 9755 с 128 ядрами и 768 ГБ DDR5-6400 MT/s полная версия Q8_0 (695.003 GiB, 8.504 BPW) отлично работает со скоростью около 190 токенов/секунду PP (обработка подсказки, также известная как предварительное заполнение) и 11 токенов/секунду TG (генерация токенов, также известная как декодирование) при коротких подсказках. Это без использования GPU.
Я настоятельно рекомендую рассмотреть возможность создания квантизации с помощью ik_llama.cpp, который отлично подходит дл гибридного вывода на CPU + GPU, позволяя сохранять все внимание, общие эксперты, первые плотные слои и kv-кэш на GPU, а рареженные маршрутизированные эксперты — на оперативной памяти CPU. Из этих экспериментов и рецептов квантизации с Kimi-2-Thinking видно, насколько лучшего качества можно достичь с помощью этих квантизаций SOTA. Основной llama.cpp также хорошо работает для гибридного вывода с использованием более традиционных квантизаций и реализаций ядер.
Вот пример команды для запуска на ik_llama.cpp с kv-кэшем, квантизированным в Q8_0:
model=/mnt/data/models/ubergarm/GigaChat3-702B-A36B-preview-GGUF/GigaChat3-702B-A36B-preview-Q8_0.gguf
SOCKET=${SOCKET}
$ numactl -N "$SOCKET" -m "$SOCKET" \
./build/bin/llama-server \
--model "$model"\
--alias ubergarm/GigaChat3-702B-A36B-preview-GGUF \
--ctx-size 65536 \
-ctk q8_0 \
-ub 4096 -b 4096 \
--parallel 1 \
--threads 96 \
--threads-batch 128 \
--numa numactl \
--host 127.0.0.1 \
--port 8080 \
--no-mmap \
--jinja \
--chat-template-file ./fixedGigaChat3-702B-A36B-preview.jinja
Вот пример команды для бенчмарка производительности на различных размерах контекста. Это также доступно для сравнения с основной реализацией llama.cpp, используя этот branch.
model=/mnt/data/models/ubergarm/GigaChat3-702B-A36B-preview-GGUF/GigaChat3-702B-A36B-preview-Q8_0.gguf
SOCKET=${SOCKET}
$ numactl -N "$SOCKET" -m "$SOCKET" \
./build/bin/llama-sweep-bench \
--model "$model"\
--ctx-size 20480 \
-ctk q8_0 \
-ub 4096 -b 4096 \
--parallel 1 \
--threads 96 \
--threads-batch 128 \
--numa numactl \
--no-mmap
Удачи в ваших приключениях с LLM и рад разделить этот уникальный момент вместе со всеми вами!
(Переведено с использованием ubergarm/GigaChat3-702B-36B-preview-GGUF Q8_0, работающего на ik_llama.cpp)
P.S. Эта жёсткая басовая музыка очень хороша!