Ну что, пацаны, запускаем на микроволновках?

#1
by kabachuha - opened

Кто готов сжать в 1 бит )

мда, на чем запускать это ? сравнение бы с другими open source MOE моделями, а так не понятно зачем оно вообще нужно такого размера, подозреваю что оно лучше в русском языке, но в нем и другие отлично справляются

мда, на чем запускать это ? сравнение бы с другими open source MOE моделями, а так не понятно зачем оно вообще нужно такого размера, подозреваю что оно лучше в русском языке, но в нем и другие отлично справляются

Ну вот как раз чтоб затестить и нужны кванты, а бенчмарки не показательны, ну нарисовали бы они там +100500% как Qwen team делает, смысл то, о модели это ничего не скажет.
В общем надеемся и ждем, что среди русскоязычного коммунити есть квантизаторы, которые сожмут нам модельку

I see some small GGUFs coming in for llama.cpp by DevQuasar here: https://huggingface.co/DevQuasar/ai-sage.GigaChat3-702B-A36B-preview-bf16-GGUF

Was having a chat template issue though, discussing it here: https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview-bf16/discussions/1

мда, на чем запускать это ?

Запустить можно на любом CPU с 512 GB RAM, когда выйдут 4-5 битные кванты. На DDR4 в 8-канале у такой модели скорость инференса будет в районе 3-4 t/s. На DDR5 кратно выше при том же количестве каналов памяти.

Выложу Q8_0, Q4_K_M и Q5_K_S под 1ТБ и 512ГБ оперативы соответственно, если меня не опередят. В более низких квантах смысла не вижу, да и скорее всего кто-то их уже точно зальет.

https://huggingface.co/spaces/huggingface/InferenceSupport/discussions/6272

Проголосуйте реакцией, чтоб провайдеры обратили внимание и запустили на своих мощностях)

@Wszechobecny

Спасибо всем за вклад в мировое открытое сообщество. Если можно, позвольте поделиться некоторыми из своих знаний.

На одном сокете AMD EPYC 9755 с 128 ядрами и 768 ГБ DDR5-6400 MT/s полная версия Q8_0 (695.003 GiB, 8.504 BPW) отлично работает со скоростью около 190 токенов/секунду PP (обработка подсказки, также известная как предварительное заполнение) и 11 токенов/секунду TG (генерация токенов, также известная как декодирование) при коротких подсказках. Это без использования GPU.

Я настоятельно рекомендую рассмотреть возможность создания квантизации с помощью ik_llama.cpp, который отлично подходит дл гибридного вывода на CPU + GPU, позволяя сохранять все внимание, общие эксперты, первые плотные слои и kv-кэш на GPU, а рареженные маршрутизированные эксперты — на оперативной памяти CPU. Из этих экспериментов и рецептов квантизации с Kimi-2-Thinking видно, насколько лучшего качества можно достичь с помощью этих квантизаций SOTA. Основной llama.cpp также хорошо работает для гибридного вывода с использованием более традиционных квантизаций и реализаций ядер.

Вот пример команды для запуска на ik_llama.cpp с kv-кэшем, квантизированным в Q8_0:

model=/mnt/data/models/ubergarm/GigaChat3-702B-A36B-preview-GGUF/GigaChat3-702B-A36B-preview-Q8_0.gguf
SOCKET=${SOCKET}
$ numactl -N "$SOCKET" -m "$SOCKET" \
./build/bin/llama-server \
    --model "$model"\
    --alias ubergarm/GigaChat3-702B-A36B-preview-GGUF \
    --ctx-size 65536 \
    -ctk q8_0 \
    -ub 4096 -b 4096 \
    --parallel 1 \
    --threads 96 \
    --threads-batch 128 \
    --numa numactl \
    --host 127.0.0.1 \
    --port 8080 \
    --no-mmap \
    --jinja \
    --chat-template-file ./fixedGigaChat3-702B-A36B-preview.jinja

Вот пример команды для бенчмарка производительности на различных размерах контекста. Это также доступно для сравнения с основной реализацией llama.cpp, используя этот branch.

model=/mnt/data/models/ubergarm/GigaChat3-702B-A36B-preview-GGUF/GigaChat3-702B-A36B-preview-Q8_0.gguf
SOCKET=${SOCKET}
$ numactl -N "$SOCKET" -m "$SOCKET" \
./build/bin/llama-sweep-bench \
    --model "$model"\
    --ctx-size 20480 \
    -ctk q8_0 \
    -ub 4096 -b 4096 \
    --parallel 1 \
    --threads 96 \
    --threads-batch 128 \
    --numa numactl \
    --no-mmap

Удачи в ваших приключениях с LLM и рад разделить этот уникальный момент вместе со всеми вами!

(Переведено с использованием ubergarm/GigaChat3-702B-36B-preview-GGUF Q8_0, работающего на ik_llama.cpp)

P.S. Эта жёсткая басовая музыка очень хороша!

Sign up or log in to comment