суббота, 4 апреля 2026 г.

AI Digest: Gemma 4 и локальные модели

Исправлена проблема с KV кэшем в llama.cpp для Gemma 4, запущен инференс модели 31B на 32GB VRAM и 1bit версия 8B на 2GB. Gemma 4 31B превзошла Gemini 3 Pro Deepthink в логических тестах, а версия 26B достигла 100% успеха в мультиязычном вызове инструментов. Cursor 3.0 трансформируется в платформу оркестрации агентов.

Модели Gemma 4 и сравнения

Gemma 4 KV cache issue fixed in llama.cpp

Проблема с перерасходом VRAM в Gemma 4 через llama.cpp исправлена. Проблема заключалась в том, что SWA (Sliding Window Attention) KV cache выделял память в F16 без квантования, что приводило к огромному потреблению видеопамяти. Разработчики llama.cpp уже откатили проблемное изменение, поэтому актуальные сборки больше не имеют этой ошибки. Подробнее

Источники: LocalLLaMA , LocalLLaMA
NVFP4 инференс Gemma-4-31B: 32GB чекпоинт на RTX Pro 6000

Проведены тесты инференса Gemma-4-31B в NVFP4 на одной RTX Pro 6000. Чекпоинт весит 32GB — половина размера BF16 от Google. Кэш KV переведён в FP8 для снижения потребления. Таблица производительности показывает декодинг 15-40 tok/s на пользователя в зависимости от контекста: при 128K контексте TTFT достигает 47.7s на одного пользователя. Скорость декодинга сопоставима с Qwen3.5 27B FP8, но префилл значительно медленнее. Полные метрики здесь. В комментариях упоминаются результаты на DGX: Q8 давала 6tps, Q4 — 10tps с полным контекстом.

Источники: LocalLLaMA
Gemma 4 31B против GLM 5.1: сравнение при многоходовой работе

Пользователь сравнивал Gemma 4 31B и GLM 5.1 в сценарии многократной итерации текста с критикой. Gemma 4 сохраняет нейтральный подход, может выдержать 3-4 раунда обратной связи, GLM превращается в yes-man. Gemma лучше работает с контекстом — точно воспроизводит текст из начала диалога, GLM галлюцинирует. При этом Gemma иногда не использует thinking-режим, но всё равно даёт более полезные ответы. GLM тратит ~60% запросов на бесполезный вывод, Gemma — ~30%. Полное сравнение. В комментариях отмечают, что Zai GLM 5.1 заняла 80 минут против 20 минут у Gemma на dual GPU.

Источники: LocalLLM
Gemma 4: скорость на Mac Studio M1 Ultra и качество ответов

Gemma 26B A4B работает на Mac Studio M1 Ultra с той же скоростью, что Qwen 3.5 35B A3B (~1000pp, ~60tg при 20K контекста). CoT у Gemma более лаконичный и связный, Qwen склонен к лупам и inner-gaslighting. Визуальное понимание и мультиязычность хорошие. В комментариях отмечают: E2B на телефоне первой сообщила о нехватке контекста — редкий случай. Исправление llama.cpp уже merged. Модель выделяется в финском языке. KV кэш остаётся массивным, TurboQuant может помочь. Мнение тестера.

Источники: LocalLLaMA
Gemma 4 26B A4B: 100% успех в мультиязычном tool calling

Gemma 4 26B A4B стала первой моделью с 100% успехом в мультиязычном tool calling на английском, немецком и японском. Настройка: голосовой ассистент на N8N с кастомными инструментами (websearch, MQTT). Контекст, промпт и описания инструментов меняются по ключевому слову. На 68GB VRAM (2x3090 + 1x3080) используется MOE для минимизации латентности. Ранее тестировались модели от 30B MOEs до GLM AIR, но только Gemma 4 дала стабильный результат во всех трёх языках. Детали тестирования. В комментариях отмечают, что Gemma традиционно сильна в европейских языках.

Источники: LocalLLaMA
Gemma 4 31B уничтожила решения Gemini 3 Pro Deepthink в тесте на логическую проверку

Открытая модель Gemma 4 31B с включёнными инструментами полностью разоблачила решение Gemini 3 Pro Deepthink от сложной головоломки, выявив нарушение физических ограничений и фальшивое математическое уравнение. Gemini проигнорировал доступ к инструментам и 15 минут пытался решить парадокс brute-force reasoning, в то время как Gemma 4 запустила несколько Python скриптов для проверки ограничений. Когда аргументы Gemma 4 передали обратно Gemini, модель немедленно признала ошибку логики. Полное логирование дискуссии доступно в HTML файле. Обсуждение

Источники: LocalLLaMA
Gemma-4 31B требует квантования KV кэша даже на GPU с 40GB VRAM

Пользователь с 40GB VRAM не может разместить Unsloth Gemma-4-31B-it-UD-Q8 (35GB) при 2K контексте без квантования KV кэша до Q4. Для сравнения, Qwen3.5-27B помещается в полный контекст без квантования KV. В комментариях рекомендуют пробовать Q6 или Q5 для минимальной потери точности, а также упоминается turboquant как возможное решение. Обсуждение

Источники: LocalLLaMA

Оптимизация и локальный запуск

Запуск 1bit Bonsai 8B на 2GB VRAM: MX150 и термическое троттлинг

Эксперимент с запуском 1bit Bonsai 8B на ноутбуке Asus Zenbook с MX150 (2GB VRAM). При использовании llama-server с параметрами -ctk q8_0 -ctv q8_0 -np 1 -fit off удалось достичь контекста 5632 токенов. Генерация — 7-8 tps до троттлинга, который режет скорость на 30-40%. При ubatch 256-512 достигается максимальный контекст. Энергопотребление — 6 Джоулей на токен. Автор приходит к выводу, что для таких скоростей лучше использовать CPU — контекст в системной RAM будет длиннее без теплового ограничения. Полный отчёт. В комментариях советуют попробовать KV cache offload в RAM и разгон VRAM.

Источники: LocalLLaMA
Ollama + llama.cpp на 16GB Mac Mini: Gemma 4 для triage, Qwen 35B через mmap

Настройка на Mac Mini M4 с 16GB RAM: Ollama на порту 1 для быстрых задач (gemma4:e2b — <2s, gemma4:e4b — ~30s), llama.cpp на порту 2 для Qwen 35B-A3B через mmap (13GB GGUF, 17.3 tok/s, 4-6GB RAM resident). Критичные настройки: OLLAMA_MAX_LOADED_MODELS=1, think: false в API (классификация 8.5s → 1.9s), OLLAMA_KEEP_ALIVE=10m. Обновление Ollama до 0.20 необходимо для поддержки Gemma 4. Полная статья с бенчмарками. В комментариях предлагают llama swap как альтернативу для управления несколькими моделями.

Источники: ollama
Gemma 4 2B показала себя быстрее и эффективнее Qwen3.5 2B на локальном RTX2060

Тестирование Gemma 4 2B на старом RTX2060 с 6GB VRAM показало превосходство над Qwen3.5 2B: модель работает быстрее, потребляет меньше памяти и демонстрирует лучшие результаты в структурированном выводе. По ощущениям 2B версия Gemma 4 близка к 9B версии Qwen3.5. Однако в комментариях отмечают, что полная модель весит около 5.1B параметров за счёт per-layer embeddings. Другой пользователь тестировал Gemma 4 31B с vllm и столкнулся с ненадёжным tool calling, вернувшись к Qwen3.5 122B для production задач. Полное обсуждение

Источники: LocalLLaMA

Инструменты и экосистема

Cursor 3.0: переход от редактора кода к оркестрации агентов

Обновление Cursor 3.0 делает акцент на агентной оркестрации. Теперь можно запускать неограниченное количество агентов одновременно — локально, по SSH или в облаке. Редактор перемещён в боковую панель, главное окно — Agent Window с историей и diff-ами. Агентов можно быстро переносить между локальной средой и облаком, сохраняя контекст сессии. Обновление доступно по Cmd+Shift+P → Agents Window. Официальный блог Cursor.

Источники: ai_volution
Проблема закрытых LLM API: изменения поведения без чейнджлогов

Пользователи сообщают о скрытых изменениях в поведении закрытых провайдеров между версиями API без предупреждений. Один пример: production pipeline на крупном провайдере начала выдавать незначительные отклонения в форматах и отказах после четырёх месяцев стабильной работы. Ответ поддержки — просто «модели обновляются периодично». В отличие от этого, локальные модели обеспечивают версионирование инференс стека и предсказуемость. Некоторые обходят проблему через canary eval suite — набор из ~40 промптов с известными ответами перед деплоем. Дискуссия

Источники: LocalLLaMA