пятница, 3 апреля 2026 г.

AI Digest: Обновления Gemma 4, Qwen 3.6 и локальный инференс

Google DeepMind представила Gemma 4 с поддержкой 256K токенов и мультимодальностью, а Alibaba выпустила Qwen3.6-Plus с контекстом 1 млн токенов. Новая версия моделей работает локально от 5 ГБ ОЗУ, однако метод Heretic ARA позволил обойти защиту безопасности сразу после релиза. Oracle уволил 30 000 сотрудников для масштабирования AI-инфраструктуры, а ИИ-агенты активно тестируются в корпоративной среде и бытовых сценариях.

Модели и ключевые релизы

Google DeepMind выпустила Gemma 4 с поддержкой 256K токенов

Google DeepMind представила новое семейство мультимодальных моделей Gemma 4, доступных в четырёх размерах: E2B, E4B, 26B A4B и 31B. Модели поддерживают контекстное окно до 256K токенов, работают с текстом, изображениями, видео и аудио (на малых моделях). Доступны предобученные и дообученные варианты. Все чекпоинты размещены на Hugging Face ссылка. Полные детали выпуска доступны в посте на Reddit.

Источники: LocalLLaMA , LocalLLaMA
Google выпустила Gemma 4 — четыре размера моделей с поддержкой аудио и видео

Google обновила линейку Gemma до версии 4 с четырьмя размерами моделей: E2B, E4B, 26A4B и 31B Dense. Модели поддерживают рассуждения, вызов инструментов и понимают изображения и видео. E2B и E4B дополнительно поддерживают аудио на входе для распознавания голоса. Контекстное окно составляет 128K для малых моделей и 256K для больших. Веса доступны на HuggingFace. Коллекция моделей

Источники: LocalLLM
Qwen 3.6 Plus получил обновление с акцентом на программирование

Qwen 3.6 Plus получил обновление с акцентом на агентов для программирования. В блоге разработчики подтвердили, что в ближайшее время будут открыты менее масштабные варианты модели. Сообщество ожидает открытия весов полной версии 397B и новых версий на Hugging Face. Официальный анонс Qwen 3.6

Источники: LocalLLaMA
Alibaba выпустила Qwen3.6-Plus с контекстом 1 млн токенов

Новая флагманская модель серии Qwen появилась на OpenRouter без официального анонса — только твит исследователя с бенчмарками. Qwen3.6-Plus поддерживает 1 млн токенов контекста, на Terminal-Bench 2.0 показывает 61.6 против 59.3 у Claude 4.5 Opus, но проигрывает на SWE-bench: 78.8 против 80.9. По скорости генерации ранние тесты показывают 2-3x быстрее Claude Opus 4.6. Сейчас модель можно протестировать бесплатно через OpenCode. Официальный релиз доступен на сайте Alibaba.

Источники: ai_for_devs
Сравнение Qwen3.6 с предварительной версией

Пользователь опубликовал сравнение релиза Qwen3.6 с предыдущей Preview-версией. В обсуждении разбираются изменения в производительности и функционале между версиями. Ссылка на пост содержит детали тестирования и практические наблюдения. Полный разбор доступен в оригинальной теме.

Источники: LocalLLM
Gemma 4 может рассуждать 10+ минут при запросе, без галлюцинаций

Тесты Gemma 4 26B и 31B показали, что при запросе на максимальное усилие модель может рассуждать около 10 минут без галлюцинаций. На задаче взлома шифра модели не выдумали ложный ответ, а честно признали невозможность решения без ключа. Для 31B модели потребовалось 594 секунды рассуждений. В комментариях подтверждают, что модель может рассуждать 16 минут на сложных задачах, но обычно работает быстро. Это демонстрирует, что Gemma 4 требует явного запроса для длинного рассуждения, в отличие от Qwen, который часто overthinks по умолчанию. Детали теста.

Источники: LocalLLaMA
Gemma 4 124B MoE — будет ли открытый доступ?

Обсуждается возможность публикации Gemma 4 124B MoE в открытом доступе. Jeff Dean упоминал эту модель, но позже удалил упоминание о 124B — возможно, это связано с результатами тестов. Обсуждение на Reddit

Источники: LocalLLaMA

Локальный запуск и оптимизация

Claude Code устранил мерцание терминала через новый рендер

Anthropic выпустила экспериментальный рендерер NO_FLICKER для Claude Code, устраняющий мерцание и скачки в терминале. Теперь Claude Code сам контролирует каждый пиксель, перехватывает ввод и мышь, а текст копируется без номеров строк. Включается через переменную CLAUDE_CODE_NO_FLICKER=1. Включает работу с мышью в терминале и улучшение выделения текста. Есть нюансы: Cmd+F и нативный копипаст пока не работают полностью. Подробнее в телеграм-канале

Источники: ai_volution
Vulkan требует меньше ресурсов CPU и GPU в llama.cpp

Пользователи отмечают, что бэкенд Vulkan в llama.cpp требует меньше ресурсов CPU и GPU по сравнению с CUDA. На тесте с моделью Qwen3.5-9B-GGUF использование Vulkan снизило нагрузку на CPU до 30% и потребление видеопамяти до 7.2 ГБ против 11 ГБ у CUDA. Скорость генерации осталась на уровне ~30 токенов в секунду. Сообщество объясняет это отсутствием busy-wait цикла в Vulkan и меньшими накладными расходами CUDA runtime. Сравнение на Reddit

Источники: LocalLLaMA
Поддержка Gemma 4 добавлена в llama.cpp

В репозиторий ggml-org/llama.cpp добавлена поддержка новой модели Gemma 4. Пул-реквест уже обработан, что позволит использовать GGUF-версии модели при загрузке. Поддержка включает базовую функциональность для запуска селф-хостед моделей. Официальный релиз весов ожидается в ближайшее время. Детали в обсуждении

Источники: LocalLLaMA
ByteShape выпустил квантования Qwen 3.5 9B и руководство по локальному запуску

ByteShape выпустил квантования Qwen 3.5 9B и практическое руководство по запуску в локальной среде OpenCode. Тестирование проводилось на видеокартах RTX 5090, 4080, 3090, 5060Ti и процессорах Intel, AMD, включая Raspberry Pi 5. Результаты показывают, что для GPU оптимальные кванты стабильны, а для CPU выбор сильно зависит от конкретного железа. Отчет и руководства

Источники: LocalLLM
Бенчмарки Gemma 4 на NVIDIA B200 и AMD MI355X показали рост пропускной способности

Google DeepMind выпустила Gemma 4 в двух вариантах: плотная модель 31B и MoE 26B с активными 4B параметрами. Оба поддерживают 256K контекста и мультимодальность. В тестах на NVIDIA B200 и AMD MI355X достигнута на 15% более высокая пропускная способность по сравнению с vLLM. Модели доступны для тестирования через плейграунд Modular. Бенчмарки Gemma 4

Источники: LocalLLM
Google Gemma 4 теперь работает локально от 5 ГБ ОЗУ

Google выпустила новую семью open-source моделей Gemma 4 с возможностями мышления и мультимодальности. Четыре модели включают две маленькие (E2B, E4B) и две большие (26B-A4B, 31B), причём 26B-A4B быстрее благодаря MoE-архитектуре при почти таком же качестве. Unsloth конвертировали модели для локального запуска, с рекомендациями по производительности: E2B/E4B работают на 10+ токенов/сек с ~6 ГБ RAM, 26B-A4B — 30+ токенов/сек с ~30 ГБ, 31B — 15+ токенов/сек с ~35 ГБ. Без GPU всё ещё можно запустить модели, но с GPU (например RTX 5090) скорость достигает 140 токенов/сек. Детали по настройке

Источники: LocalLLM , LocalLLaMA
Сравнение квантования Qwen 3 .6b от q2 до q8 по задачам обучения

Проведено тестирование квантования Qwen 3 .6b от q2 до q8 по задачам GSM8K, IFEval, MMLU и HumanEval. Результаты показывают, что для моделей менее 1 млрд параметров квантование Q5 часто является оптимальным балансом между точностью и скоростью. Данные помогают выбрать версию модели для конкретных задач. Таблицы с результатами

Источники: LocalLLaMA
Симуляция работы Qwen3.5 с 1-битным квантованием и TurboQuant

Опубликована симуляция работы семейств Qwen3.5 с использованием технологий 1-битного квантования и TurboQuant. Таблица демонстрирует, что для модели 122B-A10B общий объем памяти может снизиться до 18 ГБ по сравнению с текущими 75 ГБ. Экспериментальное решение поднимает вопросы о физических пределах сжатия и стабильности обучения. Детальная симуляция памяти

Источники: LocalLLaMA
Гайд по запуску локального ИИ-кодинга с OpenCode

В r/LocalLLaMA опубликовали getting started guide для agentic coding tools с моделями ByteShape. Гайд описывает настройку на Mac, Linux и Windows (WSL2), запуск модели локально через LM Studio, llama.cpp или Ollama, и создание OpenAI-совместимого API эндпоинта. OpenCode — это терминальный кодинговый агент, который пишет, редактирует и запускает код с помощью локальных или удалённых моделей. Полная инструкция доступна в блоге ByteShape.

Источники: LocalLLaMA
Gemma 4 заработала в mistral.rs с полной мультимодальностью

В r/LocalLLM анонсировали day-0 поддержку Gemma 4 в mistral.rs с полным стеком мультимодальности: текст, vision и аудио. Это позволяет запускать Gemma 4 полностью локально без сторонних сервисов. Поддержка доступна сразу после релиза, что упрощает интеграцию в селф-хостед пайплайны. Пост в Reddit

Источники: LocalLLM
Gemma 4 против Qwen 3.5: тесты фронтенд-генерации и бенчмарки

Автор протестировал Gemma 4 и Qwen 3.5 на задаче генерации фронтенда — создании лендинга для AI-ассистента с Tailwind CSS, glassmorphism, parallax-эффектами и анимациями. Gemma 4 показала хорошие результаты: привлекает внимание, следует структуре промпта, выдает рабочий код. Однако Qwen 3.5 выглядел чуть лучше в деталях — полировка, когерентность и соблюдение дизайн-требований. На общих бенчмарках Qwen 3.5 сильнее в текстовых и кодинговых задачах, тогда как Gemma 4 конкурентоспособнее в многоязычных и некоторых визуальных задачах. Gemma 4 имеет более крупные версии, что усложняет запуск на 8 GB VRAM, делая Qwen 3.5 доступнее для локальных устройств. Детали теста

Источники: LocalLLaMA , LocalLLaMA
MeshLLM позволяет объединять вычислительные ресурсы для запуска открытых моделей

Команда Blocks запустила MeshLLM — инструмент для пулинга вычислительных ресурсов с возможностью работы в публичном или приватном режиме. Это позволяет пользователям совместно использовать мощности для выполнения задач с открытыми моделями без необходимости полного контроля над инфраструктурой. Решение особенно актуально для селф-хостинга, когда отдельные пользователи могут объединить ресурсы для более сложных задач. Подробнее о функционале в посте.

Источники: LocalLLM
Полностью локальный AI-компаньон на модели 4B без облачных API

Разработчик создаёт 100% локального AI-агента на базе модели 4B без использования облачных API и интернет-соединения. Проект включает 25+ подсистем и поддерживаемую память, находится на стадии 90% готовности. Автор ищет участников для стресс-тестирования, поиска слепых зон и генерации новых идей. Если интересен селф-хостинг и агентные архитектуры, можно оставить комментарий в теме.

Источники: LocalLLM
Лучшие модели SOTA под 14B для локального использования

В сообществе обсудили лучшие малые языковые модели до 14B для различных задач. Для общего QA и языковых знаний рекомендуют Gemma 3 12B (возможно Gemma 4 после релиза). Для рассуждений, STEM и агентных задач — Qwen 3.5 9B. Также упомянули ministral 3B/8B и Anubis 8B как интересные альтернативы. Это полезный обзор для тех, кто ищет эффективные модели для селф-хостинга на ограниченном железе. Список моделей в оригинальной теме.

Источники: LocalLLaMA
AMD R9 7000 для локального LLM инференса

Пользователь собрал сервер на AMD R9 7000 с 96GB VRAM для инференса моделей. В обсуждении участники делятся опытом с альтернативами от Nvidia и Intel, а также обсуждают использование для агентных задач и генерации изображений. Пост на Reddit

Источники: LocalLLaMA

Безопасность и уязвимости

Эффект Стрейзанд с утечкой исходников Claude Code

После утечки исходного кода Claude Code Anthropic отправила DMCA-запросы на 8100 репозиториев на GitHub. Платформа удалила почти все, включая переработанные проекты. Позже компанию признали ошибку и восстановили большинство репозиториев, заблокировав лишь 96. Пример классического эффекта Стрейзанд, когда попытка скрыть информацию привлекла больше внимания. Обсуждение в Prompt Design

Источники: prompt_design
Метод Heretic ARA позволил обойти защиту Gemma 4 сразу после релиза

Метод Arbitrary-Rank Ablation (ARA) от сообщества Heretic позволил обойти защитные механизмы Gemma 4 практически сразу после релиза. Техника использует оптимизацию матриц для подавления отказов в ответах, при этом повреждений модели не обнаружено. Автор делится командой для клонирования репозитория и установки зависимостей для воспроизведения. Метод Heretic и результаты

Источники: LocalLLaMA
Gemma 4 abliterated — разблокированная версия

Пользователь поделился разблокированной версией Gemma 4 с отключенными ограничениями. В комментариях сообщество отмечает, что при отключении режима мышления abliteration не обязательна — модель изначально достаточно кооперативна. Пост на Reddit

Источники: LocalLLaMA

Агенты и бизнес

Миграция с кластера селф-хостинга GPU на управляемую платформу Yotta Labs

Компания перешла с кластера селф-хостинга GPU на Kubernetes к управляемой платформе Yotta Labs через 6 месяцев после миграции. Основными причинами стали отсутствие необходимости писать скрипты восстановления узлов и проблемы с версиями драйверов. Yotta Labs выбрана за автоматическую обработку отказов и стабильность холодного старта по сравнению с RunPod. Итоги миграции и сравнение платформ

Источники: LocalLLM
ИИ-агент проверил цены на Guinness в 2000 пабах Ирландии

Стартапер Мэтт Кортленд создал голосового ИИ-агента Рейчел на базе ElevenLabs с североирландским акцентом, чтобы узнать цены на Guinness по всей Ирландии. Агент обзвонил более 2000 пабов в Дублине, и большинство барменов не распознали ИИ — некоторые даже предлагали персональные скидки. Данные загрузили в Claude и запустили Guinndex — индекс цен, который уже заставил одного владельца паба снизить цену на €0,40. Кортленд планирует расширить проект: в планах индекс цен на лекарства в США и кусок пиццы в Нью-Йорке. Подробнее на источнике.

Источники: hiaimedia
Как работает автономный ИИ-агент в корпоративной среде

В r/LocalLLaMA инженер спрашивает, как на самом деле работают агенты, получающие API-доступ к внутренним системам компании. Комментарии объясняют, что архитектура обычно проще: LLM получает промпт, выбирает инструмент из списка, результат возвращается в следующий промпт — это просто цикл. Память реализуется либо через хранение предыдущих взаимодействий в промпте, либо через векторную БД/SQLite с ретриевом. Основной риск — не модель, а права доступа инструментов: API ключи и scope, которые агент получает, определяют, что он может читать и записывать в системы компании.

Источники: LocalLLaMA
OpenAgents workspace для многоагентного взаимодействия без сложной оркестрации

OpenAgents workspace — open-source инструмент (Apache 2.0), который позволяет разным агентам взаимодействовать в общем потоке без ручного копирования-вставки. Достаточно одной команды `npx u/openagents-org/agent-connector up` для запуска, без Docker или аккаунтов. Агенты могут читать сообщения друг друга, разделяют файловую систему и браузер. Из недостатков: отсутствует автоматическая маршрутизация задач, при 3+ агентах может возникать шум от непреднамеренных ответов. В комментариях обсуждают, как handle неожиданные ответы агентов. Обзор решения.

Источники: AgentsOfAI
Oracle уволил 30 000 сотрудников для покупки GPU и масштабирования AI-инфраструктуры

Oracle уволил примерно 30 000 сотрудников по всему миру, чтобы финансировать строительство крупных AI-дата-центров и закупку GPU. Компания остаётся прибыльной, решение принято не из-за финансовых проблем. Это вызывает структурные изменения в индустрии: на рынок выйдет много опытных разработчиков, администраторов баз данных и облачных архитекторов. В комментариях обсуждают последствия для индустрии и вероятность, что часть талантов начнёт создавать собственные продукты. Обсуждение в Reddit.

Источники: AgentsOfAI