понедельник, 6 апреля 2026 г.

AI Digest: Обзор новых моделей, бенчмарков и рыночных сдвигов

Nvidia потеряла долю на рынке Китая, опустившись до 55 %. Raspberry Pi 5 с SSD‑HAT ускорил генерацию моделей, а Vulkan почти догнал CUDA в llama.cpp. DeepSeek V4 объявил поддержку чипов Huawei, а LocalMind запустил Gemma 3 и 4 полностью в браузере.

Модели и их обновления

Исправления для Qwen 3.5 Tool Calling в селф-хостed окружениях

Выявлены четыре основные проблемы при вызовах функций в Qwen 3.5: XML-теги инструментов утекают в текст, теги загрязняют контекст, неправильный finish_reason и нестандартные значения finish_reason. Статус исправлений по серверам: LM Studio 0.4.9 лучше всего обрабатывает XML, vLLM 0.19.0 работает с --tool-call-parser qwen3_coder, Ollama 0.20.2 иногда ошибается, llama.cpp b8664 имеет проблемы с парсером. В комментариях отмечают, что LM Studio 0.4.9 надёжнее raw llama.cpp для парсинга XML Qwen3.5. детали и код

Источники: LocalLLaMA
LocalMind запускает Gemma 3 и 4 полностью в браузере

Проект LocalMind позволяет запускать модели Gemma 3 1B и Gemma 4 (E2B, E4B) локально через WebGPU без необходимости в селф-хостинге на стороне сервера или API-ключе. Модели хранятся в памяти браузера, а данные не покидают устройство, за исключением опционального поиска. Поддерживаются инструменты (tool calling), память и мультимодальность для текстового чата и агентов. Обсуждение в Reddit подтверждает работу через WebGPU и указывает размеры моделей от 760 МБ до 4,9 ГБ. О проекте

Источники: LocalLLM
Появилась версия QWEN Coder 80B Next с квантованием Apex

Появилась версия модели QWEN Coder 80B Next с применением квантования Apex, уменьшив размер до 54,1 ГБ в формате GGUF. Новое решение позиционируется как одно из самых быстрых для задач кодирования среди моделей 80B. Выгрузка доступна на HuggingFace для использования в локальных окружениях. Пользователи в комментариях спрашивают о сравнении с квантованиями q4k и q5, а также о возможности применения техники для других моделей. Обсуждение

Источники: LocalLLaMA
DeepSeek V4 будет работать на чипах Huawei

Компания DeepSeek эксклюзивно выпустит модель V4 для работы на аппаратном обеспечении Huawei, демонстрируя технологическую самостоятельность Китая. Первоначальный релиз планировался на февраль, но адаптация под чипы оказалась сложной из-за исторической оптимизации моделей под Nvidia. Крупные технологические гиганты Китая, включая Alibaba и Tencent, разместили заказы на сотни тысяч чипов. Для инференса используются Ascend 950PR, которые пока уступают H200, но догнать их планируют к 2027 году с выходом Ascend 960. Детали в источнике.

Источники: seeallochnaya
Разработчик обучает с нуля итальяно-английскую модель Dante-2B

Исследователь из Рима представляет проект Dante-2B — 2.1B параметров, обученный полностью с нуля на двух H200 за 16 дней. Ключевое отличие — кастомный токенеризатор для итальянского языка, который корректно обрабатывает апострофы и акценты, экономя контекстное окно. Модель создана без fine-tuning на базе Llama или Mistral, что позволило избежать проблем с токенизацией итальянских слов. После первого этапа (90B токенов) модель уже генерирует связный текст, но полноценный релиз запланирован после завершения Phase 2 с увеличением контекста до 4K. В посте обсуждаются детали датасета и этапы обучения.

Источники: LocalLLaMA

Бенчмарки и тесты

Слепое сравнение Gemma 4 31B, Gemma 4 26B-A4B и Qwen 3.5 27B

Тест с 30 вопросами под судейством Claude Opus 4.6 показал Qwen 3.5 27B с 14 победами (46.7%), Gemma 4 31B — 12 (40.0%), Gemma 4 26B-A4B — 4 (13.3%). Средние оценки: Gemma 4 31B и 26B-A4B по 8.82, Qwen 3.5 27B — 8.17. После исключения трёх нулевых оценок у Qwen средний балл поднимается до ~9.08. В категории Reasoning Qwen доминирует (5 из 6), в Communication — Gemma 4 31B (5 из 6). Комментарии подчёркивают важность правильной температуры и llama.cpp b8660. результаты и методика

Источники: LocalLLaMA
Benchmark Gemma 4 26B: llama.cpp против MLX и Ollama

На M3 Max (128 GB) llama.cpp выдаёт 59 ток/сек против 33 у MLX, но MLX обрабатывает промпт за 0.3 сек против 7.4 у llama.cpp. Ollama работает медленнее всего с TTFT 13.9 сек. В комментариях отмечают, что Ollama на M4 Max показывает 50-60 ток/сек, а --think=false даёт 70-80 ток/сек. полные тесты

Источники: LocalLLM
Gemma 4 31B показала результаты лучше закрытых моделей в локальном запуске

Пользователь поделился бенчмарками Gemma 4 31B в квантовании Q4_K_M, где модель в режиме think набрала 78.7%, обойдя Gemini 3 Flash и Claude Sonnet 4. В комментариях к посту участники сомневаются в валидности методики теста, указывая на странности в маркировке версий Opus. Однако некоторые авторы подтверждают схожие показатели на собственном опыте. Автор отмечает, что даже версия без think-режима показывает конкурентные 73.5%. Подробности обсуждения доступны на Reddit.

Источники: LocalLLaMA
Промпты для тестирования локальных LLM и ловушек рассуждений

Пользователь с платформы r/LocalLLaMA собрал набор тестовых вопросов для проверки качества различных локальных моделей. В подборке есть задачи на проверку исторических фактов, например, про архитектуру Apple A6 или процессор Pentium D, а также логические ловушки вроде задачи о мытье машины. Автор проверил эти промпты на Gemma E4B Thinking и 26B A4B MoE, отметив, что даже модели с активным рассуждением могут ошибаться в тривиальных бытовых сценариях. В комментариях рекомендуют добавить тесты на Theory of Mind (сценарии о знаниях двух персонажей) и проверку на ложные предпосылки, например, «почему код работает медленнее при уменьшении входных данных?». Полный список

Источники: LocalLLaMA

Аппаратное обеспечение и оптимизация

Raspberry Pi5 с SSD HAT+ показывает рост скорости генерации моделей

На Raspberry Pi5 с официальным M.2 HAT+ и 1TB SSD скорость чтения диска выросла с 360 МБ/сек до почти 800 МБ/сек, что дало 1.5-2x улучшение в токенах/сек для моделей в swap. Тесты llama.cpp показали результаты для моделей от 0.8B до 122B параметров. Qwen3.5 2B достигла 75.92 ток/сек при обработке промпта, а Qwen3.5 27B Q2_K_M — 0.92 ток/сек при генерации. В комментариях поднимали вопрос про экономию на вентиляторах и успехи с PrismML форком. полные тесты

Источники: LocalLLaMA
Vulkan почти догнал CUDA в llama.cpp

Тесты на модели Qwen3.5 27B Q4 показали, что Vulkan в llama.cpp почти не уступает CUDA по скорости (около 60 TPS) при этом потребляет на 5 ГБ меньше VRAM. Это позволяет запускать дополнительные модели, например, TTS, не выходя за лимиты памяти. В комментариях отмечают, что Vulkan становится спасением для пользователей AMD GPU на Windows, где поддержка multi-GPU в ROCm ограничена сложными требованиями к PCIe. Обсуждение производительности

Источники: LocalLLM
Гайд по лучшим моделям для конкретного железа

Роберт Скоубл собрал список лучших LLM под разное оборудование, который стал предметом обсуждения в сообществе. В комментарии пользователи рекомендуют проверить GLM-4.7-flash на чипах Blackwell, отмечая высокую эффективность. Некоторые участники задаются вопросом о сравнении с инструментом llmfit. Список охватывает различные конфигурации и может быть полезен при выборе модели для локального запуска. Материал доступен на Reddit.

Источники: LocalLLM

Рынок и сделки

Доля Nvidia на рынке Китая упала до 55%

В 2025 году местные китайские компании поставили 1,65 млн ИИ-чипов, тогда как Nvidia — 2,2 млн. Доля американского вендора сократилась с 95% до 55% за пять лет после запрета на экспорт мощных чипов A100, H100 и H200. Правительство КНР стимулирует закупку отечественных решений для получения госфинансирования дата-центров. Основным бенефициаром стал Huawei с 812 тыс. поставленных чипов (20% рынка), также развивают процессоры T-Head, Kunlunxin и Cambricon. Подробнее о ситуации в материале.

Источники: hiaimedia