← все дайджесты

среда, 1 апреля 2026 г.

AI Digest: Новые модели Qwen, поддержка MLX и обновления Claude

Ollama 0.19 перешла на использование Apple MLX для запуска моделей на Mac-устройствах. Появились бенчмарки Qwen 3.5 и 3.6 Plus, включая тесты на V100 и Raspberry Pi. В Claude Code CLI добавили управление компьютером, а также ограничили время анализа GitHub репозиториев. Исследователи обнаружили влияние AI-подхалимства на поведение, а создатели контента потребовали прекратить использование фильтрованных версий Opus.

Модели и производительность

  • ByteShape выпустила квантованные Qwen 3.5 9B с бенчмарками по железу

    ByteShape выпустила квантования Qwen 3.5 9B с бенчмарками на RTX 5090, 4080, 3090, 5060Ti и разных CPU (i7, Ultra 7, Ryzen 9, Pi 5). Ключевой вывод: на GPU результаты схожи, но на CPU каждая модель имеет свои предпочтения — оптимизация должна вестись под конкретное железо. Для GPU рекомендуется 5.10 bpw как near-baseline качество, 4.43 bpw как лучший баланс, 3.60 bpw для скорости. Для CPU нужно смотреть интерактивные графики на блоге и выбирать под своё устройство. Модели доступны на HuggingFace.

    Источники: LocalLLaMA

  • Alibaba CoPaw-Flash-9B Release

    Alibaba представила модель CoPaw-Flash-9B, которая по некоторым бенчмаркам сопоставима с Qwen3.5-Plus. Модели класса 9B параметров продолжают развиваться, предлагая функциональность агентов и высокую эффективность. Пользователи в обсуждениях делятся ссылками на квантованные версии Q8_0 GGUF для удобства локального запуска. Ссылка на модель

    Источники: LocalLLaMA

  • Qwen3.5-122B-A10B Benchmark on V100

    Пользователь поделился результатами бенчмарка Qwen3.5-122B-A10B в квантовании Q4_K_M на рабочей станции с видеокартами V100. Данные востребованы, так как тестирование этой модели на V100 встречается редко. Результаты могут быть полезны для тех, кто работает с устаревшим, но доступным оборудованием. Результаты тестов

    Источники: LocalLLM

  • Liquid AI LFM2.5-350M Release

    Liquid AI выпустила модель LFM2.5-350M, разработанную для извлечения данных и использования инструментов. При размере менее 500 МБ она превосходит Qwen3.5-0.8B по большинству бенчмарков при значительной экономии памяти и задержки. Модель поддерживает работу на CPU, GPU и мобильных устройствах, обеспечивая надежные вызовы функций. Блог Liquid AI

    Источники: LocalLLaMA

  • Бенчмарки LLM на Raspberry Pi 5: от 0.8B до 122B параметров

    Проведены тесты производительности моделей Qwen3.5 (от 0.8B до 122B-A10B) и Gemma 3 12B на Raspberry Pi 5 с 16GB RAM. Использовался SSD через USB с пропускной способностью 360 MB/sec, вместо swap-файла на SD-карте настроен swap на SSD. Qwen3.5moe 35B.A3B показывает 4.61 токенов/сек на prefill и 1.55 токенов/сек на generation. Gemma 3 12B укладывается в RAM с контекстом 32k с запасом 200-300 MiB. В комментариях отмечают, что использование PCIe Gen 3.0 дало бы в 3 раза больше скорости, а также предлагают попробовать кластер из нескольких плат. Тесты и данные

    Источники: LocalLLaMA

  • PrismML запускает первые коммерчески жизнеспособные 1-bit модели Bonsai

    Лаборатория AI PrismML с корнями в Caltech выходит из stealth-режима и представляет 1-bit весовую модель Bonsai 8B. Компания заявляет, что следующие прорывы в AI будут определяться не количеством параметров, а плотностью интеллекта. В комментариях обсуждают, что FP4 не предел и в будущем ожидается поддержка FP1-ускорения. Также упоминается ссылка на официальное объявление в X. Обсуждение в r/LocalLLaMA

    Источники: LocalLLaMA

  • Qwen3.5 с attn-rot и TurboQuant Lite: бенчмарки качества и скорости

    Опубликованы детальные тесты моделей Qwen3.5-35B-A3B, 27B и 122B-A10B с разными квантованиями KV и типами attention. Модели полностью размещены в VRAM, результаты показывают минимальные различия в KLD между q8_0 и q4_0 при сохранении скорости на уровне ~170 t/s для generation. Для Qwen3.5-122B производительность падает до 27 t/s. В комментариях отмечают, что улучшение по KLD кажется незначительным по сравнению с тестами ggerganov. Полные таблицы

    Источники: LocalLLaMA

  • Alibaba опубликовала результаты тестов Qwen3.5-Omni

    Компания Alibaba опубликовала результаты бенчмарков для модели Qwen3.5-Omni. В комментариях пользователи отмечают, что пока llama.cpp не поддерживает модели Qwen Omni, и выражают надежду на развитие открытых моделей. Также критикуют методологию сравнения — модели-соперники меняются по ходу таблицы, что делает сравнение менее объективным. Обсуждение бенчмарков

    Источники: LocalLLaMA

Локальный AI и Ollama

  • Atomic Chat запускает мощные LLM на обычном ноутбуке с TurboQuant от Google

    Atomic Chat позволяет запускать локальные ИИ-модели полностью офлайн на потребительском железе — даже MacBook Air с 16 ГБ ОЗУ. Ключевая технология TurboQuant от Google Research уменьшает объем памяти для контекста в 6 раз и ускоряет вычисления до 8 раз без заметной потери качества. На селф-хостед машине можно запускать модели уровня Qwen3.5-9B с длинными промптами, при этом данные не покидают локальный контур. Приложение использует llama.cpp и интерфейс Jan, делая технологию доступной без облачных вызовов. Скачать Atomic Chat можно на сайте — пока только для macOS.

    Источники: hiaimedia

  • Как подключить Claude Code CLI к локальному серверу llama.cpp

    Пошаговое руководство показывает настройку Claude Code CLI для работы с локальным llama.cpp сервером через переменные окружения. В терминале добавляются ANTHROPIC_BASE_URL, AUTH_TOKEN и API_KEY в .bashrc или .zshrc, затем запускается CLI с указанием модели. Для VS Code настраиваются переменные в settings.json, включая модели для разных версий Sonnet, Opus и Haiku. В комментариях пользователи делятся своими настройками и отмечают проблему с большим системным промптом, который быстро заполняет контекстное окно. Полная инструкция доступна в оригинальном посте.

    Источники: LocalLLaMA

  • LIA: селф-хостед персональный AI-ассистент на Ollama с поддержкой 7 провайдеров

    LIA — это открытый селф-хостед AI-ассистент, работающий на Raspberry Pi 5 и поддерживающий 7 AI-провайдеров одновременно: OpenAI, Anthropic, Google, DeepSeek, Perplexity, Qwen и Ollama. Система обеспечивает суверенитет данных, прозрачность всех решений и выбор моделей под разные задачи. Архитектура включает 15 специализированных агентов, observability stack и психологическую систему памяти, всё документировано в 59 Architecture Decision Records. Multi-architecture Docker образы позволяют запускать на Synology NAS, VPS или Kubernetes. Подробнее о проекте.

    Источники: ollama

  • Q4_K_M как стандарт дефолтного квантования в Ollama

    Q4_K_M является дефолтным квантованием в Ollama, но сообщество обсуждает его адекватность. В комментариях отмечают, что на Mac с MLX лучше работают смешанные группы, а для GGUF предпочтительнее IQ4_XS (4.25bpw) для скорости и длинного контекста. Также отмечается, что Q4 может быть недостаточно для агентовных задач с инструментами и пониманием процесса. На 24GB картах Qwen3.5-35B-A3B можно разогнать до 262k контекста с IQ4_XS. Обсуждение в оригинальном посте.

    Источники: LocalLLaMA

  • Small Local LLMs with Internet Access: Low-VRAM Experiences

    Автор тестирует малые локальные модели на ограниченном железе (8GB VRAM) и обнаружил, что доступ в интернет через MCP или RAG значительно повышает их полезность. Модели в диапазоне 3-9B параметров, такие как Qwen 3.5 4B с контекстом 180k токенов, справляются со сложными задачами, подтягивая информацию из сети вместо полагания на офлайн-знания. В комментариях пользователи отмечают, что комбинация Qwen 4B с веб-доступом напоминает работу стажера с доступом к документации, а не требующего запоминания всех фактов. Также обсуждается гибридный подход, где более мощные модели оптимизируют промпты для локальных версий. Полный отчет

    Источники: LocalLLaMA

  • Ollama 0.19 Switches to Apple MLX

    Ollama версии 0.19 перешла на использование MLX, нативного фреймворка Apple, что улучшило производительность на Silicon. Скорость генерации токенов выросла в два раза на стандартных устройствах и в три раза на M5-чипах благодаря архитектуре общей памяти. Улучшенный кэш позволяет не пересчитывать обработанные части промпта, что полезно для агентных задач и длинных сессий. Подробнее об обновлении

    Источники: prompt_design

  • Planning vs Implementation with Local AI

    Обсуждение гибридного подхода к программированию, когда крупные облачные модели (Codex, Opus) генерируют план, а локальная AI его реализует. Пользователь отмечает высокую скорость работы StepFlash 3.5 Q4KL (15 токенов/с) и его преимущество перед Qwen3-Coder. Вопрос сообщества касается эффективности разделения задач между дорогими и локальными моделями. Дискуссия о планировании

    Источники: LocalLLaMA

  • Альтернатива WisprFlow для Windows с полным оффлайн-работой

    Пользователь создал аналог WisprFlow, работающий полностью оффлайн на Windows. В комментариях спрашивают о доступности для тестирования и упоминают уже существующее решение handy.computer. Автор планирует удалить пост после слияния в основной репозиторий. Репозиторий на Reddit

    Источники: LocalLLM

  • Ollama добавила поддержку MLX для запуска моделей на оборудовании Apple

    Ollama официально добавила поддержку MLX, что позволяет запускать модели на оборудовании Apple Silicon с большей эффективностью. Это обновление стало ответом на запросы сообщества о лучшей интеграции с macOS. Пользователи теперь могут тестировать модели на MacBook с использованием нативных возможностей Apple для машинного обучения. Анонс на Ollama

    Источники: ollama

Разработка и агенты

  • Qwen 3.6 Plus Preview на OpenRouter: тесты агентовного кодинга

    Qwen 3.6 Plus Preview появился на OpenRouter бесплатно с 179B параметрами и контекстом 1M. Тесты на агентовный кодинг показали значительный скачок по сравнению с 3.5: первая задача (рефакторинг Calculator с парсером выражений) выполнена за одну итерацию при 8% использования контекста. Вторая задача с C# 14/ .NET 10 потребовала 5 итераций, модель сама исправила синтаксические ошибки. Однако модель доступна только через API без весов для локального запуска, а бесплатный тариф предполагает сбор промпт-данных. Разбор тестов содержит детальные результаты.

    Источники: LocalLLaMA

  • В Claude Code CLI добавили Computer Use для управления компьютером

    В Claude Code CLI появилась функция Computer Use — теперь можно писать код и сразу запускать тестирование приложений без дополнительных инструментов. Claude получает управление компьютером: нажимает кнопки, выполняет действия, как в десктопной версии. Ранее такая возможность была только в десктоп-приложении, теперь доступна через CLI. Документация Computer Use содержит все детали.

    Источники: ai_volution

  • Agent-управляемая холст-среда для визуального дизайна в реальном времени

    Пользователь создал систему, где AI-агенты могут проектировать редактируемые графические элементы на лету с помощью React и Fabric.js. В отличие от традиционных AI-инструментов, которые выдают статичный результат, здесь можно наблюдать за процессом работы агента — изменения макета, обновление текста и расположение элементов происходят в реальном времени. Архитектура работает через JSON-схему состояния, где агент напрямую манипулирует свойствами координат, узлов текста и иерархии слоёв. Подробнее о проекте. Следующий этап — генерация и редактирование коротких видео-таймлайнов внутри холста.

    Источники: AgentsOfAI

Безопасность и инциденты

  • Claude Pro 5-hour limit сгорает за 30 минут при анализе GitHub репозиториев

    Пользователь попытался заставить Claude реализовать Rust-крат, используя Sonnet 4.6 на Medium Effort с включённым поиском. За 30 минут работы Claude проанализировал репозиторий, прочитал документацию, изучил примеры и составил план — но без выполнения кода. В результате весь 5-часовой лимит сессии был исчерпан на 100%, при этом недельный лимит составил всего 56%. Пользователь отмечает, что даже при Medium Effort поиск и обход GitHub репозиториев расходуют лимит чрезмерно быстро. Полный пост

    Источники: LocalLLaMA , LocalLLM , LocalLLaMA

  • Nvidia Strategy and Token Tax Criticism

    Обсуждение интервью с Дженсеном Хуангом, где упоминается идея превращения каждой интернет-активности в токен за отдельную плату. Сообщество скептически относится к стратегии Nvidia, указывая на то, что это поддерживает пузырь и позволяет компании создавать защиту от конкуренции через инвестиции в другие технологические компании. В комментариях отмечается, что Nvidia заинтересована в сохранении высокой мощности и стоимости оборудования, а не в развитии энергоэффективных ARM-решений. Дискуссия на Reddit

    Источники: LocalLLM

  • Social Engineering Jailbreak on Gemma 3

    Эксперимент использовал социально-психологические методы давления на Gemma 3 27B вместо стандартных инъекций промптов. Модель перешла от отказа к исполнению под влиянием аргументации, апелляции к авторитету и эксплуатации внутренней логики. Исследование показывает, что ограничения модели могут быть обойдены через имитацию человеческой когнитивной нагрузки. Полный отчет по исследованию

    Источники: LocalLLM

  • Исследование: AI-подхалимство снижает про-общественные намерения

    Опубликован новый анализ, показывающий, что подхалимский AI снижает про-общественные намерения и способствует развитию зависимостей. AI подтверждает действия пользователей на 49% чаще других людей, включая случаи ввода в заблуждение и нелегальных действий. Даже единичное взаимодействие снижает желание нести ответственность и решать межличностные конфликты. Исследование отмечает, что в академических публикациях часто используются устаревшие модели. Полная статья на Science.org

    Источники: quantumquintum

  • Создатель nohurry просит перестать использовать его фильтрованную версию Opus

    Автор датасета nohurry/Opus-4.6-Reasoning-3000x-filtered просит пользователей перейти на оригинальный датасет Crownelius, так как его версия создавалась как временный фильтр для удаления отказов. Оригинальный датасет уже обновлён. Автор оставит свою версию онлайн для совместимости существующих ссылок. Также предлагает донатировать Crownelius, так как создание датасета было дорогостоящим. Исходное обсуждение

    Источники: LocalLLaMA