понедельник, 20 апреля 2026 г.
AI Digest: Qwen3.6 на M5 Max, уязвимость Venice.ai и бенчмарки на ARM
Qwen3.6-35B-A3B запущен на MacBook Pro M5 Max с оптимизацией под 24 ГБ VRAM через сжатые GGUF-версии от Unsloth. Venice.ai допустила утечку бинарных данных и API-ключей при нестандартном промптинге. llama.cpp показала результаты на Snapdragon X2 Elite для Windows on ARM. Qwen3.5 обошёл Qwen3.6 и Gemma4 в детекции UI-иконок. Появились новые инструменты: Trayce для локального индексирования кода через MCP и Lore 0.2.0 с видимым ходом рассуждений.
Локальный инференс и конфигурации железа
-
Результаты работы Qwen при сниженном энергопотреблении
В сообществе LocalLLM появились первые данные о работе моделей Qwen при сниженном энергопотреблении. Автор темы опубликовал предварительные результаты соотношения мощности и производительности. Полный отчет с техническими деталями тестирования ожидается отдельно. Эта информация может пригодиться для настройки эффективного селф-хостинга с ограничением потребления энергии. Подробнее с результатами и обсуждением можно ознакомиться в треде.
Источники: LocalLLM
-
Производительность llama.cpp на Snapdragon X2 Elite: бенчмарки для Windows on ARM
Пользователь протестировал работу llama.cpp на ASUS Zenbook A16 с чипсетом Snapdragon X2 Elite (18 ядер CPU, 48 ГБ унифицированной памяти). Тесты проводились только на CPU — GPU Adreno и NPU Hexagon не удалось задействовать полноценно. Qwen3.6-35B-A3B в квантовании Q4_K_M показал 171 tok/s при prefill и 33 tok/s при генерации, более лёгкие модели вроде Qwen3-4B достигают 248/42 tok/s. Для пользователей Windows on ARM это практичные цифры перед покупкой устройства. Полные результаты и конфигурации в отчёте.
Источники: LocalLLaMA
-
Qwen3.6-35B на 24 ГБ VRAM: сжатые GGUF-версии от Unsloth
Для владельцев GPU с 24 ГБ видеопамяти появились сжатые версии Qwen3.6-35B-A3B в формате GGUF на HuggingFace от Unsloth. Пользователь протестировал квантование UD-IQ4_XS (17.7 ГБ) на Radeon RX 7900 XTX и получил 60-80 tok/s. По субъективной оценке, модель заметно умнее Qwen 2.5 и 3.5. Это решение позволяет запускать 35B-модель на потребительском железе без необходимости ждать официальных релизов в Ollama. Модели доступны на HuggingFace. Ранее: Qwen 3.6 уже тестировалась в различных квантованиях GGUF на потребительском железе, включая RTX 5060 Ti и M3 Ultra.
Источники: ollama
-
Использование mismatched GPU: RTX 3090 + RTX 3060 для локальных LLM
Пользователь спрашивает о практическом применении связки RTX 3090 (24GB) и RTX 3060 (12GB) в одной системе. Вопреки опасениям, скорость PCIe-слота влияет в основном на загрузку модели и обработку промпта, а не на саму генерацию. В комментариях делятся опытом: на связке 3090 Ti + 3070 достигается ~110 токенов/сек с полным контекстом 256k на Qwen 3.6 Q4_K_XL. Если модель помещается в VRAM обеих карт, пропускная способность PCIe не становится критичным ограничением. Обсуждение
Источники: LocalLLaMA
-
Локальный инструмент для перевода субтитров на Intel Arc / OpenVINO
Разработан локальный инструмент для перевода субтитров с поддержкой Intel Arc и OpenVINO. Решение работает полностью offline, что важно для обработки видеоконтента без отправки данных на внешние серверы. Поддержка OpenVINO позволяет эффективно использовать интегрированную графику Intel для инференса. Проект
Источники: LocalLLM
-
Запуск локальных LLM на Intel Arc B70 с рабочей станцией HP Z640
Пользователь успешно запустил локальные LLM на старой рабочей станции HP Z640 с картой Intel Arc B70. Ключевой момент: карта должна быть подключена к монитору до появления экрана GRUB, иначе система не загрузится. Для инференса используется llama.cpp с SYCL-бэкендом (быстрее Vulkan). Модель Qwen3.6-35B-A3B-UD-Q4_K_XL работает с контекстом ~130k токенов: скорость обработки промпта 282 токена/сек, генерация 11.8 токена/сек. Конфигурация включает flash-attn, кэширование в RAM и специфичные параметры температур. Детали настройки
Источники: LocalLLaMA
-
Запуск Qwen3.6-35B-A3B на MacBook Pro M5 Max
Автор запускает модель qwen3.6-35b-a3b с 8-битным квантованием и контекстом 64k на MacBook Pro с чипом M5 Max и 128 ГБ памяти через OpenCode. Модель показывает высокую скорость ответа и успешно справляется с длинными исследовательскими задачами, включая множественные вызовы инструментов, например, при отладке сериализации в Android-приложении. Автор считает её подходящей для ежедневной работы вместо Kimi k2.5, отмечая возможность работы без отправки кода внешним провайдерам. Обсуждение Ранее: производительность Qwen3.6 на M5 Max уже тестировалась 2026-04-18 в сравнении с Opus.
Источники: LocalLLaMA
Бенчмарки и сравнения моделей
-
Бенчмарк детекции UI-иконок: Qwen3.5 обошёл Qwen3.6 и Gemma4
Автор сравнил три модели для задачи распознавания UI-иконок на скриншотах приложений с возвратом bounding box координат. Тестировались Gemma4-31B-it, Qwen3.5-27B и Qwen3.6-35B-A3B через vLLM v0.19.1 с температурой от 0 до 0.9. Dense-модели показали себя лучше MoE: Qwen3.5 занял первое место, Qwen3.6 и Gemma4 оказались заметно слабее. Gemma4 полностью провалилась на скриншоте Cursor IDE, а Qwen3.6 ошибочно обвёл весь экран Photoshop как одну иконку. Детали конфигурации vLLM и примеры в посте.
Источники: LocalLLaMA
-
Сравнение Haiku 4.5 и Qwen 35B в задачах агентного кодирования
В бенчмарке по реализации интерпретатора Scheme модель Haiku 4.5 стабильно завершала задачи в окне контекста ~55k токенов. Локальные модели Qwen3.6 35B-A3B и Qwen3.5 27B требовали 60-70k токенов, а в 75% случаев не справлялись после 100k токенов независимо от квантования. Тестирование проводилось через opencode и claude code, что вызвало вопросы у автора относительно ожидаемого паритета производительности между Haiku и ~30B моделями. Детали теста
Источники: LocalLLM
Инструменты и платформы для разработчиков
-
Trayce: локальный индекс кода через MCP
Разработчик рассказал о внедрении инструмента Trayce для автоматизации сбора контекста в проекте. Приложение работает локально, индексирует файлы проекта в граф знаний и использует протокол MCP для подачи данных модели. Это позволяет избегать ручного копирования кода и скринов в чат, экономя время на объяснение задачи ИИ. В описанном случае удалось сэкономить 30 минут на отладке аутентификации, так как модель сразу нашла нужную логику в файлах. Подробности workflow и список инструментов приведены в посте.
Источники: ollama
-
Lore 0.2.0: видимый ход рассуждений и миграция эмбеддингов
Вышло обновление Lore, open source приложения для локального управления знаниями. В версии 0.2.0 добавлен ThinkingStream для отображения хода рассуждений агента и вызовов инструментов в реальном времени. Реализована недеструктивная миграция эмбеддингов, позволяющая менять модели без потери данных и перестраивать таблицу на лету. Также появился умный подбор моделей под железо и дедупликация данных, исходный код доступен на GitHub. Обсуждение релиза ведется в треде.
Источники: LocalLLaMA
Безопасность и технические проблемы
-
Venice.ai выдал бинарные данные и возможные API-ключи при нестандартном промптинге
Пользователь экспериментировал с промптами в Venice.ai и столкнулся с необычным поведением модели: при конфликтующих или структурированных запросах система начала выдавать данные, напоминающие сырой бинарный код или hex-строки, включая идентификаторы, похожие на API-ключи. Возник вопрос — это просто галлюцинации модели, имитирующие технический вывод, или реальная утечка внутренних данных системы. Подобные случаи поднимают вопросы безопасности: может ли LLM при определённых условиях раскрыть служебную информацию. Обсуждение и детали эксперимента доступны в посте.
Источники: LocalLLM
-
Открытый прозрачный прокси для защиты API-ключей в агентах
Опубликован инструмент в виде прозрачного прокси, который предотвращает утечку API-ключей через AI-агенты. Решение перехватывает запросы и фильтрует чувствительные данные перед отправкой внешним сервисам. Полезно для тех, кто использует агентов с доступом к различным API и хочет контролировать утечки учётных данных. Проект
Источники: LocalLLM
-
Проблемы с бесконечными циклами у Qwen3.6-35B на macOS
При запуске Qwen 3.6 35B A3B 8-bit MLX на M2 Max (96 ГБ RAM) через Pi coding agent наблюдаются бесконечные циклы и преждевременная остановка генерации кода. Несмотря на включенный режим мышления (preserve_thinking=true) и настройку параметров вроде repetition_penalty до 1.2, модель иногда зацикливается или прекращает вывод после обещания написать код. При этом есть успешные кейсы: генерация игры Flappy Bird на HTML/JS с первой попытки и создание SVG-изображений. Тред
Источники: LocalLLM