понедельник, 20 апреля 2026 г.

AI Digest: Qwen3.6 на M5 Max, уязвимость Venice.ai и бенчмарки на ARM

Qwen3.6-35B-A3B запущен на MacBook Pro M5 Max с оптимизацией под 24 ГБ VRAM через сжатые GGUF-версии от Unsloth. Venice.ai допустила утечку бинарных данных и API-ключей при нестандартном промптинге. llama.cpp показала результаты на Snapdragon X2 Elite для Windows on ARM. Qwen3.5 обошёл Qwen3.6 и Gemma4 в детекции UI-иконок. Появились новые инструменты: Trayce для локального индексирования кода через MCP и Lore 0.2.0 с видимым ходом рассуждений.

Локальный инференс и конфигурации железа

Результаты работы Qwen при сниженном энергопотреблении

В сообществе LocalLLM появились первые данные о работе моделей Qwen при сниженном энергопотреблении. Автор темы опубликовал предварительные результаты соотношения мощности и производительности. Полный отчет с техническими деталями тестирования ожидается отдельно. Эта информация может пригодиться для настройки эффективного селф-хостинга с ограничением потребления энергии. Подробнее с результатами и обсуждением можно ознакомиться в треде.

Источники: LocalLLM
Производительность llama.cpp на Snapdragon X2 Elite: бенчмарки для Windows on ARM

Пользователь протестировал работу llama.cpp на ASUS Zenbook A16 с чипсетом Snapdragon X2 Elite (18 ядер CPU, 48 ГБ унифицированной памяти). Тесты проводились только на CPU — GPU Adreno и NPU Hexagon не удалось задействовать полноценно. Qwen3.6-35B-A3B в квантовании Q4_K_M показал 171 tok/s при prefill и 33 tok/s при генерации, более лёгкие модели вроде Qwen3-4B достигают 248/42 tok/s. Для пользователей Windows on ARM это практичные цифры перед покупкой устройства. Полные результаты и конфигурации в отчёте.

Источники: LocalLLaMA
Qwen3.6-35B на 24 ГБ VRAM: сжатые GGUF-версии от Unsloth

Для владельцев GPU с 24 ГБ видеопамяти появились сжатые версии Qwen3.6-35B-A3B в формате GGUF на HuggingFace от Unsloth. Пользователь протестировал квантование UD-IQ4_XS (17.7 ГБ) на Radeon RX 7900 XTX и получил 60-80 tok/s. По субъективной оценке, модель заметно умнее Qwen 2.5 и 3.5. Это решение позволяет запускать 35B-модель на потребительском железе без необходимости ждать официальных релизов в Ollama. Модели доступны на HuggingFace. Ранее: Qwen 3.6 уже тестировалась в различных квантованиях GGUF на потребительском железе, включая RTX 5060 Ti и M3 Ultra.

Источники: ollama
Использование mismatched GPU: RTX 3090 + RTX 3060 для локальных LLM

Пользователь спрашивает о практическом применении связки RTX 3090 (24GB) и RTX 3060 (12GB) в одной системе. Вопреки опасениям, скорость PCIe-слота влияет в основном на загрузку модели и обработку промпта, а не на саму генерацию. В комментариях делятся опытом: на связке 3090 Ti + 3070 достигается ~110 токенов/сек с полным контекстом 256k на Qwen 3.6 Q4_K_XL. Если модель помещается в VRAM обеих карт, пропускная способность PCIe не становится критичным ограничением. Обсуждение

Источники: LocalLLaMA
Локальный инструмент для перевода субтитров на Intel Arc / OpenVINO

Разработан локальный инструмент для перевода субтитров с поддержкой Intel Arc и OpenVINO. Решение работает полностью offline, что важно для обработки видеоконтента без отправки данных на внешние серверы. Поддержка OpenVINO позволяет эффективно использовать интегрированную графику Intel для инференса. Проект

Источники: LocalLLM
Запуск локальных LLM на Intel Arc B70 с рабочей станцией HP Z640

Пользователь успешно запустил локальные LLM на старой рабочей станции HP Z640 с картой Intel Arc B70. Ключевой момент: карта должна быть подключена к монитору до появления экрана GRUB, иначе система не загрузится. Для инференса используется llama.cpp с SYCL-бэкендом (быстрее Vulkan). Модель Qwen3.6-35B-A3B-UD-Q4_K_XL работает с контекстом ~130k токенов: скорость обработки промпта 282 токена/сек, генерация 11.8 токена/сек. Конфигурация включает flash-attn, кэширование в RAM и специфичные параметры температур. Детали настройки

Источники: LocalLLaMA
Запуск Qwen3.6-35B-A3B на MacBook Pro M5 Max

Автор запускает модель qwen3.6-35b-a3b с 8-битным квантованием и контекстом 64k на MacBook Pro с чипом M5 Max и 128 ГБ памяти через OpenCode. Модель показывает высокую скорость ответа и успешно справляется с длинными исследовательскими задачами, включая множественные вызовы инструментов, например, при отладке сериализации в Android-приложении. Автор считает её подходящей для ежедневной работы вместо Kimi k2.5, отмечая возможность работы без отправки кода внешним провайдерам. Обсуждение Ранее: производительность Qwen3.6 на M5 Max уже тестировалась 2026-04-18 в сравнении с Opus.

Источники: LocalLLaMA

Бенчмарки и сравнения моделей

Бенчмарк детекции UI-иконок: Qwen3.5 обошёл Qwen3.6 и Gemma4

Автор сравнил три модели для задачи распознавания UI-иконок на скриншотах приложений с возвратом bounding box координат. Тестировались Gemma4-31B-it, Qwen3.5-27B и Qwen3.6-35B-A3B через vLLM v0.19.1 с температурой от 0 до 0.9. Dense-модели показали себя лучше MoE: Qwen3.5 занял первое место, Qwen3.6 и Gemma4 оказались заметно слабее. Gemma4 полностью провалилась на скриншоте Cursor IDE, а Qwen3.6 ошибочно обвёл весь экран Photoshop как одну иконку. Детали конфигурации vLLM и примеры в посте.

Источники: LocalLLaMA
Сравнение Haiku 4.5 и Qwen 35B в задачах агентного кодирования

В бенчмарке по реализации интерпретатора Scheme модель Haiku 4.5 стабильно завершала задачи в окне контекста ~55k токенов. Локальные модели Qwen3.6 35B-A3B и Qwen3.5 27B требовали 60-70k токенов, а в 75% случаев не справлялись после 100k токенов независимо от квантования. Тестирование проводилось через opencode и claude code, что вызвало вопросы у автора относительно ожидаемого паритета производительности между Haiku и ~30B моделями. Детали теста

Источники: LocalLLM

Инструменты и платформы для разработчиков

Trayce: локальный индекс кода через MCP

Разработчик рассказал о внедрении инструмента Trayce для автоматизации сбора контекста в проекте. Приложение работает локально, индексирует файлы проекта в граф знаний и использует протокол MCP для подачи данных модели. Это позволяет избегать ручного копирования кода и скринов в чат, экономя время на объяснение задачи ИИ. В описанном случае удалось сэкономить 30 минут на отладке аутентификации, так как модель сразу нашла нужную логику в файлах. Подробности workflow и список инструментов приведены в посте.

Источники: ollama
Lore 0.2.0: видимый ход рассуждений и миграция эмбеддингов

Вышло обновление Lore, open source приложения для локального управления знаниями. В версии 0.2.0 добавлен ThinkingStream для отображения хода рассуждений агента и вызовов инструментов в реальном времени. Реализована недеструктивная миграция эмбеддингов, позволяющая менять модели без потери данных и перестраивать таблицу на лету. Также появился умный подбор моделей под железо и дедупликация данных, исходный код доступен на GitHub. Обсуждение релиза ведется в треде.

Источники: LocalLLaMA

Безопасность и технические проблемы

Venice.ai выдал бинарные данные и возможные API-ключи при нестандартном промптинге

Пользователь экспериментировал с промптами в Venice.ai и столкнулся с необычным поведением модели: при конфликтующих или структурированных запросах система начала выдавать данные, напоминающие сырой бинарный код или hex-строки, включая идентификаторы, похожие на API-ключи. Возник вопрос — это просто галлюцинации модели, имитирующие технический вывод, или реальная утечка внутренних данных системы. Подобные случаи поднимают вопросы безопасности: может ли LLM при определённых условиях раскрыть служебную информацию. Обсуждение и детали эксперимента доступны в посте.

Источники: LocalLLM
Открытый прозрачный прокси для защиты API-ключей в агентах

Опубликован инструмент в виде прозрачного прокси, который предотвращает утечку API-ключей через AI-агенты. Решение перехватывает запросы и фильтрует чувствительные данные перед отправкой внешним сервисам. Полезно для тех, кто использует агентов с доступом к различным API и хочет контролировать утечки учётных данных. Проект

Источники: LocalLLM
Проблемы с бесконечными циклами у Qwen3.6-35B на macOS

При запуске Qwen 3.6 35B A3B 8-bit MLX на M2 Max (96 ГБ RAM) через Pi coding agent наблюдаются бесконечные циклы и преждевременная остановка генерации кода. Несмотря на включенный режим мышления (preserve_thinking=true) и настройку параметров вроде repetition_penalty до 1.2, модель иногда зацикливается или прекращает вывод после обещания написать код. При этом есть успешные кейсы: генерация игры Flappy Bird на HTML/JS с первой попытки и создание SVG-изображений. Тред

Источники: LocalLLM