четверг, 2 апреля 2026 г.

AI Digest: Железо Mac, уязвимости Linux и новые методы квантования

Видеокарты Nvidia и AMD теперь работают на Mac через Thunderbolt, а исходники Claude Code подверглись утечке с проблемами безопасности. LLM обнаружили критическую уязвимость в ядре Linux с 2003 года, Google показал рост скорости TurboQuant в Ollama. Обсуждается выход Gemma 4, безопасность агентов и лучшие квантования для локальных моделей.

Железо и рабочие станции

Видеокарты Nvidia и AMD теперь работают на современных Mac через USB/Thunderbolt

Tinycorp портировали собственный драйвер для видеокарт Nvidia и AMD на MacOS, который получил одобрение Apple. Теперь можно подключать внешние GPU по USB/Thunderbolt без дополнительных ухищрений — ранее eGPU поддерживались только на Intel-маках. Драйвер пока работает с фреймворком tinygrad, где самая актуальная поддерживаемая модель — Qwen 3. Поддерживаются видеокарты 30 серии Nvidia и новее, а также 7000-й и 9000-й серии AMD. Подробности в официальной документации.

Источники: ai_newz
Опыт использования Strix Halo для локальных LLM: стоит ли сохранять?

Сообщество обсудило опыт использования Strix Halo (128GB RAM) для локальных моделей. Пользователь заметил, что даже с 128GB памяти модели могут работать медленно (5.51 token/s) и делать ошибки в рассуждениях. В комментариях рекомендуют Qwen3-Coder-Next — он быстрее работает на UMA-машинах. Основные преимущества Strix Halo: большой контекст (до 250k токенов) и лучшее качество для моделей >23B.

Источники: LocalLLM
Сборка с 2x RTX 6000 Blackwell: стоит ли апгрейдить CPU?

Пользователь построил систему с Intel i9-13900k, 4x32GB ECC RAM и двумя RTX 6000 Blackwell Max-Q. Из-за нехватки PCIe линий GPU работают на x8 вместо x16. В обсуждении предлагают заменить CPU на i9-10900x с 48 PCIe линиями — это даст x16 для обоих GPU и значительно ускорит P2P tensor parallel в vLLM. Также упоминается необходимость драйверов tinygrad для P2P.

Источники: LocalLLaMA
MacBook Pro 128GB для замены Claude Code

Разработчик рассматривает покупку MacBook Pro с 128 GB RAM для локального запуска моделей вместо подписки на Claude Code. Планируется использовать как основную машину для разработки с несколькими контейнерами и LLM. В комментариях делятся опытом: DeepInfra для тестирования до покупки, Bodega inference engine как замена, Qwen3.5 122B ud q4 xl с 256k контекста на 128 GB RAM с 29 GB свободными. Claude Opus 1m контекста остаётся королём для сложного кода, но open-source модели догоняют. Обсуждение.

Источники: LocalLLM

Модели, квантование и производительность

APEX MoE quantization: 33% ускорение инференса и TurboQuant

Разработчик mudler выпустил APEX — новую технику квантования для MoE моделей, которая работает 2x меньше по размеру и показывает perplexity, сопоставимый с F16. Метод даёт 33% ускорение инференса и 14% ускорение обработки промптов через TurboQuant. Работает с обычным llama.cpp без патчей. Доступны четыре тира для разных GPU: от 12.2 GB до 21.3 GB VRAM. Модели доступны на HuggingFace, метод открыт на GitHub.

Источники: LocalLLaMA
Тестирование Bonsai 1-bit моделей: производительность и практические результаты

Пользователь протестировал модель Bonsai 8B от PrismML на MacBook Pro M4 Max с 48 ГБ памяти и получил впечатляющие результаты. Модель демонстрирует значительно меньшее потребление памяти по сравнению с аналогами вроде Qwen3 VL 8B Instruct Q4_K_M. Важно отметить, что для запуска требуется форк llama.cpp от PrismML-Eng из-за операций 1-битного квантования, хотя официальный форк отстаёт от основного репозитория. Тесты включали чат, суммаризацию документов, вызов инструментов и веб-поиск. Пользователь подтверждает, что это не шуточная модель от April Fools, а реально работающее решение для локального развёртывания. Полная запись

Источники: LocalLLaMA , LocalLLaMA
Скрытые упоминания Gemma-4 в коде AI Studio

В коде AI Studio нашли референсы на модели/gemma-4, что может предвещать скорый релиз. На Kaggle уже доступна страница модели. Сообщество отмечает, что предыдущие Gemma-модели показывают результаты лучше Qwen3.5 27B во многих задачах, кроме кодинга. Reddit-пост содержит скриншоты из кода.

Источники: LocalLLaMA
Darwin-35B-A3B-Opus: модель, превзошедшая родителей благодаря Method MRI

SeaWolf-AI и VIDRAFT_LAB представили модель Darwin-35B-A3B-Opus, созданную методом слияния Qwen3.5-35B-A3B и Claude 4.6 Opus distilled. Новый движок Darwin V5 проводит сканирование слоёв родителей, чтобы перенести сильные стороны логики и сохранить работоспособных экспертов. Модель демонстрирует 90.0% на GPQA Diamond и работает на одном RTX 4090 с лицензией Apache 2.0. Сообщество в комментариях критикует маркетинговые термины вроде Model MRI, но признаёт потенциальную пользу слияния. Обсуждение включает технические детали и реакцию разработчиков.

Источники: LocalLLaMA
Вращение активаций LLaMA улучшает квантование

Разработчик ggerganov добавил в LLaMA вращение активаций для улучшения качества квантования. Это изменение помогает «съедать» выбросы и может сделать квантование K-cache 8 бит доступным для использования. Сообщество выражает ожидание тестов, так как старые методы 8-битного кэша KV часто были слишком разрушительными для рабочих процессов. Пост содержит детали реализации и ссылки на PR.

Источники: LocalLLaMA
Обсуждение лучших uncensored моделей для локального запуска

Пользователи Reddit обсуждают лучшие модели без цензуры для локального использования, выделяя Qwen3.5 Uncensored (HauhauCS). Вопрос касается сравнения качества, логики и удобства использования по сравнению с другими опенсорс-моделями. Запрос предполагает опирается на реальный опыт, а не только на бенчмарки. Вопрос находится в разделе r/ollama.

Источники: ollama
Google TurboQuant показывает рост скорости в Ollama

Пользователь протестировал Google TurboQuant с моделью hermes3:8b в Ollama и отметил значительный прирост скорости генерации. Ответ на один и тот же вопрос занял 5 секунд против 45 секунд при обычном запуске Ollama. Точность результатов пока не сравнена полностью, но производительность впечатлила. Отчёт сопровождается скриншотом и деталями замера.

Источники: ollama
Новые квантования Qwen3.5 на Ollama

В Ollama Library появились новые квантования Qwen3.5 с меткой Coding: 35b-a3b-coding-nvfp4 и 27b-coding-nvfp4. Без метки — стандартные nvfp4 версии. Появились форматы int4, nvfp4, int8, mxfp8, mlx-bf16. Автор не уверен, выпускал ли Alibaba Cloud отдельные код-варианты Qwen3.5. Вопросы о различиях между int8/mxfp8 и int4/nvfp4 остаются открытыми. Вопрос на Ollama subreddit.

Источники: ollama
Какие локальные модели используют чаще всего

В обсуждении r/ollama пользователи делятся своими предпочтениями. Один из активных участников использует Gemma3:12b для большинства задач, а Mistral:7b — для работы на ноутбуке, отмечая высокую скорость и качество ответов. Другой комментер тестирует Qwen3.5:9b на RTX 3080 12GB, но ждёт более быстрой генерации — около 25 секунд на размышление перед выводом. Многие в комментариях указывают Qwen3.5 как текущий фаворит. Обсуждение

Источники: ollama
Чего ждут от выхода Gemma 4

В сообществе r/LocalLLaMA обсуждают ожидания от предстоящего релиза Gemma 4. Комментеры указывают на необходимость снижения предвзятости фильтров, улучшения обработки изображений, поддержки длинного контекста и многопоточных диалогов. Также упоминаются пожелания по производительности, лицензированию и открытости выходов модели. Некоторые отмечают важность меньше стонволалинга при ответах и квантования-aware обучения. Дискуссия

Источники: LocalLLaMA

Безопасность и уязвимости

Утечка исходников Claude Code: что внутри и проблемы безопасности

Сообщество обнаружило утечку исходного кода Claude Code из-за включённых по умолчанию source maps в Bun. Внутри нашли несколько скрытых режимов, включая Undercover Mode для сотрудников и KAIROS для обработки памяти между сессиями. Также выявлены проблемы безопасности: команда `claude mcp get-name` выводит переменные окружения, включая секреты, а сам пакет использует Axios, который был скомпрометирован. Подробнее о хронологии и деталях инцидента.

Источники: ai_for_devs
LLM нашли критическую уязвимость в ядре Linux с 2003 года

Исследователь из Anthropic, Nicolas Carlini, рассказал, как с помощью языковых моделей обнаружил критическую уязвимость в ядре Linux, существовавшую с 2003 года. Инструменты на базе AI уже позволяют находить сотни уязвимостей высокого уровня, включая проблемы в коде опенсурс проектов. В списках рассылки по безопасности наблюдается всплеск: с начала года поступает 5–10 отчётов в день, большинство из которых оказывается рабочим. Доклад раскрывает детали использования AI в поиске багов и влияние на индустрию.

Источники: seeallochnaya
Риски доступа AI-агентов к рабочей среде и решения безопасности

Пользователь столкнулся с последствиями предоставления AI-агенту полного доступа к системе: установка непроверенного навыка привела к проблемам. Традиционные решения вроде ZeroClaw не меняют фундаментальную модель доверия, так как данные остаются доступными. IronClaw предлагает изолированные WASM-контейнеры для инструментов и аппаратно верифицированное выполнение в TEE. История описывает инцидент и альтернативные архитектуры безопасности.

Источники: AgentsOfAI
Безопасность агентов — нужна ли закреплённая тема?

Пользователь предлагает создать закреплённую тему о безопасности и рисках при работе с агентами. Многие начинают с ollama/llama.cpp, но агенты становятся популярнее и доступнее. В обучающих материалах часто не упоминаются меры безопасности. В комментариях сообщество разделилось: одни предлагают создать FAQ по установке Docker и его защите, другие считают, что нужны реальные навыки оценки безопасности, а не просто инструкции. Обсуждение в LocalLLaMA.

Источники: LocalLLaMA
AI-агенты для защиты кода

Агенты защиты могут читать весь код и изменения. Пример: атака на axios (популярная JS-библиотека) добавляла подозрительную зависимость для выгрузки данных из интернета. CEO Cognition (разработчики Devin) заявил, что их агент обнаружил проблему для клиентов за час — за несколько часов до публичных сообщений. Поднимается вопрос о создании фонда для ИИ-защиты популярных библиотек. Телеграм-пост.

Источники: seeallochnaya

Инструменты и AI-агенты

Hugging Face выпустил TRL v1.0 с 75+ методами пост-тренировки

После 6 лет разработки Hugging Face выпустила релиз TRL v1.0 — инструмент для пост-тренировки открытых моделей. Включает более 75 методов, включая SFT, DPO, GRPO и асинхронное RL. Это значительная веха для сообщества, позволяющая развернуть сложные пайплайны обучения без сложных обёрток. Подробнее в Reddit-посте.

Источники: LocalLLaMA
Falcon Perception и Falcon OCR от TII: поддержка llama.cpp в разработке

TII представила Falcon Perception и Falcon OCR через блог HuggingFace. Модели ориентированы на сегментацию изображений и OCR-задачи. Поддержка в llama.cpp находится в разработке — pull request #21045. Сообщество отмечает интерес к модели для задач сегментации на исторических снимках. Коллекция моделей доступна на HuggingFace.

Источники: LocalLLaMA
OpenHarness: открытый SDK для создания обёрток AI-агентов

Разработчик запустил OpenHarness — открытый TypeScript SDK для создания приложений наподобие Claude Code. Библиотека позволяет легко интегрировать провайдеры для bash и файловой системы, включая официальную реализацию нового VFS от Node. Автор использует инструмент для создания внутренних проектов и ищет фидбек от сообщества. Тема содержит подробности о возможностях интеграции.

Источники: AgentsOfAI
Qwen3.5-9b fine-tuned для агентов

Пользователь выложил новую версию Qwen3.5-9b, дообученную для агентов в OpenClaw и AgentScope. Модель основана на Copaw-9B (официальная агентская обвязка от Qwen) с добавлением Opus 4.6 Reasoning. Доступны полные веса и GGUF-квантование. Рекомендуются специфические параметры генерации для работы с агентами. Пост в Reddit содержит детали по использованию.

Источники: LocalLLaMA
Selene — десктопное приложение для команд AI-агентов

Разработчик представил Selene — десктопное приложение на Electron для запуска многоагентных рабочих процессов локально. Проект полностью автономен: использует до 10 провайдеров включая vLLM, Codex и Claude Code через Agent SDK. Встроены системы эмбеддингов всего кода, векторный поиск, файловый вачер, конвейер улучшения промптов. Есть собственный конвейер голосового ввода-вывода (TTS-STT), аналог Super Whisper - WhisperFlow. Репозиторий проекта открыт для контрибуций.

Источники: AgentsOfAI
Калькулятор LLM vram.top

Разработчик выпустил vram.top — инструмент для расчёта требований к VRAM при работе с LLM. В комментариях предложили добавить выбор моделей, ввод размера VRAM и автоматический расчёт ctx size / скрытых слоёв. Также отметили, что в калькуляторе не учитывается KV cache (возможно, учтено в опции 'Include Overhead Buffer', добавляющей ~20% сверху). Инструмент уже доступен. Пост в Reddit.

Источники: LocalLLaMA
Практические сценарии использования Ollama вне чатов

Пользователи r/ollama обсуждают реальные рабочие сценарии: автоматизация извлечения пунктов из протоколов встреч через Llama 3, генерация commit-сообщений из diff через bash-скрипты и поиск багов в коде. Эти задачи выполняются по принципу

Источники: ollama
Turing Grid — 3D-таблица с исполнением кода

Turing Grid представляет собой цифровую эмуляцию машины Тьюринга в виде 3D-пространства, где каждая ячейка может исполнять код. Поддерживаются Python, Rust, Ruby, Node, Swift, Bash и AppleScript. Ячейки можно размещать по координатам (x, y, z), создавать фоновые демоны, соединять в пайплайны, а также связывать ячейки между собой как гиперссылки. История изменений хранит последние 3 версии каждой ячейки. Пост

Источники: AgentsOfAI