понедельник, 4 мая 2026 г.

AI Digest: Qwen 3.6 доминирует в бенчмарках, скорость локальных моделей выросла в десятки раз и новые инструменты для агентов

Qwen3.6-35B-A3B показал лучшие результаты в бенчмарке агентных задач на RTX 5060TI 16GB, обойдя конкурентов. Скорость генерации локальных моделей увеличилась в десятки раз благодаря новым оптимизациям. Trooper v3.0 получил circuit breaker и улучшенную наблюдаемость для стабильной работы. Выявлены риски безопасности: злонамеренные роутеры в LLM-агентах и опасное автоматическое выполнение bash-команд. PATY — новый open-source голосовой ассистент с низкой задержкой. LLM Wiki от Карпати позволяет организовать локальный чат с документами.

Бенчмарки и производительность моделей

Низкая производительность Qwen 3.6-27B и Gemma 4-31B на M3 Ultra

Пользователь сообщает о медленной работе Qwen 3.6-27B и Gemma 4-31B на Apple M3 Ultra с 96GB унифицированной памятью через OpenClaw. Версии моделей от сообщества MLX работали ещё медленнее в той же конфигурации. Запрашивается информация о том, является ли это ожидаемым поведением для моделей 27B-31B на Apple Silicon с включённым расширенным контекстом. Также интересуют рекомендации по оптимизации и данные о накладных расходах OpenClaw. Тред с обсуждением

Источники: LocalLLM
Qwen 3.6 против Gemma 4: бенчмарки против реальных задач

Автор протестировал Vision-модели Qwen 3.6 и Gemma 4 (27B/31B) локально на vLLM с FP8-квантованием. Несмотря на победу Qwen в официальных бенчмарках, Gemma 4 показала лучшие результаты на реальных задачах: распознавание мемов, координаты bounding boxes, GeoGuessr-локации. Qwen 3.6 склонен к «overthinking» — тратит 8000+ токенов на сложные запросы, тогда как Gemma укладывается в 1500. Gemma лучше следует инструкциям по нормализации координат (0–1 вместо 0–1000), а Qwen требует предобработки видео до 2 FPS. Для видео-трекинга Qwen оказался точнее: правильно посчитал повторения в упражнении и оценил вес по толщине блинов. Важный нюанс для Gemma: параметр max_soft_tokens в vLLM по умолчанию занижен (280), увеличение до 1120+ резко повышает точность без заметной задержки. Тесты и репо

Источники: LocalLLM
Высокая производительность Qwen3.6 на RTX 3090

Энтузиасты добились производительности свыше 200 TPS для моделей Qwen3.6-27B и 35B-A3B на потребительском оборудовании. На одной видеокарте RTX 3090 с 24GB памяти плотная модель 27B выдает 100 TPS, а система с двумя картами разгоняет её до 226 TPS. Для MoE версии 35B удалось получить 282 TPS с приемлемым временем до первого токена. Автор поделился полными инструкциями по настройке и скриптами запуска для повторения результатов. Обсуждение методики доступно в треде, а гайд по установке находится на сайте.

Источники: LocalLLM
Сравнение производительности Qwen3.6-27B и 35B в локальных задачах

Пользователи обсуждают различия между версиями Qwen3.6 на 27 и 35 миллиардов параметров. Несмотря на популярность 27B, часть авторов отмечает преимущество 35B в скорости генерации при сопоставимом качестве на квантовании nvfp4 и fp8. В комментариях указывают, что 27B использует значительно больше параметров для расчета каждого токена, что подтверждается бенчмарками и дает около 10% прироста в задачах компьютерного зрения. Выбор часто сводится к компромиссу: 35B обеспечивает вдвое большую скорость токенов, тогда как 27B предлагает чуть выше точность в сложных пайплайнах. Ранее: Qwen3.6-27B уже демонстрировал 95.7% на SimpleQA с агентным поиском и сравнивался с Qwen3.5 в квантовании NVFP4 на RTX 5090. Тред

Источники: LocalLLaMA
Сравнение Qwen3.6 и gpt-oss:120b на Apple Silicon

Автор протестировал три вариации Qwen3.6 и gpt-oss:120b на MacBook Pro M3 Max через Ollama. Лучшую скорость показала версия qwen3.6:35b-a3b-coding-nvfp4 — 6 секунд против 61 секунд у gpt-oss при весе 21 ГБ против 65 ГБ. Выяснилось, что флаг `--think=false` игнорируется моделью gpt-oss, что приводит к выводу рассуждений в stdout, тогда как Qwen отрабатывает корректно. Также подтверждено, что Modelfile overlays не занимают лишнего места на диске благодаря контент-адресуемым слоям. Есть важный нюанс: текстовая версия coding-NVFP4 может галлюцинировать описание изображений при передаче их через API, поэтому нужен контроль на уровне роутинга. Полная методология и скрипты бенчмарка доступны в блоге автора, обсуждение ведется на Reddit.

Источники: ollama
Сравнение Qwen3.6-27B и Coder-Next: 20 часов тестов на RTX 6000 Ada

Автор провёл около 20 часов параллельных вычислений на двух RTX 6000 Ada, чтобы сравнить Qwen3.6-27B-thinking и Coder-Next. Модели статистически равны в aggregate: 27B-thinking отработал 30/40 задач, Coder-Next — 25/40. При отключённом thinking 27B показал 95.8% успешных завершений (Wilson 95% [90.5%, 98.2%]). Coder-Next провалил live market-research задачу (0/10 против 8/10 у 27B), но выиграл 10/10 на bounded business-memo задачах с в 60–100 раз меньшей стоимостью за запуск. Тесты на GitHub

Источники: LocalLLaMA
Бенчмарк агентных задач на RTX 5060TI 16GB: Qwen3.6-35B-A3B лидирует

Автор создал автоматизированный бенчмарк-сьют на реальных примерах из истории openclaw ботов, тестируя модели по 6 категориям агентных задач. Для RTX 5060TI 16GB с 128k контекстом лучшие результаты показали 2-битные кванты. Qwen3.6-35B-A3B Opus distilled стал лидером — заметное улучшение даже против q5/q6 4-9B моделей, при этом работает быстрее благодаря низкой квантизации. В тесте участвовали Qwen3.6-35B/27B UD-IQ2_M, Qwen3.5-9B/4B NVFP4, GPT-OSS 20B Q3_K_M. Ранее: Qwen3.6-35B-A3B упоминалась в контексте локального запуска на 16GB VRAM через llama.cpp. Результаты тестов

Источники: LocalLLM
Эксперимент с Claude Code и моделью Gemma4

Пользователь адаптировал утекший код Claude Code для работы с моделью Gemma4 26B A4B, но результат оказался неудачным. По мнению автора, системные инструкции слишком сложны для этой модели и вызывают ошибки в работе. В обсуждении он спрашивает, удавалось ли кому-то запустить инструмент с другими моделями, или лучше использовать OpenCode. Детали эксперимента и мнения участников собраны в треде.

Источники: LocalLLM
Производительность больших моделей в редких языках

Пользователь поделился опытом запуска моделей размером около 100B для работы с чешским языком, отметив, что Gemma 4 31B показывает лучшие результаты несмотря на меньший размер. В комментариях отмечают, что для малых европейских языков Gemma 4 часто обходит даже 100B+ MoE модели вроде Qwen 3.5 122B и Mistral 4 119B. Также упоминается успешный опыт использования Kimi k2.6 и Minimax для нидерландского языка в бухгалтерии. Обсуждение выбора моделей для локальных задач продолжается в треде.

Источники: LocalLLaMA
Бенчмарк генерации бэкенда: локальные модели догнали фронтенд

Автор провёл контролируемый бенчмарк function calling для генерации бэкенда с реальным скорингом вместо предыдущего неформального теста. Function calling harness фактически закрыл разрыв между фронтенд и локальными моделями: gpt-5.4 ≈ qwen3.5-35b-a3b по DB/API дизайну, claude-sonnet-4.6 ≈ qwen3.5-27b по логике. Это последний раунд с фронтенд моделями — запуск стал слишком дорогим (~$1000–1500 на модель). Следующие сравнения ограничатся OpenRouter до $0.25/M или моделями для 64GB laptop. В топ рекомендаций вошли gpt-5.4-nano ($0.25/M), qwen3.6-27b ($0.195/M), deepseek-v4-flash ($0.14/M). Полный отчёт на autobe.dev.

Источники: LocalLLM
Производительность Mistral Medium 3.5 на AMD Strix Halo

Пользователь протестировал запуск Mistral Medium 3.5 (128B) на процессоре AMD Strix Halo через llama-server. Обработка промпта в 48k токенов плюс 4k токенов размышлений заняла около двух часов, скорость генерации составила 2.1 токена в секунду. В комментариях отмечают, что модель крайне плотная (dense), поэтому показывает низкую скорость даже на оборудовании с высокой пропускной способностью памяти, вроде M3 Ultra или RTX Pro 6000. Детали тестирования и логи работы сервера приведены в отчете.

Источники: LocalLLaMA

Железо для локального инференса

Сравнение 10 моделей генерации изображений на M1 Max

Автор протестировал 10 моделей генерации изображений на M1 Max 64GB, оценивая фотореализм, текст и культурную точность. Qwen-Image Lightning превзошел полную версию по качеству при ускорении в 9 раз, а Flux dev стала лучшей локальной моделью для фотореализма, но страдает от англоцентричной предвзятости. В комментариях отмечают, что культурные искажения вроде кинзы в рамене — серьезная проблема для продуктов на не западных рынках. Gemini лучше справляется с иероглифами, но требует облака, тогда как SDXL Turbo генерирует за 5 секунд с потерей качества. Полный обзор

Источники: LocalLLaMA
Тестирование драйвера Tinygrad на кластере Blackwell и M3 Ultra

Пользователь запустил тестирование драйвера Tinygrad на гибридном кластере с GPU Blackwell и процессором M3 Ultra, соединенными через RDMA. Конфигурация включает менее 2 ТБ оперативной памяти, что открывает возможности для экспериментов с производительностью MoE-моделей. В обсуждении предлагают протестировать современные компактные модели вроде DS V4 Flash или MiMo V2.5 в сравнении с полными версиями Pro. Такие setups интересны для оценки эффективности распределенных вычислений в локальных условиях. Обсуждение

Источники: LocalLLaMA
Ускорение Intel Arc в Linux против Windows

Пользователь добился значительного прироста скорости при запуске локальных моделей на Intel Arc B50 и B580 под Ubuntu вместо Windows. Конфигурация включает Qwen 3.6 27B Q4 в Docker, CPU 5800X и 64 ГБ ОЗУ, при этом карта T600 выведена для вывода изображения. Производительность оказалась существенно выше по сравнению с LM Studio в сети. История успеха.

Источники: LocalLLM
Производительность Ollama 30B на M4 Pro

Тестирование модели Qwen3-Coder 30B через Ollama на чипе M4 Pro с 24GB памяти показало стабильную скорость около 48 токенов в секунду. Система потребляла почти всю доступную RAM (~23GB) с использованием swap до 2GB, загрузка GPU достигала 70%. Результаты демонстрируют возможности запуска 30B моделей на потребительском железе Apple Silicon без экстремальных потерь скорости. Ранее: M3 MacBook Air использовался для запуска Qwen 3.5 35B на 16GB через mmap.

Источники: ollama
Селф-хостинг на 3× R9700: конфигурация для полуавтономных исследований

Пользователь собрал локальную AI-систему на базе 9950X, 96 ГБ RAM и трёх GPU ASRock/XFX R9700 для запуска Qwen 3.6 27B в квантовании Q8 через llama.cpp с Vulkan-драйверами. Планируется использование нескольких агентов одновременно, каждый на отдельной GPU, с динамическим распределением задач. В комментариях отмечают, что для тензорного параллелизма лучше подходят 2 или 4 GPU, а не 3, и рекомендуют vllm или sglang для автономных задач — это даст кратный прирост throughput. Также советуют рассмотреть HEDT-платформу с 128 линиями PCIe для устранения узких мест. Ранее: в AI Digest от 2026-04-30 упоминалась сборка на двух Radeon AI PRO R9700 для локального ИИ.

Источники: LocalLLaMA
Tesla V100 16GB: 95 токенов/сек на GPT-OSS 20B FP16

Продолжаются эксперименты с Tesla V100 16GB для локального запуска LLM. Модель GPT-OSS 20B в FP16 показывает 95 токенов в секунду при контексте более 20 тысяч токенов. Для карты стоимостью около $250 это достойный результат, особенно учитывая возраст архитектуры. Тест полезен для оценки соотношения цена/качество старых серверных GPU в селф-хостинг сценариях. Ранее: в AI Digest от 2026-04-30 упоминалось использование старого майнинг-железа для локальных моделей.

Источники: LocalLLM
Выбор железа для локальных LLM: RTX 3090 против Mac Studio и AMD

Пользователь с бюджетом около 2000€ анализирует варианты сборки для локальных LLM в Германии. Основная задача — запуск моделей уровня Qwen 27B/35B, эксперименты с квантованием и контекстом, а не максимальная скорость токенов. В сравнении участвуют RTX 3090 (24GB), Mac Studio M1 Ultra (64-128GB unified), серверные V100 и AMD MI50. Ключевые ограничения — объем VRAM, поддержка экосистемы и стоимость электричества. В комментариях советуют рассмотреть б/у AMD RX 7900 XTX как альтернативу 3090: цена ниже, есть гарантия, а Vulkan бэкенд обеспечивает стабильный инференс. Также отмечают, что схема 2×3090 дает 48GB разделенной памяти, что удобно для параллельных задач, но не равноценно 64GB унифицированной памяти Mac для одиночных больших моделей. Тред

Источники: LocalLLM

Агентные системы: оркестрация и безопасность

Безопасность LLM-агентов: проблема злонамеренных роутеров

Исследование 428 LLM API-роутеров показало серьёзные уязвимости в цепочке поставок для AI-агентов: 9 роутеров внедряли вредоносный код в ответы, 17 крали AWS-credentials, один опустошил криптокошелёк. Проблема усугубляется тем, что 401 сессия агентов работала без человеческого одобрения. Рекомендации по защите: валидировать ответы перед выполнением (Guardrails AI), запускать tool execution в песочнице без доступа к сети и файловой системе (AgentOS), вести append-only логирование всех вызовов (OpenTelemetry), требовать человеческого подтверждения для деструктивных действий, установить лимиты расходов ($1–2 за сессию, $5–10 в день). Протокол между провайдером модели и агентом не имеет криптографической целостности, поэтому слепое доверие ответам опасно. Обсуждение

Источники: LocalLLM
Оркестрация команд Claude Code через протокол A2A

Проект AON реализует слой коммуникации для Claude Code, используя протокол Agent2Agent (A2A) поверх NATS pub/sub. Система позволяет координировать работу нескольких агентов с ролями Manager, Architect, Implementer и Tester в реальном времени. Через tmux можно отслеживать обсуждение планов между агентами и вмешиваться для корректировки целей или правил. Решение работает нативно с Claude Code и поддерживает локальные воркфлоу через `ollama launch claude`. Исходный код открыт на GitHub, детали реализации обсуждаются в треде.

Источники: ollama
Проект Heard добавляет голосовое сопровождение для кодинг-агентов

Разработан инструмент Heard, который озвучивает промежуточный вывод агентов вроде Claude Code или Codex через текст-в-речь. Это позволяет пользователю отвлечься от экрана и слышать статус задачи, ошибки или запросы ввода через аудио. Система поддерживает полностью локальную работу через Kokoro или облачный ElevenLabs, а также имеет профили детализации для фильтрации шума. В режиме swarm несколько агентов могут работать одновременно, где фоновые процессы сообщают только о сбоях. Проект открыт под лицензией Apache 2.0, планируется поддержка Cursor, Aider и кроссплатформенность. Обсуждение

Источники: ollama
AgentOpsSec — стек безопасности и наблюдаемости для AI-агентов

Опубликован проект AgentOpsSec, позиционируемый как open-source решение для безопасности и наблюдаемости AI-агентов. Инструмент предназначен для мониторинга и защиты агентных систем. Подробнее в посте.

Источники: LocalLLM
Как отлавливать сбои координации в мульти-агентных системах локально

Обсуждение методов обнаружения coordination failures в локальных мульти-агентных настройках: агенты в зацикливании, повторные запросы между агентами, верификаторы, отвергающие всё и вызывающие retries, бесполезные sub-agents. В отличие от API-сценариев, где проблема — неожиданный счёт, локально стоимость проявляется в потраченном GPU-времени. Участники делятся инструментами: Phoenix, Langfuse self-hosted, кастомное логирование или ручное чтение traces. Ранее: обсуждение проблем управления агентными ИИ-системами и патологической самосборки в локальных LLM. Обсуждение

Источники: LocalLLM
Снижение расхода токенов в агентной системе через маршрутизацию моделей

Автор системы SpawnVerse оптимизировал работу агентов, внедрив маршрутизацию запросов между разными моделями. Вместо использования одной модели для всех задач, лёгкие операции теперь направляются на меньшие модели, а сложный синтез — на более мощные. Это позволило сократить расход токенов с 20 тысяч до менее 10 тысяч на один запуск при использовании моделей Groq. Решение включает простую систему оценки для выбора маршрута. Подробнее в посте.

Источники: AgentsOfAI
upskill: реестр навыков для агентной маршрутизации

Инструмент upskill функционирует как слой маршрутизации для навыков агентов, предотвращая импровизацию при выполнении задач. Перед работой агент обращается к базе из 10 тысяч проверенных плейбуков от Anthropic, OpenAI и других источников, используя гибридный поиск через Postgres и векторные эмбеддинги. Система включает проверку навыков на уязвимости и инъекции, а ранжирование может учитывать локальные переменные окружения без отправки значений на сервер. Детали проекта, репозиторий.

Источники: LocalLLaMA
Trooper v3.0: circuit breaker и улучшенная наблюдаемость

Вышла версия 3.0 инструмента Trooper, основанная на фидбеке сообщества. Добавлен circuit breaker: если провайдер падает 3 раза за 60 секунд, система автоматически пропускает его, избегая лишних запросов. Каждый запрос теперь сопровождается понятными логами в терминале, а заголовок X-Trooper-Summary показывает действия инструмента в одной строке. Проект остается без внешних зависимостей и поставляется как единый бинарный файл на Go. Репозиторий и Подробности

Источники: ollama
Trooper v3.0: circuit breaker и заголовки для наблюдаемости

Вышла версия 3.0 прокси-сервера Trooper с тремя новыми функциями. Circuit breaker пропускает провайдеров, которые упали 3 раза за 60 секунд, экономя запросы. Логирование показывает точную причину фолбэка в формате `🪖 Fallback: claude → ollama (429) | request preserved`. Каждый ответ включает заголовок `X-Trooper-Summary` для наблюдаемости. Проект остаётся без зависимостей, собирается в один Go-бинарник. Репозиторий на GitHub.

Источники: LocalLLM
Риски автоматического выполнения bash-команд через LLM

Автор столкнулся с ошибкой локальной модели, которая сгенерировала некорректные bash-команды с неправильными экранированиями. Попытка модели исправить ошибку включала команду `rm -rf`, что могло привести к потере данных. Запуск осуществлялся в изолированной Proxmox VM, что предотвратило серьезный ущерб. В обсуждении пользователи отмечают опасность подобных инструментов в корпоративной среде, где доступ к продакшену может сочетаться с автогенерацией кода. История инцидента описана в треде.

Источники: LocalLLaMA

Инструменты и инфраструктура для локального ИИ

Локальный чат с документами через LLM Wiki от Карпати

Обсуждается возможность локальной работы с документами с использованием материалов LLM Wiki от Андрея Карпати. Решение позволяет обрабатывать документы без отправки данных на внешние серверы, что важно для приватности. Подробности реализации и обсуждения доступны в посте.

Источники: ollama
WarpDrive: открытое приложение для запуска llama.cpp с маршрутизацией моделей

Опубликовано open-source приложение WarpDrive для локального запуска LLM с поддержкой параллельной работы нескольких моделей на разных бэкендах. Автор использует Qwen3.6 27b на CUDA и Qwen3.6 35b на унифицированной памяти Strix Halo одновременно. Функции включают MCP.json с вызовом инструментов, маршрутизатор моделей для opencode/claude-code local и экспериментальное KV-cache checkpointing. В посте подробно описана настройка ROCm 7.2 на Strix Halo с Ubuntu 25.10, ядром 6.18 и параметрами GRUB для gfx1151. Критичные флаги запуска llama.cpp: `--no-warmup -fa 1 -dio --no-mmap` — без них возможны segfault. GitHub проекта

Источники: LocalLLaMA
Локальный Qwen с Claude Code в роли советника

Инструмент адаптирует паттерн executor/advisor от Anthropic для работы с локальными моделями. Слэш-команда `/local-advisor` запускает основной цикл задач на локальном Qwen через Ollama, а Claude Code подключается только в стратегические моменты через файловый обмен. Такой подход экономит квоты API и сохраняет полную аудируемость действий. Детали и код проекта.

Источники: LocalLLM
Калькулятор VRAM для LLM на основе inference engineering

Инструмент для расчёта потребления VRAM при инференсе LLM, построенный на принципах inference engineering. Помогает оценить требования к памяти перед запуском модели локально. Калькулятор

Источники: LocalLLM
Qwen 3.6 35B создаёт шаблон налоговой формы 1040 через LM Studio

Энтузиаст протестировал Qwen 3.6 35B A3 Code Imatrix Q4XL GGUF в LM Studio с Python-агентом, написанным через Claude. Агенту поставили задачу создать импорт-модуль и шаблон для налоговой формы 1040 за 2025 год, читая входные поля документа. Запуск длился около часа, модель смогла сгенерировать рабочий шаблон без нарушения авторских прав, что демонстрирует возможности кодовых моделей для автоматизации рутинных задач.

Источники: LocalLLaMA
Библиотека для трекинга LLM в React Native приложениях

Для мониторинга использования языковых моделей в мобильных приложениях опубликована библиотека react-native-llm-meter с открытым исходным кодом. Инструмент позволяет отслеживать затраты, задержки и выбор моделей в реальном времени прямо внутри интерфейса приложения на React Native. Ранее обсуждалась потребность в инструментах наблюдения для LLM, которые плохо интегрируются с мобильной разработкой. Обсуждение на Reddit, GitHub.

Источники: LocalLLM
Инструмент ollama-launch для удобного выбора моделей

Инструмент `ollama-launch` упрощает переключение между моделями и агентами в Ollama, избавляя от ручного ввода точных названий и тегов. Утилита предлагает интерактивное меню с нечетким поиском (fzf) по базе из 100 топ-моделей, где можно выбрать агента, модель и вариант квантования. Список моделей встроен, поэтому инструмент работает офлайн, а исходный код доступен на GitHub. Подробности установки и обсуждения функционала доступны в посте.

Источники: ollama
TinyHarness: легковесная оболочка для локальных моделей

Разработчик поделился проектом TinyHarness — локальной AI-оболочкой с низким потреблением памяти благодаря отказу от Typescript/Javascript. Поддерживается работа с ollama, llama.cpp и vllm, включая доступ к веб-поиску через API ollama. Инструмент не позиционируется как конкурент Pi или Claude Code, автор приглашает к критике для улучшения ежедневного использования. Репозиторий и обсуждение

Источники: ollama
Локальный чат с документами на базе LLM Wiki от Карпати

В сообществе обсуждают возможность локальной работы с документами через подход, описанный в LLM Wiki Андрея Карпати. Метод позволяет организовать чат с документами без отправки данных внешним сервисам, что важно для приватности и селф-хостинг сценариев. Детали реализации и инструкции доступны в обсуждении на Reddit.

Источники: LocalLLM

Память и персистентные системы

Aura: локальный демон для памяти и верификации действий ИИ

Разработчик создал Aura — локальный демон, который решает проблему потери контекста между сессиями разных ИИ-инструментов. Система обеспечивает постоянную память, верифицирует утверждения агентов (например, создание файлов или установку пакетов) и предоставляет observability для MCP-трафика. Среди функций: сканирование зависимостей, подсчет токенов и режим вики для построения графа знаний на основе документов. Проект находится на стадии v1.0-dev, код открыт и не требует облачных зависимостей. Подробнее

Источники: ollama
Open-source cognitive OS с персистентной памятью и 24/7 runtime

Разработчик представил открытую когнитивную операционную систему с персистентной памятью и круглосуточной работой. Система поддерживает подключение собственных моделей, что даёт гибкость в выборе LLM для конкретных задач. Проект находится на ранней стадии, детали архитектуры и возможности интеграции обсуждаются в сообществе. Ранее: в предыдущих выпусках обсуждались Memory MCP и альтернативы MEMORY.md через локальный cognitive memory MCP.

Источники: ollama
MDA — система персистентной памяти для LLM с обучением в реальном времени

Автор представил MDA — систему памяти, которая кодирует знания как ассоциативные сети сущностей и обновляется в реальном времени через правило Ойя без бэкпропа и реиндексации. Работает на CPU, модель-агонстик, совместима с Ollama/OpenAI/Anthropic из коробки, доступен как MCP сервер с поддержкой GPU для пакетных задач. Несколько агентов могут использовать один экземпляр MDA и обмениваться знаниями через ассоциативный обход графа концептов. В бенчмарке MDA показал 82,5% точности против 67,5% у RAG (ChromaDB + bge-large), удержание контекста 92% на 200 раундах против 0% у базового решения. Исходный код и детали реализации доступны на GitHub.

Источники: LocalLLaMA

Обучение и файн-тюнинг

Датасет для обучения VLM-агентов на локальной инфраструктуре

Разработчики запустили проект ARES01NX для сбора данных траекторий desktop-агентов без использования облачных GPU или венчурного финансирования. Вся инфраструктура работает на собственном оборудовании в стойках, включая кластер Proxmox и туннели cloudflared. В датасет входят реальные сессии Linux/XFCE, скриншоты и трасы действий, которые чище синтетических данных. Сейчас доступен сэмпл за 49 евро, планируется регулярное обновление каждые полгода. Авторы ищут обратную связь по формату траекторий и частоте выгрузок в посте, подробности на сайте.

Источники: ollama
Опыт обучения малых моделей от Maxime Labonne

Maxime Labonne из Liquid AI поделился ключевыми инсайтами, полученными при обучении современных малых моделей. В материале рассматриваются практические уроки и нюансы работы с архитектурами меньшего размера. Автор акцентирует внимание на аспектах, важных для эффективности тренировочного процесса. Обсуждение темы доступно в сообществе r/singularity на платформе Reddit. Подробнее с позицией автора можно ознакомиться в оригинальном посте.

Источники: singularity
Гайд по файн-тюнингу LLM: от настройки драйверов до GGUF

Опубликовано подробное руководство по файн-тюнингу языковых моделей, охватывающее методы Full-SFT, LoRA и QLoRA. Материал ориентирован на конфигурации с одной GPU NVIDIA и описывает полный цикл: от установки драйверов и библиотек до подготовки датасета и финальной конвертации в GGUF. Ранее: GGUF-версии моделей обсуждались в контексте оптимизации Mistral Medium 3.5 и квантования Unsloth. Автор планирует дополнить гайд инструкциями для Multi-GPU и AMD. Обсуждение на Reddit, полный текст гайда.

Источники: LocalLLaMA
Файн-тюнинг Qwen3-32B с сниженным сикофанством

Автор выложил модель Assistant_Pepe_32B на базе Qwen3-32B, ориентированную на более «человечное» общение без типичной помощнической подстройчивости. Основная идея — внедрение негативного байаса для уменьшения сикофанства, что ранее тестировалось на 8B версиях с использованием данных имиджборд. Модель доступна на HuggingFace, где в карточке описаны детали обучения и концепция. В обсуждении пользователи интересуются возможностью квантования и ждут версию на базе Qwen 3.6. Подробнее о файн-тюнинге можно прочитать в источнике.

Источники: LocalLLaMA
Гайд по файн-тюнингу LLM: от драйверов до GGUF

Опубликовано подробное руководство по файн-тюнингу моделей, охватывающее методы Full-SFT, LoRA и QLoRA. Материал ориентирован на NVIDIA и одну GPU, описывая процесс от установки драйверов и подготовки датасета до обучения и конвертации в GGUF. Полученные модели можно легко импортировать в Ollama. Автор планирует дополнить гайд поддержкой Multi-GPU, AMD и pre-training в будущем. Гайд и обсуждение

Источники: ollama

Голосовые и мультимодальные решения

PATY: open-source голосовой ассистент с низкой задержкой

Представлен PATY — open-source голосовой ассистент, нативно работающий с голосом (не «прикрученный» поверх текстовой модели). Использует SoTA Moonshine для распознавания речи и llama.cpp для генерации ответов, обеспечивая быструю и естественную работу. Требует Mac с 16GB RAM или больше, автор тестирует на MacBook Air 16GB. Проект фокусируется на полировке пользовательского опыта, а не просто на функциональности. Страница проекта

Источники: LocalLLM
Сквозной локальный воркфлоу для создания аудио-контента

Автор исследует организацию полного цикла создания контента с помощью локального ИИ. Если генерация скриптов через LLM уже отлажена, то превращение текста в аудио часто остается рутинным процессом с ручным монтажом клипов TTS. Предлагается структура: скрипт → блоки спикеров → назначение голосов → локальная синтезация → таймлайн → экспорт стемов. Основная сложность не в качестве голоса, а в оркестрации: сохранение тайминга, пауз и консистентности спикеров без выхода в облако. Обсуждение рабочих связок локальных LLM и TTS доступно в посте.

Источники: LocalLLM

Технические эксперименты и исследования

Реализация TurboQuant: расхождения с данными статьи

Энтузиаст реализовал алгоритм квантования TurboQuant с нуля и столкнулся с расхождениями в результатах. Версия MSE работает ожидаемо, но PROD-версия показала корреляцию 95,8% на 4 битах вместо заявленных 99%. При этом качество внимания заметно деградирует, что подтверждает гипотезу о том, что корреляция не гарантирует сохранение ранжирования. Автор выложил код для проверки масштабирования и упаковки битов, приглашая к обсуждению нюансов квантования KV-кэша. Обсуждение

Источники: LocalLLaMA
Трансформер на C++17 с нуля: 0.83M параметров без зависимостей

Разработчик написал полноценную языковую модель в стиле GPT на чистом C++17 без PyTorch, BLAS и библиотек автодифференцирования. Проект Quadtrix.cpp включает ручную реализацию тензорной библиотеки, прямого и обратного прохода с аналитическим выводом градиентов. Обучение на одном ядре CPU заняло 76 минут для модели с 0.83 млн параметров и контекстом 128 символов. Отдельная ветка с портом на LibTorch GPU показывает ускорение в 75 раз на RTX 3080. Репозиторий

Источники: LocalLLaMA
MicroGPT Карпати на FPGA разгоняется до 50 000 токенов в секунду

Экспериментальный запуск MicroGPT Андрея Карпати на FPGA достиг скорости 50 000 токенов в секунду, хотя модель содержит всего 4 192 параметра. Высокая производительность объясняется хранением весов во встроенной памяти (ROM), а не во внешней. Авторы отмечают, что текущие FPGA ограничены 20-30 миллионами параметров при 16-битных весах, но развитие проектов вроде Taalas может увеличить доступный объем onboard ROM. В обсуждении упоминают проекты HILOS и Hillinfer, которые используют SmartSSD для оффлоада частей инференса на FPGA, что перспективно для работы с длинным контекстом без огромного объема VRAM. Подробности

Источники: LocalLLaMA
Визуализатор архитектуры моделей hfviewer.com

Разработан инструмент hfviewer.com для интерактивного изучения архитектур моделей с Hugging Face. Сервис позволяет вставить ссылку на репозиторий и получить наглядную схему структуры модели, что упрощает сравнение разных версий между собой. Уже доступны визуализации для свежих релизов вроде Qwen3.6-27B и семейства Gemma 4. Пользователи отмечают удобство инструмента, хотя выявили мелкие баги отображения при переключении между вкладками с похожими названиями моделей. Ссылка

Источники: LocalLLaMA
Oransim: симулятор контрфактуалов для маркетинга на LLM

Автор опубликовал проект oransim для прогнозирования результатов маркетинговых интервенций до запуска бюджета, вместо ретроспективного анализа. Стек состоит из трех слоев: причинная модель (SCM) для графа креативов и аудитории, процессы Хоукса для учета кластеризации вовлеченности и агентный слой на LLM для оценки креативов через эмбеддинги. Проект доступен под лицензией Apache-2.0 с синтетическим датасетом для тестирования пайплайна. Репозиторий и обсуждение.

Источники: LocalLLM
Скорость генерации локальных моделей выросла в десятки раз

Автор сравнивает производительность локального железа за последние два года: если раньше запуск Llama 405B на 1.2 токенов в секунду считался достижением, то теперь те же ресурсы выдают 30–100 токенов в секунду на новых архитектурах. Речь идет о моделях уровня Kimi k2.6, DeepSeekV4Flash и Qwen3.5-397B, которые работают быстрее при меньших затратах. В комментариях уточняют, что рост скорости во многом обусловлен переходом на MoE-архитектуру, тогда как старые плотные модели остались медленными. Тем не менее, доступность мощных инструментов для селф-хостинга значительно улучшилась, что подробно обсуждается в посте.

Источники: LocalLLaMA
Как избежать ухудшения ответов при длинных диалогах

Длинные чаты приводят к проблеме context rot — модель путает старые решения с новыми и теряет нить обсуждения. Автор предлагает разбивать работу на несколько чатов, используя краткие сводки (briefs) о статусе и решениях для перехода между ними. Для постоянных проектов рекомендуется хранить общий обзор в Projects или отдельном документе. Такой подход снижает галлюцинации, сохраняет токены и поддерживает ясность ответов. Обсуждение

Источники: AgentsOfAI