понедельник, 4 мая 2026 г.
AI Digest: Qwen 3.6 доминирует в бенчмарках, скорость локальных моделей выросла в десятки раз и новые инструменты для агентов
Qwen3.6-35B-A3B показал лучшие результаты в бенчмарке агентных задач на RTX 5060TI 16GB, обойдя конкурентов. Скорость генерации локальных моделей увеличилась в десятки раз благодаря новым оптимизациям. Trooper v3.0 получил circuit breaker и улучшенную наблюдаемость для стабильной работы. Выявлены риски безопасности: злонамеренные роутеры в LLM-агентах и опасное автоматическое выполнение bash-команд. PATY — новый open-source голосовой ассистент с низкой задержкой. LLM Wiki от Карпати позволяет организовать локальный чат с документами.
Бенчмарки и производительность моделей
-
Низкая производительность Qwen 3.6-27B и Gemma 4-31B на M3 Ultra
Пользователь сообщает о медленной работе Qwen 3.6-27B и Gemma 4-31B на Apple M3 Ultra с 96GB унифицированной памятью через OpenClaw. Версии моделей от сообщества MLX работали ещё медленнее в той же конфигурации. Запрашивается информация о том, является ли это ожидаемым поведением для моделей 27B-31B на Apple Silicon с включённым расширенным контекстом. Также интересуют рекомендации по оптимизации и данные о накладных расходах OpenClaw. Тред с обсуждением
Источники: LocalLLM
-
Qwen 3.6 против Gemma 4: бенчмарки против реальных задач
Автор протестировал Vision-модели Qwen 3.6 и Gemma 4 (27B/31B) локально на vLLM с FP8-квантованием. Несмотря на победу Qwen в официальных бенчмарках, Gemma 4 показала лучшие результаты на реальных задачах: распознавание мемов, координаты bounding boxes, GeoGuessr-локации. Qwen 3.6 склонен к «overthinking» — тратит 8000+ токенов на сложные запросы, тогда как Gemma укладывается в 1500. Gemma лучше следует инструкциям по нормализации координат (0–1 вместо 0–1000), а Qwen требует предобработки видео до 2 FPS. Для видео-трекинга Qwen оказался точнее: правильно посчитал повторения в упражнении и оценил вес по толщине блинов. Важный нюанс для Gemma: параметр max_soft_tokens в vLLM по умолчанию занижен (280), увеличение до 1120+ резко повышает точность без заметной задержки. Тесты и репо
Источники: LocalLLM
-
Высокая производительность Qwen3.6 на RTX 3090
Энтузиасты добились производительности свыше 200 TPS для моделей Qwen3.6-27B и 35B-A3B на потребительском оборудовании. На одной видеокарте RTX 3090 с 24GB памяти плотная модель 27B выдает 100 TPS, а система с двумя картами разгоняет её до 226 TPS. Для MoE версии 35B удалось получить 282 TPS с приемлемым временем до первого токена. Автор поделился полными инструкциями по настройке и скриптами запуска для повторения результатов. Обсуждение методики доступно в треде, а гайд по установке находится на сайте.
Источники: LocalLLM
-
Сравнение производительности Qwen3.6-27B и 35B в локальных задачах
Пользователи обсуждают различия между версиями Qwen3.6 на 27 и 35 миллиардов параметров. Несмотря на популярность 27B, часть авторов отмечает преимущество 35B в скорости генерации при сопоставимом качестве на квантовании nvfp4 и fp8. В комментариях указывают, что 27B использует значительно больше параметров для расчета каждого токена, что подтверждается бенчмарками и дает около 10% прироста в задачах компьютерного зрения. Выбор часто сводится к компромиссу: 35B обеспечивает вдвое большую скорость токенов, тогда как 27B предлагает чуть выше точность в сложных пайплайнах. Ранее: Qwen3.6-27B уже демонстрировал 95.7% на SimpleQA с агентным поиском и сравнивался с Qwen3.5 в квантовании NVFP4 на RTX 5090. Тред
Источники: LocalLLaMA
-
Сравнение Qwen3.6 и gpt-oss:120b на Apple Silicon
Автор протестировал три вариации Qwen3.6 и gpt-oss:120b на MacBook Pro M3 Max через Ollama. Лучшую скорость показала версия qwen3.6:35b-a3b-coding-nvfp4 — 6 секунд против 61 секунд у gpt-oss при весе 21 ГБ против 65 ГБ. Выяснилось, что флаг `--think=false` игнорируется моделью gpt-oss, что приводит к выводу рассуждений в stdout, тогда как Qwen отрабатывает корректно. Также подтверждено, что Modelfile overlays не занимают лишнего места на диске благодаря контент-адресуемым слоям. Есть важный нюанс: текстовая версия coding-NVFP4 может галлюцинировать описание изображений при передаче их через API, поэтому нужен контроль на уровне роутинга. Полная методология и скрипты бенчмарка доступны в блоге автора, обсуждение ведется на Reddit.
Источники: ollama
-
Сравнение Qwen3.6-27B и Coder-Next: 20 часов тестов на RTX 6000 Ada
Автор провёл около 20 часов параллельных вычислений на двух RTX 6000 Ada, чтобы сравнить Qwen3.6-27B-thinking и Coder-Next. Модели статистически равны в aggregate: 27B-thinking отработал 30/40 задач, Coder-Next — 25/40. При отключённом thinking 27B показал 95.8% успешных завершений (Wilson 95% [90.5%, 98.2%]). Coder-Next провалил live market-research задачу (0/10 против 8/10 у 27B), но выиграл 10/10 на bounded business-memo задачах с в 60–100 раз меньшей стоимостью за запуск. Тесты на GitHub
Источники: LocalLLaMA
-
Бенчмарк агентных задач на RTX 5060TI 16GB: Qwen3.6-35B-A3B лидирует
Автор создал автоматизированный бенчмарк-сьют на реальных примерах из истории openclaw ботов, тестируя модели по 6 категориям агентных задач. Для RTX 5060TI 16GB с 128k контекстом лучшие результаты показали 2-битные кванты. Qwen3.6-35B-A3B Opus distilled стал лидером — заметное улучшение даже против q5/q6 4-9B моделей, при этом работает быстрее благодаря низкой квантизации. В тесте участвовали Qwen3.6-35B/27B UD-IQ2_M, Qwen3.5-9B/4B NVFP4, GPT-OSS 20B Q3_K_M. Ранее: Qwen3.6-35B-A3B упоминалась в контексте локального запуска на 16GB VRAM через llama.cpp. Результаты тестов
Источники: LocalLLM
-
Эксперимент с Claude Code и моделью Gemma4
Пользователь адаптировал утекший код Claude Code для работы с моделью Gemma4 26B A4B, но результат оказался неудачным. По мнению автора, системные инструкции слишком сложны для этой модели и вызывают ошибки в работе. В обсуждении он спрашивает, удавалось ли кому-то запустить инструмент с другими моделями, или лучше использовать OpenCode. Детали эксперимента и мнения участников собраны в треде.
Источники: LocalLLM
-
Производительность больших моделей в редких языках
Пользователь поделился опытом запуска моделей размером около 100B для работы с чешским языком, отметив, что Gemma 4 31B показывает лучшие результаты несмотря на меньший размер. В комментариях отмечают, что для малых европейских языков Gemma 4 часто обходит даже 100B+ MoE модели вроде Qwen 3.5 122B и Mistral 4 119B. Также упоминается успешный опыт использования Kimi k2.6 и Minimax для нидерландского языка в бухгалтерии. Обсуждение выбора моделей для локальных задач продолжается в треде.
Источники: LocalLLaMA
-
Бенчмарк генерации бэкенда: локальные модели догнали фронтенд
Автор провёл контролируемый бенчмарк function calling для генерации бэкенда с реальным скорингом вместо предыдущего неформального теста. Function calling harness фактически закрыл разрыв между фронтенд и локальными моделями: gpt-5.4 ≈ qwen3.5-35b-a3b по DB/API дизайну, claude-sonnet-4.6 ≈ qwen3.5-27b по логике. Это последний раунд с фронтенд моделями — запуск стал слишком дорогим (~$1000–1500 на модель). Следующие сравнения ограничатся OpenRouter до $0.25/M или моделями для 64GB laptop. В топ рекомендаций вошли gpt-5.4-nano ($0.25/M), qwen3.6-27b ($0.195/M), deepseek-v4-flash ($0.14/M). Полный отчёт на autobe.dev.
Источники: LocalLLM
-
Производительность Mistral Medium 3.5 на AMD Strix Halo
Пользователь протестировал запуск Mistral Medium 3.5 (128B) на процессоре AMD Strix Halo через llama-server. Обработка промпта в 48k токенов плюс 4k токенов размышлений заняла около двух часов, скорость генерации составила 2.1 токена в секунду. В комментариях отмечают, что модель крайне плотная (dense), поэтому показывает низкую скорость даже на оборудовании с высокой пропускной способностью памяти, вроде M3 Ultra или RTX Pro 6000. Детали тестирования и логи работы сервера приведены в отчете.
Источники: LocalLLaMA
Железо для локального инференса
-
Сравнение 10 моделей генерации изображений на M1 Max
Автор протестировал 10 моделей генерации изображений на M1 Max 64GB, оценивая фотореализм, текст и культурную точность. Qwen-Image Lightning превзошел полную версию по качеству при ускорении в 9 раз, а Flux dev стала лучшей локальной моделью для фотореализма, но страдает от англоцентричной предвзятости. В комментариях отмечают, что культурные искажения вроде кинзы в рамене — серьезная проблема для продуктов на не западных рынках. Gemini лучше справляется с иероглифами, но требует облака, тогда как SDXL Turbo генерирует за 5 секунд с потерей качества. Полный обзор
Источники: LocalLLaMA
-
Тестирование драйвера Tinygrad на кластере Blackwell и M3 Ultra
Пользователь запустил тестирование драйвера Tinygrad на гибридном кластере с GPU Blackwell и процессором M3 Ultra, соединенными через RDMA. Конфигурация включает менее 2 ТБ оперативной памяти, что открывает возможности для экспериментов с производительностью MoE-моделей. В обсуждении предлагают протестировать современные компактные модели вроде DS V4 Flash или MiMo V2.5 в сравнении с полными версиями Pro. Такие setups интересны для оценки эффективности распределенных вычислений в локальных условиях. Обсуждение
Источники: LocalLLaMA
-
Ускорение Intel Arc в Linux против Windows
Пользователь добился значительного прироста скорости при запуске локальных моделей на Intel Arc B50 и B580 под Ubuntu вместо Windows. Конфигурация включает Qwen 3.6 27B Q4 в Docker, CPU 5800X и 64 ГБ ОЗУ, при этом карта T600 выведена для вывода изображения. Производительность оказалась существенно выше по сравнению с LM Studio в сети. История успеха.
Источники: LocalLLM
-
Производительность Ollama 30B на M4 Pro
Тестирование модели Qwen3-Coder 30B через Ollama на чипе M4 Pro с 24GB памяти показало стабильную скорость около 48 токенов в секунду. Система потребляла почти всю доступную RAM (~23GB) с использованием swap до 2GB, загрузка GPU достигала 70%. Результаты демонстрируют возможности запуска 30B моделей на потребительском железе Apple Silicon без экстремальных потерь скорости. Ранее: M3 MacBook Air использовался для запуска Qwen 3.5 35B на 16GB через mmap.
Источники: ollama
-
Селф-хостинг на 3× R9700: конфигурация для полуавтономных исследований
Пользователь собрал локальную AI-систему на базе 9950X, 96 ГБ RAM и трёх GPU ASRock/XFX R9700 для запуска Qwen 3.6 27B в квантовании Q8 через llama.cpp с Vulkan-драйверами. Планируется использование нескольких агентов одновременно, каждый на отдельной GPU, с динамическим распределением задач. В комментариях отмечают, что для тензорного параллелизма лучше подходят 2 или 4 GPU, а не 3, и рекомендуют vllm или sglang для автономных задач — это даст кратный прирост throughput. Также советуют рассмотреть HEDT-платформу с 128 линиями PCIe для устранения узких мест. Ранее: в AI Digest от 2026-04-30 упоминалась сборка на двух Radeon AI PRO R9700 для локального ИИ.
Источники: LocalLLaMA
-
Tesla V100 16GB: 95 токенов/сек на GPT-OSS 20B FP16
Продолжаются эксперименты с Tesla V100 16GB для локального запуска LLM. Модель GPT-OSS 20B в FP16 показывает 95 токенов в секунду при контексте более 20 тысяч токенов. Для карты стоимостью около $250 это достойный результат, особенно учитывая возраст архитектуры. Тест полезен для оценки соотношения цена/качество старых серверных GPU в селф-хостинг сценариях. Ранее: в AI Digest от 2026-04-30 упоминалось использование старого майнинг-железа для локальных моделей.
Источники: LocalLLM
-
Выбор железа для локальных LLM: RTX 3090 против Mac Studio и AMD
Пользователь с бюджетом около 2000€ анализирует варианты сборки для локальных LLM в Германии. Основная задача — запуск моделей уровня Qwen 27B/35B, эксперименты с квантованием и контекстом, а не максимальная скорость токенов. В сравнении участвуют RTX 3090 (24GB), Mac Studio M1 Ultra (64-128GB unified), серверные V100 и AMD MI50. Ключевые ограничения — объем VRAM, поддержка экосистемы и стоимость электричества. В комментариях советуют рассмотреть б/у AMD RX 7900 XTX как альтернативу 3090: цена ниже, есть гарантия, а Vulkan бэкенд обеспечивает стабильный инференс. Также отмечают, что схема 2×3090 дает 48GB разделенной памяти, что удобно для параллельных задач, но не равноценно 64GB унифицированной памяти Mac для одиночных больших моделей. Тред
Источники: LocalLLM
Агентные системы: оркестрация и безопасность
-
Безопасность LLM-агентов: проблема злонамеренных роутеров
Исследование 428 LLM API-роутеров показало серьёзные уязвимости в цепочке поставок для AI-агентов: 9 роутеров внедряли вредоносный код в ответы, 17 крали AWS-credentials, один опустошил криптокошелёк. Проблема усугубляется тем, что 401 сессия агентов работала без человеческого одобрения. Рекомендации по защите: валидировать ответы перед выполнением (Guardrails AI), запускать tool execution в песочнице без доступа к сети и файловой системе (AgentOS), вести append-only логирование всех вызовов (OpenTelemetry), требовать человеческого подтверждения для деструктивных действий, установить лимиты расходов ($1–2 за сессию, $5–10 в день). Протокол между провайдером модели и агентом не имеет криптографической целостности, поэтому слепое доверие ответам опасно. Обсуждение
Источники: LocalLLM
-
Оркестрация команд Claude Code через протокол A2A
Проект AON реализует слой коммуникации для Claude Code, используя протокол Agent2Agent (A2A) поверх NATS pub/sub. Система позволяет координировать работу нескольких агентов с ролями Manager, Architect, Implementer и Tester в реальном времени. Через tmux можно отслеживать обсуждение планов между агентами и вмешиваться для корректировки целей или правил. Решение работает нативно с Claude Code и поддерживает локальные воркфлоу через `ollama launch claude`. Исходный код открыт на GitHub, детали реализации обсуждаются в треде.
Источники: ollama
-
Проект Heard добавляет голосовое сопровождение для кодинг-агентов
Разработан инструмент Heard, который озвучивает промежуточный вывод агентов вроде Claude Code или Codex через текст-в-речь. Это позволяет пользователю отвлечься от экрана и слышать статус задачи, ошибки или запросы ввода через аудио. Система поддерживает полностью локальную работу через Kokoro или облачный ElevenLabs, а также имеет профили детализации для фильтрации шума. В режиме swarm несколько агентов могут работать одновременно, где фоновые процессы сообщают только о сбоях. Проект открыт под лицензией Apache 2.0, планируется поддержка Cursor, Aider и кроссплатформенность. Обсуждение
Источники: ollama
-
AgentOpsSec — стек безопасности и наблюдаемости для AI-агентов
Опубликован проект AgentOpsSec, позиционируемый как open-source решение для безопасности и наблюдаемости AI-агентов. Инструмент предназначен для мониторинга и защиты агентных систем. Подробнее в посте.
Источники: LocalLLM
-
Как отлавливать сбои координации в мульти-агентных системах локально
Обсуждение методов обнаружения coordination failures в локальных мульти-агентных настройках: агенты в зацикливании, повторные запросы между агентами, верификаторы, отвергающие всё и вызывающие retries, бесполезные sub-agents. В отличие от API-сценариев, где проблема — неожиданный счёт, локально стоимость проявляется в потраченном GPU-времени. Участники делятся инструментами: Phoenix, Langfuse self-hosted, кастомное логирование или ручное чтение traces. Ранее: обсуждение проблем управления агентными ИИ-системами и патологической самосборки в локальных LLM. Обсуждение
Источники: LocalLLM
-
Снижение расхода токенов в агентной системе через маршрутизацию моделей
Автор системы SpawnVerse оптимизировал работу агентов, внедрив маршрутизацию запросов между разными моделями. Вместо использования одной модели для всех задач, лёгкие операции теперь направляются на меньшие модели, а сложный синтез — на более мощные. Это позволило сократить расход токенов с 20 тысяч до менее 10 тысяч на один запуск при использовании моделей Groq. Решение включает простую систему оценки для выбора маршрута. Подробнее в посте.
Источники: AgentsOfAI
-
upskill: реестр навыков для агентной маршрутизации
Инструмент upskill функционирует как слой маршрутизации для навыков агентов, предотвращая импровизацию при выполнении задач. Перед работой агент обращается к базе из 10 тысяч проверенных плейбуков от Anthropic, OpenAI и других источников, используя гибридный поиск через Postgres и векторные эмбеддинги. Система включает проверку навыков на уязвимости и инъекции, а ранжирование может учитывать локальные переменные окружения без отправки значений на сервер. Детали проекта, репозиторий.
Источники: LocalLLaMA
-
Trooper v3.0: circuit breaker и улучшенная наблюдаемость
Вышла версия 3.0 инструмента Trooper, основанная на фидбеке сообщества. Добавлен circuit breaker: если провайдер падает 3 раза за 60 секунд, система автоматически пропускает его, избегая лишних запросов. Каждый запрос теперь сопровождается понятными логами в терминале, а заголовок X-Trooper-Summary показывает действия инструмента в одной строке. Проект остается без внешних зависимостей и поставляется как единый бинарный файл на Go. Репозиторий и Подробности
Источники: ollama
-
Trooper v3.0: circuit breaker и заголовки для наблюдаемости
Вышла версия 3.0 прокси-сервера Trooper с тремя новыми функциями. Circuit breaker пропускает провайдеров, которые упали 3 раза за 60 секунд, экономя запросы. Логирование показывает точную причину фолбэка в формате `🪖 Fallback: claude → ollama (429) | request preserved`. Каждый ответ включает заголовок `X-Trooper-Summary` для наблюдаемости. Проект остаётся без зависимостей, собирается в один Go-бинарник. Репозиторий на GitHub.
Источники: LocalLLM
-
Риски автоматического выполнения bash-команд через LLM
Автор столкнулся с ошибкой локальной модели, которая сгенерировала некорректные bash-команды с неправильными экранированиями. Попытка модели исправить ошибку включала команду `rm -rf`, что могло привести к потере данных. Запуск осуществлялся в изолированной Proxmox VM, что предотвратило серьезный ущерб. В обсуждении пользователи отмечают опасность подобных инструментов в корпоративной среде, где доступ к продакшену может сочетаться с автогенерацией кода. История инцидента описана в треде.
Источники: LocalLLaMA
Инструменты и инфраструктура для локального ИИ
-
Локальный чат с документами через LLM Wiki от Карпати
Обсуждается возможность локальной работы с документами с использованием материалов LLM Wiki от Андрея Карпати. Решение позволяет обрабатывать документы без отправки данных на внешние серверы, что важно для приватности. Подробности реализации и обсуждения доступны в посте.
Источники: ollama
-
WarpDrive: открытое приложение для запуска llama.cpp с маршрутизацией моделей
Опубликовано open-source приложение WarpDrive для локального запуска LLM с поддержкой параллельной работы нескольких моделей на разных бэкендах. Автор использует Qwen3.6 27b на CUDA и Qwen3.6 35b на унифицированной памяти Strix Halo одновременно. Функции включают MCP.json с вызовом инструментов, маршрутизатор моделей для opencode/claude-code local и экспериментальное KV-cache checkpointing. В посте подробно описана настройка ROCm 7.2 на Strix Halo с Ubuntu 25.10, ядром 6.18 и параметрами GRUB для gfx1151. Критичные флаги запуска llama.cpp: `--no-warmup -fa 1 -dio --no-mmap` — без них возможны segfault. GitHub проекта
Источники: LocalLLaMA
-
Локальный Qwen с Claude Code в роли советника
Инструмент адаптирует паттерн executor/advisor от Anthropic для работы с локальными моделями. Слэш-команда `/local-advisor` запускает основной цикл задач на локальном Qwen через Ollama, а Claude Code подключается только в стратегические моменты через файловый обмен. Такой подход экономит квоты API и сохраняет полную аудируемость действий. Детали и код проекта.
Источники: LocalLLM
-
Калькулятор VRAM для LLM на основе inference engineering
Инструмент для расчёта потребления VRAM при инференсе LLM, построенный на принципах inference engineering. Помогает оценить требования к памяти перед запуском модели локально. Калькулятор
Источники: LocalLLM
-
Qwen 3.6 35B создаёт шаблон налоговой формы 1040 через LM Studio
Энтузиаст протестировал Qwen 3.6 35B A3 Code Imatrix Q4XL GGUF в LM Studio с Python-агентом, написанным через Claude. Агенту поставили задачу создать импорт-модуль и шаблон для налоговой формы 1040 за 2025 год, читая входные поля документа. Запуск длился около часа, модель смогла сгенерировать рабочий шаблон без нарушения авторских прав, что демонстрирует возможности кодовых моделей для автоматизации рутинных задач.
Источники: LocalLLaMA
-
Библиотека для трекинга LLM в React Native приложениях
Для мониторинга использования языковых моделей в мобильных приложениях опубликована библиотека react-native-llm-meter с открытым исходным кодом. Инструмент позволяет отслеживать затраты, задержки и выбор моделей в реальном времени прямо внутри интерфейса приложения на React Native. Ранее обсуждалась потребность в инструментах наблюдения для LLM, которые плохо интегрируются с мобильной разработкой. Обсуждение на Reddit, GitHub.
Источники: LocalLLM
-
Инструмент ollama-launch для удобного выбора моделей
Инструмент `ollama-launch` упрощает переключение между моделями и агентами в Ollama, избавляя от ручного ввода точных названий и тегов. Утилита предлагает интерактивное меню с нечетким поиском (fzf) по базе из 100 топ-моделей, где можно выбрать агента, модель и вариант квантования. Список моделей встроен, поэтому инструмент работает офлайн, а исходный код доступен на GitHub. Подробности установки и обсуждения функционала доступны в посте.
Источники: ollama
-
TinyHarness: легковесная оболочка для локальных моделей
Разработчик поделился проектом TinyHarness — локальной AI-оболочкой с низким потреблением памяти благодаря отказу от Typescript/Javascript. Поддерживается работа с ollama, llama.cpp и vllm, включая доступ к веб-поиску через API ollama. Инструмент не позиционируется как конкурент Pi или Claude Code, автор приглашает к критике для улучшения ежедневного использования. Репозиторий и обсуждение
Источники: ollama
-
Локальный чат с документами на базе LLM Wiki от Карпати
В сообществе обсуждают возможность локальной работы с документами через подход, описанный в LLM Wiki Андрея Карпати. Метод позволяет организовать чат с документами без отправки данных внешним сервисам, что важно для приватности и селф-хостинг сценариев. Детали реализации и инструкции доступны в обсуждении на Reddit.
Источники: LocalLLM
Память и персистентные системы
-
Aura: локальный демон для памяти и верификации действий ИИ
Разработчик создал Aura — локальный демон, который решает проблему потери контекста между сессиями разных ИИ-инструментов. Система обеспечивает постоянную память, верифицирует утверждения агентов (например, создание файлов или установку пакетов) и предоставляет observability для MCP-трафика. Среди функций: сканирование зависимостей, подсчет токенов и режим вики для построения графа знаний на основе документов. Проект находится на стадии v1.0-dev, код открыт и не требует облачных зависимостей. Подробнее
Источники: ollama
-
Open-source cognitive OS с персистентной памятью и 24/7 runtime
Разработчик представил открытую когнитивную операционную систему с персистентной памятью и круглосуточной работой. Система поддерживает подключение собственных моделей, что даёт гибкость в выборе LLM для конкретных задач. Проект находится на ранней стадии, детали архитектуры и возможности интеграции обсуждаются в сообществе. Ранее: в предыдущих выпусках обсуждались Memory MCP и альтернативы MEMORY.md через локальный cognitive memory MCP.
Источники: ollama
-
MDA — система персистентной памяти для LLM с обучением в реальном времени
Автор представил MDA — систему памяти, которая кодирует знания как ассоциативные сети сущностей и обновляется в реальном времени через правило Ойя без бэкпропа и реиндексации. Работает на CPU, модель-агонстик, совместима с Ollama/OpenAI/Anthropic из коробки, доступен как MCP сервер с поддержкой GPU для пакетных задач. Несколько агентов могут использовать один экземпляр MDA и обмениваться знаниями через ассоциативный обход графа концептов. В бенчмарке MDA показал 82,5% точности против 67,5% у RAG (ChromaDB + bge-large), удержание контекста 92% на 200 раундах против 0% у базового решения. Исходный код и детали реализации доступны на GitHub.
Источники: LocalLLaMA
Обучение и файн-тюнинг
-
Датасет для обучения VLM-агентов на локальной инфраструктуре
Разработчики запустили проект ARES01NX для сбора данных траекторий desktop-агентов без использования облачных GPU или венчурного финансирования. Вся инфраструктура работает на собственном оборудовании в стойках, включая кластер Proxmox и туннели cloudflared. В датасет входят реальные сессии Linux/XFCE, скриншоты и трасы действий, которые чище синтетических данных. Сейчас доступен сэмпл за 49 евро, планируется регулярное обновление каждые полгода. Авторы ищут обратную связь по формату траекторий и частоте выгрузок в посте, подробности на сайте.
Источники: ollama
-
Опыт обучения малых моделей от Maxime Labonne
Maxime Labonne из Liquid AI поделился ключевыми инсайтами, полученными при обучении современных малых моделей. В материале рассматриваются практические уроки и нюансы работы с архитектурами меньшего размера. Автор акцентирует внимание на аспектах, важных для эффективности тренировочного процесса. Обсуждение темы доступно в сообществе r/singularity на платформе Reddit. Подробнее с позицией автора можно ознакомиться в оригинальном посте.
Источники: singularity
-
Гайд по файн-тюнингу LLM: от настройки драйверов до GGUF
Опубликовано подробное руководство по файн-тюнингу языковых моделей, охватывающее методы Full-SFT, LoRA и QLoRA. Материал ориентирован на конфигурации с одной GPU NVIDIA и описывает полный цикл: от установки драйверов и библиотек до подготовки датасета и финальной конвертации в GGUF. Ранее: GGUF-версии моделей обсуждались в контексте оптимизации Mistral Medium 3.5 и квантования Unsloth. Автор планирует дополнить гайд инструкциями для Multi-GPU и AMD. Обсуждение на Reddit, полный текст гайда.
Источники: LocalLLaMA
-
Файн-тюнинг Qwen3-32B с сниженным сикофанством
Автор выложил модель Assistant_Pepe_32B на базе Qwen3-32B, ориентированную на более «человечное» общение без типичной помощнической подстройчивости. Основная идея — внедрение негативного байаса для уменьшения сикофанства, что ранее тестировалось на 8B версиях с использованием данных имиджборд. Модель доступна на HuggingFace, где в карточке описаны детали обучения и концепция. В обсуждении пользователи интересуются возможностью квантования и ждут версию на базе Qwen 3.6. Подробнее о файн-тюнинге можно прочитать в источнике.
Источники: LocalLLaMA
-
Гайд по файн-тюнингу LLM: от драйверов до GGUF
Опубликовано подробное руководство по файн-тюнингу моделей, охватывающее методы Full-SFT, LoRA и QLoRA. Материал ориентирован на NVIDIA и одну GPU, описывая процесс от установки драйверов и подготовки датасета до обучения и конвертации в GGUF. Полученные модели можно легко импортировать в Ollama. Автор планирует дополнить гайд поддержкой Multi-GPU, AMD и pre-training в будущем. Гайд и обсуждение
Источники: ollama
Голосовые и мультимодальные решения
-
PATY: open-source голосовой ассистент с низкой задержкой
Представлен PATY — open-source голосовой ассистент, нативно работающий с голосом (не «прикрученный» поверх текстовой модели). Использует SoTA Moonshine для распознавания речи и llama.cpp для генерации ответов, обеспечивая быструю и естественную работу. Требует Mac с 16GB RAM или больше, автор тестирует на MacBook Air 16GB. Проект фокусируется на полировке пользовательского опыта, а не просто на функциональности. Страница проекта
Источники: LocalLLM
-
Сквозной локальный воркфлоу для создания аудио-контента
Автор исследует организацию полного цикла создания контента с помощью локального ИИ. Если генерация скриптов через LLM уже отлажена, то превращение текста в аудио часто остается рутинным процессом с ручным монтажом клипов TTS. Предлагается структура: скрипт → блоки спикеров → назначение голосов → локальная синтезация → таймлайн → экспорт стемов. Основная сложность не в качестве голоса, а в оркестрации: сохранение тайминга, пауз и консистентности спикеров без выхода в облако. Обсуждение рабочих связок локальных LLM и TTS доступно в посте.
Источники: LocalLLM
Технические эксперименты и исследования
-
Реализация TurboQuant: расхождения с данными статьи
Энтузиаст реализовал алгоритм квантования TurboQuant с нуля и столкнулся с расхождениями в результатах. Версия MSE работает ожидаемо, но PROD-версия показала корреляцию 95,8% на 4 битах вместо заявленных 99%. При этом качество внимания заметно деградирует, что подтверждает гипотезу о том, что корреляция не гарантирует сохранение ранжирования. Автор выложил код для проверки масштабирования и упаковки битов, приглашая к обсуждению нюансов квантования KV-кэша. Обсуждение
Источники: LocalLLaMA
-
Трансформер на C++17 с нуля: 0.83M параметров без зависимостей
Разработчик написал полноценную языковую модель в стиле GPT на чистом C++17 без PyTorch, BLAS и библиотек автодифференцирования. Проект Quadtrix.cpp включает ручную реализацию тензорной библиотеки, прямого и обратного прохода с аналитическим выводом градиентов. Обучение на одном ядре CPU заняло 76 минут для модели с 0.83 млн параметров и контекстом 128 символов. Отдельная ветка с портом на LibTorch GPU показывает ускорение в 75 раз на RTX 3080. Репозиторий
Источники: LocalLLaMA
-
MicroGPT Карпати на FPGA разгоняется до 50 000 токенов в секунду
Экспериментальный запуск MicroGPT Андрея Карпати на FPGA достиг скорости 50 000 токенов в секунду, хотя модель содержит всего 4 192 параметра. Высокая производительность объясняется хранением весов во встроенной памяти (ROM), а не во внешней. Авторы отмечают, что текущие FPGA ограничены 20-30 миллионами параметров при 16-битных весах, но развитие проектов вроде Taalas может увеличить доступный объем onboard ROM. В обсуждении упоминают проекты HILOS и Hillinfer, которые используют SmartSSD для оффлоада частей инференса на FPGA, что перспективно для работы с длинным контекстом без огромного объема VRAM. Подробности
Источники: LocalLLaMA
-
Визуализатор архитектуры моделей hfviewer.com
Разработан инструмент hfviewer.com для интерактивного изучения архитектур моделей с Hugging Face. Сервис позволяет вставить ссылку на репозиторий и получить наглядную схему структуры модели, что упрощает сравнение разных версий между собой. Уже доступны визуализации для свежих релизов вроде Qwen3.6-27B и семейства Gemma 4. Пользователи отмечают удобство инструмента, хотя выявили мелкие баги отображения при переключении между вкладками с похожими названиями моделей. Ссылка
Источники: LocalLLaMA
-
Oransim: симулятор контрфактуалов для маркетинга на LLM
Автор опубликовал проект oransim для прогнозирования результатов маркетинговых интервенций до запуска бюджета, вместо ретроспективного анализа. Стек состоит из трех слоев: причинная модель (SCM) для графа креативов и аудитории, процессы Хоукса для учета кластеризации вовлеченности и агентный слой на LLM для оценки креативов через эмбеддинги. Проект доступен под лицензией Apache-2.0 с синтетическим датасетом для тестирования пайплайна. Репозиторий и обсуждение.
Источники: LocalLLM
-
Скорость генерации локальных моделей выросла в десятки раз
Автор сравнивает производительность локального железа за последние два года: если раньше запуск Llama 405B на 1.2 токенов в секунду считался достижением, то теперь те же ресурсы выдают 30–100 токенов в секунду на новых архитектурах. Речь идет о моделях уровня Kimi k2.6, DeepSeekV4Flash и Qwen3.5-397B, которые работают быстрее при меньших затратах. В комментариях уточняют, что рост скорости во многом обусловлен переходом на MoE-архитектуру, тогда как старые плотные модели остались медленными. Тем не менее, доступность мощных инструментов для селф-хостинга значительно улучшилась, что подробно обсуждается в посте.
Источники: LocalLLaMA
-
Как избежать ухудшения ответов при длинных диалогах
Длинные чаты приводят к проблеме context rot — модель путает старые решения с новыми и теряет нить обсуждения. Автор предлагает разбивать работу на несколько чатов, используя краткие сводки (briefs) о статусе и решениях для перехода между ними. Для постоянных проектов рекомендуется хранить общий обзор в Projects или отдельном документе. Такой подход снижает галлюцинации, сохраняет токены и поддерживает ясность ответов. Обсуждение
Источники: AgentsOfAI