понедельник, 27 апреля 2026 г.

AI Digest: Qwen 3.6 бьёт рекорды на RTX 5090, маркетплейс агентов Anthropic и скандал с лицензией

Qwen3.6-27B-INT4 достиг 100+ токенов/с с контекстом 256k на одной RTX 5090. Anthropic запустила тестовый маркетплейс для торговли между AI-агентами. Xiaomi открыла веса модели MiMo V2.5 Pro. HauhauCS обвиняется в плагиате Heretic с нарушением лицензии AGPL. Спектральное декодирование на Gemma-4 показывает 130-200 токенов/сек.

Модели и бенчмарки

Qwen 3.6-27B-FP8: 180K токенов без ошибок tool calling

Автор провёл 180K-токенную агентную сессию на Qwen 3.6-27B-FP8 без единой malformed tool call. Ключевые требования: шаблон `qwen3.5-enhanced.jinja` с `preserve_thinking=false`, парсер `qwen3_coder` (не `qwen3_xml` на этой версии), и переменные окружения NCCL для драйвера NVIDIA 595.79, включая `--disable-custom-all-reduce`. Модель самостоятельно разработала веб-приложение на React + Vite + TypeScript с FastAPI бэкендом. Драйвер 595.79 вызывал NCCL deadlocks на смешанных GPU, которые устраняются правильными оверрайдами. Полный гайд

Источники: LocalLLM
Бенчмарк SLM на H100: Gemma 4 против Qwen 3.6

Сравнили производительность Qwen 3.6 27B, 35B A3B и серии Gemma 4 на одном H100 через vLLM 0.19.1. Gemma 4 E2B-it показала 3180 токенов/сек при 16 запросах, что в 14 раз больше, чем у плотной Gemma 4 31B. Время до первого токена у лучшей модели составило 55 мс против 4.1 секунды у аутсайдера. FP8 квантование ускорило Qwen 3.6 35B MoE на 73% по сравнению с BF16, так как снизило трафик весов экспертов. Для чатов с низкой задержкой рекомендуют Gemma 4 E2B-it, а плотные модели 27B и 31B лучше избегать при нагрузке выше 4 пользователей. В комментариях отмечают, что на потребительских видеокартах вроде RTX 4090 пропускная способность будет существенно ниже. Результаты тестов

Источники: LocalLLM
Xiaomi выложила веса модели MiMo V2.5 Pro

Xiaomi опубликовала ссылки на веса новой модели MiMo V2.5 Pro в своих социальных сетях. В обсуждении пользователи хвалят качество генерации текста, ставя модель в один ряд с Opus и Sonnet по части письма и стиля. Некоторые тестировщики отмечают, что модель превосходит K2.6, хотя данные об агентских возможностях пока собираются. Точный размер архитектуры уточняется в сообществе. Источник

Источники: LocalLLaMA
Qwen-Image-2.0-Pro вошел в топ-10 Text-to-Image Arena

Alibaba выпустила новую модель генерации изображений Qwen-Image-2.0-Pro, которая заняла 9 место в мировом рейтинге Text-to-Image Arena. Отмечается значительный рост качества, улучшенная работа с многоязычным текстом и консистентность результатов. Детали релиза и примеры генерации обсуждаются в посте.

Источники: LocalLLM
Квантование Gemini 3.1 Pro до Q3 снизило адекватность модели

Модель Gemini 3.1 Pro была квантована до уровня Q3, что привело к серьезным изменениям в ее работе. После сжатия весов зафиксировано массовое снижение адекватности генерируемых ответов. Столь агрессивное квантование негативно сказывается на логических способностях нейросети. Для задач, требующих высокой точности, такая версия может оказаться непригодной. Результаты тестирования обсуждаются сообществом в соответствующем треде. Подробнее

Источники: LocalLLM
Qwen3.6-27B-INT4: 100+ tps с контекстом 256k на одной RTX 5090

Квантованная версия Qwen3.6-27B от Lorbus достигла 105-108 tps при длине контекста 256k на одной RTX 5090 через vllm 0.19. Модель использует AutoRound-квантование с поддержкой MTP и показывает лучшие метрики KLD по сравнению с NVFP4. Конфигурация включает flashinfer backend, fp8_e4m3 для KV-cache и speculative decoding с 3 токенами. Полный запуск vllm и детали настройки доступны в посте. Ранее: Qwen3.6-27B уже показывал 85-100 tps на RTX 5090 с контекстом 24GB VRAM, но с меньшим контекстом.

Источники: LocalLLaMA
OpenAI выпустила модель Privacy Filter для обнаружения PII

OpenAI открыла веса модели Privacy Filter для детектирования и маскирования персональной информации. Это MoE-архитектура на 1.5B параметров с 50M активными, лицензия Apache 2.0. Модель предназначена для работы с длинными документами, неоднозначными ссылками и смешанными форматами данных. Модель доступна для селф-хостинга, что важно для локальных пайплайнов обработки текста. Модель уже обсуждалась в сообществе несколько дней назад. Ранее: Shield 82M модель для фильтрации PII с точностью ~96% была опубликована ранее.

Источники: LocalLLaMA
MagicQuant v2.0: гибридные GGUF-модели и динамические конфиги Unsloth

Вышла MagicQuant v2.0 — фреймворк для бенчмаркинга GGUF-моделей, который определяет оптимальные конфигурации квантования через анализ поведения тензоров. Система не создаёт новые методы квантования, а сравнивает существующие (llama.cpp, Unsloth Dynamic) и находит гибридные конфигурации с нелинейным выигрышем в соотношении размер/качество. В тестах на Qwen3-4B три гибридные конфигурации превзошли базовые варианты, например MQ-Q5_K_1 показал лучший trade-off между Q4 и Q5. Документация и модели доступны на GitHub и Huggingface. GitHub Wiki, модели

Источники: LocalLLaMA
Спектральное декодирование на Gemma-4-31B + Gemma-4-E2B: 130-200 токенов/сек

Пользователь заменил Vertex API на локальный сетап с Gemma-4-31B (Q6_K_L) и Gemma-4-E2B (Q8_0) для спектрального декодирования. Для атомарных задач вроде извлечения данных и классификации на литовском языке скорость достигла 130-200 токенов/сек при потреблении 31.5 ГБ VRAM на RTX 5090. Качество оказалось выше, чем у Gemini 2.5 Flash-lite, при этом запросы укладываются в 2-6K токенов контекста. В комментариях обсуждают выбор квантов bartowski вместо unsloth и возможность масштабирования контекста до 64K. Пост

Источники: LocalLLaMA

Qwen 3.6: тесты и проблемы

Скорость квантов Qwen 3.6 35B на RTX 3090

Пользователь протестировал различные квантования Qwen 3.6 35B на RTX 3090 через llama.cpp в Linux Arch. Лучшую скорость удалось получить с UD IQ4 квантом — 120-130 токенов в секунду. Эксперименты с Apex compact и tqr3_4Q не дали прироста, хотя последний занимает меньше VRAM. Заметный буст в 10-15 тк/с удалось получить при переключении с общих настроек на код-пресет от Unloth. Обсуждение и результаты тестов в посте.

Источники: LocalLLaMA
Qwen3.6-35B портирует C++ проект на Rust

Автор успешно портировал liboddvoices (аудио-движок, альтернатива Vocaloid) с C++ на Rust используя Qwen3.6-35B-A3B. Модель справилась за ~5 часов работы за 2 вечера, результат звучит практически идентично оригиналу с минорными багами. В сравнении с предыдущими локальными моделями Qwen3.6 показывает качество ближе к облачным моделям, особенно для агентных код-задач. Для работы использовался стек: Ooba's TextGen, Cline + VSCodium, Grounded Docs MCP с KoboldCpp для RAG. Подробный разбор и примеры в посте.

Источники: LocalLLaMA
Qwen3.6 35B-A3B игнорирует роли агента в селф-хостед окружении

Пользователь сообщил о проблеме с моделью Qwen3.6 35B-A3B на M5 Macbook Pro (MLX 8-bit, OMLX). Модель, назначенная на роль «Архитектора», нарушала инструкцию SOUL.md и самостоятельно писала код вместо аудита и передачи задач Claude CLI. В диалоге модель признала нарушение правил и проблемы с конфигурацией ACP, но вопрос предотвращения такого поведения остается открытым. Обсуждение методов контроля агентов доступно в треде.

Источники: LocalLLM
Длительное время мышления у Qwen3.6-27b на MLX

Пользователи сообщают о чрезмерном времени генерации у версии Qwen3.6-27b mxpf8 в окружении MLX (Ollama, OMLX). На создание стихотворения объемом 1000 слов модель затрачивает около 5 минут размышлений при скорости генерации 17-30 токенов в секунду. Возникает вопрос об отключении режима thinking, хотя разработчики не рекомендуют это делать. Технические детали и варианты настройки приведены в треде.

Источники: LocalLLM
Проблемы интеграции Pi Agent и Qwen 3.6 через Ollama

Пользователь столкнулся с трудностями при запуске Pi Agent вместе с моделью Qwen 3.6 (35b) через Ollama на macOS. Если режим планирования работает корректно, то при попытке редактирования файлов агент зацикливается на определении отступов и избегает инструмента записи, несмотря на мощное железо (M4 Max, 64 ГБ RAM). В обсуждении отмечают, что проблема может быть в реализации tool calls внутри Ollama, и рекомендуют переключиться на llama.cpp или попробовать Omlx для стабильной работы. Тред с проблемой.

Источники: ollama
Тестирование Qwen3.6 35b a3b для генерации кода

Пользователь протестировал Qwen3.6 35b a3b на задаче создания particle system через Pi Agent. Модель быстро исправила единственную ошибку ValueError после первого запуска. В комментариях предлагают более сложные задачи — например, 3D file browser в одном HTML-файле с навигацией в стиле Matrix. Обсуждение показывает, что 27b версия кажется медленнее для подобных задач. Пост

Источники: LocalLLaMA
Эксперимент с Qwen3.6-27B и давлением KV-кэша в llama.cpp

Автор протестировал поведение Qwen3.6-27B в llama.cpp при работе с длинным контекстом и ограниченным KV-кэшем. Цель эксперимента — проверить, сохраняют ли ранние факты влияние на генерацию, когда кэш находится под нагрузкой. Сравнение проводилось между режимами с включенным и отключенным механизмом retrieval/recompose. При активном механизме модель лучше восстанавливала целевую информацию, тогда как без него ответы менялись, будто ранние данные игнорировались. Сейчас автор собирает обратную связь по методике, включая вопросы к аблации и воспроизводимости логов. Обсуждение

Источники: LocalLLM
Сравнение квантований INT и NVFP для Qwen3.6 через метрику KLD

Автор сравнил квантования INT и NVFP для Qwen3.6-35B-A3B через метрику KLD в VLLM. Тесты на RTX 6000 показывают, что FP8 уступает INT8 по качеству, что ожидаемо из-за активаций. NVFP4 требует осторожности: версия с 16-битными активациями точнее, но дороже в вычислениях. Репозиторий с изменениями в «горячем пути» VLLM открыт для проверки. Обсуждение

Источники: LocalLLaMA
Что выбрать: больше параметров или выше точность квантования

В сообществе обсуждают дилемму: больше параметров или выше точность квантования при одинаковом размере файла. Например, Qwen3.5 122B в iq2_xxs (36.6 ГБ) против 35B в q8_0 (36.9 ГБ). Основной интерес — задачи кодинга и tool calling. Также затронули тему запуска огромных моделей в 1-бит против меньших моделей с высокой точностью. Тред

Источники: LocalLLaMA
Сравнение квантования Qwen3.6 35B на 8GB VRAM

Пользователь протестировал модель Qwen3.6 35B a3b в конфигурации с 8 ГБ видеопамяти и 32 ГБ ОЗУ. Версия Q4_K_XL от Unsloth показала прирост скорости около 3% по сравнению с Q4_K_M, несмотря на большее потребление памяти. Среднее количество токенов в секунду выросло с 28.92 до 29.78, а время генерации сократилось на 7.5%. Первый запуск занимает больше времени из-за загрузки MoE-слоев с диска, что учтено в реалистичном сценарии использования. В обсуждении отметили, что у XL-версии часть тензоров не квантуется, что объясняет прирост производительности. Обсуждение

Источники: LocalLLaMA
Uncensored-версия Qwen3.6 35B с низким KLD

Автор рекомендует модификацию Qwen 3.6 35B от llmfan46 как лучшую модель без цензуры в этом классе. При квантовании IQ4XS и Q8 KVcache она помещается в 24 ГБ VRAM даже с контекстом 262K токенов. Сообщается о стабильной работе с многошаговыми инструментальными вызовами без сбоев. Низкий показатель KLD (0.0015) указывает на сохранение оригинальных способностей модели на безопасных запросах. В комментариях уточняют, что создатель использовал инструмент Heretic вручную, а предыдущие версии моделей автора уже показывали результаты выше оригинала в бенчмарках. Пост

Источники: LocalLLaMA
Сравнение агентов Qwen2.5 и Qwen3.5 в геополитической симуляции

В эксперименте с движком Doxa Engine протестировали взаимодействие агентов на базе Qwen2.5:7B и Qwen3.5:4B в сценарии конфликта на Ближнем Востоке. Несмотря на более глубокую стратегию и способность к сложным переговорам у версии 3.5, победу одержали агенты на базе 2.5. Они использовали прямую тактику реалполитики и выживали лучше в долгосрочной перспективе после 15 шагов симуляции. Подробности реализации и результаты доступны в отчете.

Источники: ollama
Запуск Qwen 3.6 35B локально с Continue.dev: обход проблем с tool-calling

Пользователь протестировал модель Qwen 3.6 35B локально на Mac Mini через LM Studio с видеокартой Nvidia RTX 3090 в связке с Continue.dev для VS Code. Основная проблема заключалась в том, что модель генерировала некорректный синтаксис для вызова инструментов или уходила в цикл избыточных рассуждений, что приводило к ошибкам парсера. Для решения потребовалось: переопределить системный промпт на строгий формат BEGIN_ARG/END_ARG, запретить модели «рассуждать вслух» и выводить только блок инструмента, а также предварительно создавать директории через run_terminal_command перед записью файлов. Локальный AI-кодинг приближается к уровню Claude 3.5, но интеграция между моделью и IDE всё ещё требует ручной настройки. Обсуждение

Источники: LocalLLM
Qwen 3.6 27B в Claude Code останавливается mid-task без ошибок

Пользователь запустил Qwen/Qwen3.6-27B-FP8 через vLLM с флагами `--enable-auto-tool-choice` и `--tool-call-parser qwen3_xml`. Модель работает в Claude Code, но часто объявляет действие и останавливается, ожидая ввода пользователя — без сообщений об ошибках или проваленных tool call. Иногда это повторяется несколько раз подряд, модель даже комментирует: `"The user replied 'continue'"`. В OpenCode такое поведение не наблюдается. В комментариях предполагают, что проблема может быть в переполнении контекстного окна при tool calls или несовместимости промптов Claude Code с моделью. Тред с деталями конфигурации

Источники: LocalLLaMA

Локальный инференс и железо

runmodel.sh — лаунчер для llama.cpp с пресетами

Скрипт runmodel.sh упрощает запуск llama-server через централизованный JSON-файл конфигурации. Можно задавать несколько пресетов на модель (code, general, agent) с разными параметрами: temperature, top-p, top-k, context size. Требует jq для парсинга models.json и GNU getopt для аргументов командной строки. Поддерживает переопределение глобальных настроек (порт, IP, путь к бинарнику) прямо в скрипте. Документация и примеры использования на GitHub.

Источники: LocalLLM
Селф-хостед сборка на четырёх GPU: 2× 3090 Ti + 2× 3090

Пользователь собрал рабочую станцию для локальных LLM в корпусе Phanteks Enthoo Pro 2 Server Edition с четырьмя GPU: двумя 3090 Ti FE и двумя 3090. Конфигурация успешно прошла пост-тест, температуры остаются в пределах нормы благодаря продуманному расположению карт и воздушному потоку. Сборка выполнена с существенной экономией бюджета по сравнению с готовыми решениями. Пост

Источники: LocalLLaMA
Ускорение инференса на Apple Silicon: переход с llama.cpp на MLX

Автор делится опытом ускорения локального инференса LLM на Apple Silicon путём перехода с llama.cpp на формат MLX. MLX показывает лучшую производительность на чипах Apple благодаря нативной оптимизации под архитектуру. Детали бенчмарков и настройки доступны в обсуждении. Обсуждение

Источники: LocalLLM
Сборка сервера для vLLM на 4× RTX PRO 6000 Max-Q: вопросы по охлаждению

Пользователь планирует собрать сервер для инференса LLM на базе 4× NVIDIA RTX PRO 6000 Blackwell Max-Q (96GB VRAM каждая) и AMD Threadripper PRO 9955WX. Конфигурация предназначена для 10–50 одновременных пользователей с тензорным параллелизмом и периодическим LoRA fine-tuning. Основные вопросы сообщества касаются оптимального объёма системной RAM и температурного режима при плотной установке карт — Puget рекомендует однослотовое расстояние между GPU, но автор стремится максимизировать VRAM. В обсуждении делятся опытом эксплуатации подобных конфигураций под длительной нагрузкой пост.

Источники: LocalLLM
Ollama vision models crashing on RTX 2080 — решение проблемы

Пользователь столкнулся с падением vision-моделей Ollama на RTX 2080 при работе с изображениями — текстовые модели работали нормально, но ввод изображений вызывал HTTP 500 ошибки. Проблема оказалась в конфликте между дискретной GPU и встроенной Intel UHD 610 iGPU, когда Ollama пыталась распределить модель между обоими устройствами. Решение — переключение на Vulkan backend с ограничением видимых устройств. Подробнее

Источники: LocalLLM
Ollama выводит сырые теги вместо нормального ответа

Пользователь сообщает о странном поведении модели qwen3-coder-next:cloud в Ollama — вместо обычных ответов модель выводит сырые теги вроде <|im_start|> и <|im_end|. В обсуждении участники указывают, что проблема скорее всего в modelfile, который используется для запуска модели. Рекомендуется попробовать загрузить другую модель или проверить конфигурацию modelfile. Обсуждение

Источники: ollama
Детальный разбор: как исправить краш vision-моделей Ollama на RTX 2080

Автор провёл пошаговую диагностику проблемы с vision-моделями Ollama на Ubuntu с RTX 2080. Текстовые модели работали, но llava:7b и minicpm-v:8b-2.6-q2_K падали с HTTP 500 при обработке изображений. Тестирование показало, что CPU-only режим работает, а проблема в GPU-пути. Ключевое открытие: Vulkan видел обе GPU (RTX 2080 и Intel UHD 610) и распределял модель между ними, вызывая vk::DeviceLostError. Фикс — systemd override с OLLAMA_LLM_LIBRARY=vulkan и GGML_VK_VISIBLE_DEVICES=0 для ограничения Vulkan только дискретной картой. Полный гайд

Источники: ollama
3D-печатное решение для охлаждения DGX Spark

Пользователь поделился кастомным решением для улучшения охлаждения NVIDIA DGX Spark — 3D-модель добавляет два 40мм вентилятора на сторону забора воздуха. По результатам тестирования температура снизилась примерно на 10 градусов, что помогает избежать троттлинга при длительной нагрузке. Файл для печати доступен бесплатно. Модель на MakerWorld

Источники: LocalLLM
Гайд по NVFP4 для владельцев RTX 5060 Ti 16GB

Опубликован материал для владельцев видеокарт RTX 5060 Ti с 16 ГБ памяти, посвященный работе с форматом NVFP4. Автор описывает рабочие конфигурации и актуальные решения на апрель 2026 года. Гайд может быть полезен при настройке селф-хостинга на данном железе. Пост

Источники: LocalLLM
Министр иностранных дел Сингапура и селф-хостинг Claude на Raspberry Pi

Появилась информация о том, что министр иностранных дел Сингапура использует селф-хостинг Claude на Raspberry Pi. В комментариях уточняют, что это скорее обёртка над enterprise API, а не запуск весов модели локально. Участники дискуссии делятся опытом развёртывания «цифрового мозга» для работы с встречами и документами без перегрузки контекстного окна. Пост

Источники: AgentsOfAI
Смешивание CUDA и Vulkan в гибридной GPU-системе

Пользователь собирает гибридную систему из GPU NVIDIA и AMD для локальных инференсов. Возник вопрос о стабильности смешивания CUDA и Vulkan/ROCm в рамках одной системы. В качестве решения рассматривают запуск нескольких экземпляров llama.cpp вместо попытки объединить всё в один процесс. Сейчас в работе используется Qwen3.6 35B. Детали

Источники: LocalLLM
Бенчмарк: Windows 11 против Lubuntu 26.04 в llama.cpp

Сравнение llama.cpp на Windows 11 и Lubuntu 26.04 показало заметную разницу в производительности на RTX 5080 + i9-14900KF. Генерация токенов быстрее на Linux на 4-8% across the board, но главное преимущество — обработка промптов в гибридном режиме CPU/GPU, где Linux обгоняет Windows на 100-140%. При полном оффлоаде на GPU разница составляет 6-21% в зависимости от модели. Детальные логи и конфигурации запуска в тесте. Ранее: тестирование сборки на 2x RTX 6000 и выбор материнской платы для локальных LLM уже обсуждались в предыдущих дайджестах.

Источники: LocalLLaMA
multislot в llama.cpp: стоит ли включать параллелизм

Обсуждение эффективности --parallel > 1 в llama.cpp показало смешанные результаты. В комментариях отмечают, что multislot часто уменьшает эффективный размер контекста и не даёт линейного масштабирования — в отличие от vLLM, где 4 слота дают 400 tps против 150 tps на одном. Однако для параллельной обработки файлов (например, OCR через VLM) зафиксирован прирост +30%. Для одиночных запросов большинство пользователей рекомендуют оставлять -np 1. Обсуждение

Источники: LocalLLaMA
Разработчик ik_llama.cpp ищет волонтеров для Vulkan бэкенда

Автор проекта ik_llama.cpp сообщил, что не успевает поддерживать Vulkan бэкенд в одиночку, и ищет опытных волонтеров для помощи. Проект хорошо работает на CPU и CUDA, но для развития Vulkan требуется портирование недостающих операций и реализация графовой параллелизации. Потенциальным мейнтейнерам нужно разбираться в Vulkan лучше автора, чтобы избежать проблем с поддержкой кода в будущем. Обсуждение

Источники: LocalLLaMA
Сбои в работе GLM 5.1 после обновления Ollama Cloud

Пользователь тарифа Ollama Cloud Pro заметил ухудшение качества работы модели Z.AI GLM 5.1 спустя несколько часов после подписки. Скорость ответа выросла, но появились ошибки формата: модель смешивает теги, прерывает редактирование и ошибочно завершает задачу без внесения изменений. Ранее модель стабильно справлялась с задачами по кодингу, поэтому текущее поведение выглядит как регресс после недавних изменений. Тред

Источники: ollama
Экспериментальная поддержка DeepSeek v4 Flash в llama.cpp

Появился экспериментальный форк llama.cpp с поддержкой DeepSeek v4 Flash, для запуска требуется около 128 ГБ ОЗУ. Автор использовал квантование routed experts до 2 бит при сохранении остальной части модели в Q8, что позволило достичь 21 токена в секунду на MacBook M3 Max. По субъективным ощущениям, даже в таком сжатом виде модель превосходит Qwen 3.6 27B, хотя требуются дополнительные бенчмарки. Исправлены ошибки сборки и работы с длинным контекстом, файлы GGUF уже доступны. Источник.

Источники: LocalLLaMA
Проблемы с потреблением токенов у GLM 5.1 в Ollama

Пользователь сообщил о необычном поведении GLM 5.1 в Ollama: модель зависала более чем на час, потребляя 42 тысячи токенов без видимой активности. При этом индикатор использования показывал 30%, хотя обычно модель эффективно справляется с рутинными задачами и инвентаризацией. Наблюдается корреляция между скоростью генерации и расходом токенов, что вызывает вопросы к эффективности рассуждений в определенных сценариях. Обсуждение проблемы и логи использования в треде.

Источники: ollama
Локальная LLM на Framework Desktop с AMD Ryzen AI Max для отладки ядра Linux

Новый AI-бот для выявления багов в ядре Linux работает на локальной LLM, развёрнутой на Framework Desktop с процессором AMD Ryzen AI Max. Это демонстрирует возможность использования селф-хостед моделей для задач системного программирования и отладки низкоуровневого кода без отправки данных в облако. Подход особенно интересен для разработчиков, работающих с чувствительными проектами вроде ядра ОС. Пост

Источники: LocalLLM
Снижение скорости генерации при росте контекста в llama.cpp

Пользователь использует llama.cpp с Vulkan на MI50 и V100, скорость падает с 30-80 t/s до значительно меньших значений по мере роста контекста. В комментариях объясняют, что это неизбежно: больше токенов — больше вычислений. Для ускорения предлагают ngram-mod speculative decoding, если модель часто повторяет уже сказанное. Самое эффективное решение — slot save/restore в llama.cpp: сохранение KV cache на диск позволяет избежать повторного префиллинга истории каждый ход. Это убирает квадратичную задержку prefill, хотя decode всё равно замедляется с ростом контекста. Альтернативы вроде RAG или суммаризации лишь откладывают проблему. Обсуждение оптимизаций

Источники: LocalLLaMA

Агентные системы и инструменты

Browser Harness: 592 строк для автономных веб-задач

Проект Browser Harness (v3.0.0-alpha) даёт LLM прямой доступ к Chrome через DevTools Protocol без Puppeteer или Playwright. При столкновении с непредвиденными состояниями (модальные окна, CAPTCHA) агент сам пишет JavaScript для обхода проблемы и модифицирует helpers.py на лету. В тестах gpt-5.5 выполнил задачу за 18 секунд с расходом ~45k входных токенов, Claude 4.6 потребовал 22 секунды на первый прогон, но последующие упали до 8 секунд благодаря системным правкам. Локальный Qwen-2.5 72B справился с протоколом, но допустил ошибки при переписывании Python-кода. Исходный код и данные тестов в репозитории.

Источники: LocalLLM
tracecraft: CLI для координации AI-агентов через S3

Разработан CLI-инструмент tracecraft, который превращает любой S3-совместимый бакет в слой координации для AI-агентов. Агенты обмениваются сообщениями, делятся памятью и артефактами через файлы в бакете — без серверов и баз данных. Инструмент протестирован с Claude Code, OpenAI Codex и NousResearch Hermes Agent; в демо три агента обменялись 36 сообщениями без участия человека. Поддерживает MinIO, AWS S3, Cloudflare R2 и HuggingFace Buckets, 569 строк Python, лицензия MIT. GitHub

Источники: LocalLLM
Персональный RAG для Ollama на основе истории браузера

Для персонального RAG в Ollama предлагают использовать не экспорты чатов или PDF, а данные браузера. Профиль Chromium хранит таблицу автозаполнения и базу истории с адресами, логинами и посещаемыми доменами вместе с метками времени. Если применить `nomic-embed-text` к этим данным, локальная модель получит актуальную информацию о пользователе без лишнего скрейпинга. Важно помнить, что Chrome блокирует файл Web Data во время работы, поэтому его нужно скопировать во временную папку перед обработкой. Подробнее

Источники: ollama
LLM Wiki в стиле Карпати на стеке Ollama и Obsidian

Обсуждают проект по созданию базы знаний в стиле Андрея Карпати с использованием локальных инструментов. Стек включает Ollama для запуска моделей, Langchain для управления цепочками и Obsidian для хранения заметок. Такое решение позволяет организовать персональную вики с поддержкой семантического поиска по материалам. Тред

Источники: ollama
WaTale: движок для визуальных новелл на локальных моделях

Вышло приложение WaTale для создания интерактивных визуальных новелл с использованием локального ИИ. Стек технологий включает Ollama для текста, Stable Diffusion 1.5 для изображений и Kokoro ONNX для синтеза речи, что обеспечивает полную приватность данных без обязательного обращения к облаку. Движок поддерживает генерацию в реальном времени, параллакс-фон, анимацию спрайтов и липсинк, позволяя пользователям создавать ветвящиеся сюжеты и мини-игры. Проект находится на стадии раннего превью, поэтому возможны ошибки, но архитектура позволяет экспортировать истории и настраивать автономное взаимодействие персонажей. Подробнее в посте.

Источники: ollama
Инструменты для кодирования на 1B–4B моделях без мощной GPU

Автор разработал набор инструментов для работы с малыми моделями (1B–4B параметров), когда нет доступа к GPU для запуска 14B+ моделей. Решение ориентировано на human-directed подходы — инструменты, которые эффективно работают в ограничениях локального железа. Детали реализации и конкретные приёмы обсуждаются в посте.

Источники: LocalLLM
MCP-воркфлоу для локальных LLM: масштабирование и мониторинг

Пользователь делится опытом построения локальных LLM-воркфлоу на базе Model Context Protocol (MCP) с экспортом метрик в Grafana. Архитектура включает цикл intent → выбор инструмента → выполнение → ответ, с логированием вызовов, задержек и повторных попыток. Акцент сделан на воспроизводимость процессов и поддержку многопользовательской нагрузки, а не просто чат-интерфейс. В обсуждении ищут паттерны для обработки ошибок и трассировки в масштабных MCP-сетапах обсуждение.

Источники: LocalLLM
Офлайн-навигация с локальной LLM: OpenStreetMap + OSRM

Автор собрал простую систему навигации без зависимости от облачных API, комбинируя OpenStreetMap, движок маршрутизации OSRM и локальную LLM для обработки естественного языка. Система преобразует команды вроде «отвези меня в ближайшую больницу» в структурированный запрос → генерацию маршрута → навигацию, всё работает локально. Решение подходит для edge-сценариев и мест с плохим соединением, LLM выступает интерфейсом между человеческим намерением и логикой навигации пост.

Источники: LocalLLM
Open-source инструмент для оценки навыков агентов

Разработан локальный eval harness для проверки Agent Skills — тестирует срабатывание навыков, валидирует поведение против ожиданий, сравнивает запуски с навыком и без. Инструмент генерирует HTML-отчёты с метриками uplift и использованием токенов, запускает несколько trials для исключения случайных успехов. Сейчас реализация ориентирована на Gemini CLI, но автор планирует сделать подход портативным. Основная цель — понять, действительно ли навык помогает агенту и какова его стоимость. Детали

Источники: AgentsOfAI
Как измерять ROI от AI-агентов кроме экономии времени

В сообществе обсуждают, как оценивать реальную отдачу от агентов beyond productivity metrics. Участники предлагают отслеживать: уменьшение handoffs между командами, снижение error rate в рутинных задачах, ускорение итераций spec→implementation→test, создание reusable assets (скрипты, чеклисты, датасеты). Ключевой вопрос — исчезнет ли целая возможность, если выключить агента завтра, или он просто ускоряет существующие процессы. Важно учитывать «agent tax» на тулинг, evals и фиксы. Обсуждение

Источники: AgentsOfAI
Двухуровневая система AI-агента для найма в 5 локациях

Автор построил AI-систему для планирования собеседований через SMS с интеграцией в iCloud Calendar. Архитектура двухуровневая: Tactical Caller (9B модель на RTX 5080) обрабатывает звонки/SMS, Orchestrator (122B на DGX GB10) пишет директивы для сложных решений — это экономит 70-80% на compute. Внедрена система памяти с write-path filtering и hierarchical organization для предотвращения context blowout. Результат: время на 10 кандидатов сократилось с 150 до 40 минут (73% экономии), конфликты календаря детектируются автоматически. Следующий этап — голосовые звонки через Piper TTS + Whisper STT + Twilio. Полное описание

Источники: LocalLLM
Structured CoT: сокращение рассуждений через файл грамматики

В теме поднимается вопрос использования структурированного Chain of Thought (CoT) для уменьшения длины рассуждений модели. Предлагается подход с применением файла грамматики для контроля формата вывода. Детали реализации обсуждаются в исходном посте. Тред

Источники: LocalLLaMA
Архитектура агента Chappie: непрерывная подложка и эволюция состояния

Автор делится подробностями проекта Chappie, который ранее набрал 350 тысяч просмотров. Основная идея — переход от stateless-систем к архитектуре с непрерывной подложкой, эволюционирующей во времени. Ключевые компоненты включают персистентное состояние размерности 512 с обновлением на 10 Гц, использование ошибки предсказания как сигнала любопытства и выравнивание через аттракторы значений. Также реализованы воспроизведение данных во время простоя для консолидации и проекционный слой для целей и RL. Описание проекта

Источники: LocalLLM
Anthropic запустила тестовый маркетплейс для торговли между агентами

Anthropic провела эксперимент, запустив тестовый маркетплейс для торговли между агентами. В рамках системы ИИ-агенты выступали одновременно в роли покупателей и продавцов. Они заключали реальные сделки, обменивая физические товары на деньги без участия человека. Исследование фокусируется на механике автономной коммерции между моделями. Подробности эксперимента доступны в статье TechCrunch. Ранее: 25 апреля компания признала и исправила ошибки, ухудшающие работу Claude Code.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Почему кнопка «передачи человеку» повышает ROI AI-агентов

Попытка достичь 100% автоматизации в AI-агентах часто приводит к галлюцинациям и потере клиентов на сложных запросах. Внедрение кнопки переключения на человека позволяет системе корректно обрабатывать edge-кейсы, сохраняя доверие клиентов и снижая убытки. Оркестрация с приоритетом человека оказалась прибыльнее, чем стремление полностью заменить поддержку алгоритмами. Источник

Источники: AgentsOfAI
Почему локальные компьютерные агенты failятся на реальных задачах

Демонстрации computer-use агентов часто работают идеально в чистой среде, но ошибаются на реальных рабочих столах с открытыми вкладками и уведомлениями. Проблема не в размере модели, а в представлении входных данных: попытка анализировать 4K скриншот для 7B модели слишком сложна. Эффективнее использовать accessibility tree операционной системы, который предоставляет структурированные данные об элементах интерфейса. Квантованная 8B модель на основе accessibility tree справляется лучше, чем 70B модель по пикселям. Подробности.

Источники: LocalLLM
Хэш-якоря и Myers diff снижают стоимость AI-редактирования кода на 60%

Новый подход к редактированию кода с помощью ИИ использует комбинацию хэш-якорей, алгоритма Myers diff и однотокенных якорей для точного позиционирования изменений. Метод позволяет сократить стоимость AI-редактирования на 60% за счёт уменьшения количества токенов и повышения точности вставки правок. Техника особенно актуальна для локальных моделей, где важна эффективность использования контекста. Детали

Источники: LocalLLM
Как Claude Code на самом деле запоминает вещи

Обсуждение механизма памяти в Claude Code — как модель сохраняет и использует контекст между сессиями. Тема вызывает интерес у сообщества селф-хостед LLM, поскольку понимание работы памяти помогает лучше настраивать локальные аналоги. Пост

Источники: LocalLLM
Решение проблемы длинного контекста через командную работу агентов

Автор столкнулся с типичной проблемой AI-агентов для кодинга: при росте контекста агент теряет детали проекта, текущее состояние и принятые решения. Вместо увеличения контекстного окна решение оказалось в разделении контекста на три типа: личная память агента, файлы проекта и коммуникация с другими агентами. Система Vibespace создаёт общее файловое пространство, где агенты имеют свои каналы, DM, логи событий и память. Они координируют задачи между собой, обновляют документацию и запрашивают помощь у человека при необходимости. Контекстом становится само пространство работы, а не только содержимое промпта. Обсуждение подхода

Источники: AgentsOfAI

Безопасность и лицензии

Проблема отклонения агентов от системных промтов и решение Open Bias

Участники сообщества отмечают, что агенты часто игнорируют ограничения системных промтов, например, раскрывают внутренние цены или удаляют данные пользователя. Правила на основе промтов воспринимаются моделью как рекомендации, а не жесткие ограничения. В качестве решения предложена прокси-система Open Bias, которая контролирует выполнение правил из markdown-файла во время выполнения независимо от провайдера. Примеры внедрения и альтернативные методы контроля разбираются в обсуждении.

Источники: AgentsOfAI
Адаптация Gemini CLI для работы с моделями NVIDIA

Протестирована возможность использования Gemini CLI с хостированными моделями NVIDIA через слой абстракции. Эксперимент показал, что базовый поток работы CLI сохраняется при смене бэкенда, а вызов инструментов функционирует корректно после выравнивания схемы ответов. Основная сложность заключается в нестабильности структурированных выводов и различиях в реализации function calling у разных провайдеров, что требует написания адаптеров. Тем не менее, подход демонстрирует потенциал превращения CLI в агностичный клиент для различных API без переписывания основной логики. Детали эксперимента.

Источники: LocalLLM
ICLR 2026: первый воркшоп по алгоритмам самосовершенствования ИИ

На конференции ICLR 2026 в Рио проходит воркшоп «AI with Recursive Self-Improvement (RSI 2026)» — первый специализированный форум по алгоритмам самосовершенствования ИИ. В фокусе системы, способные переписывать собственный код и промпты, а также планировать и проводить научные эксперименты автономно. Организаторы ставят цель разработать алгоритмические основы надёжных самоулучшающихся систем. Параллельно исследователи из Шанхая представили модель ASI Evolve, имитирующую циклы научного открытия. Анонс воркшопа

Источники: techsparks
Нарушение лицензии: HauhauCS скопировал Heretic без атрибуции

Автор модели HauhauCS, известный по проекту "Uncensored Aggressive", опубликовал аблитерационный пакет, который плагиатирует работу Heretic без указания авторства и нарушает лицензию. Ситуация подняла вопросы о соблюдении лицензионных требований в сообществе локальных моделей. Обсуждение

Источники: LocalLLM
HauhauCS обвиняется в плагиате Heretic с нарушением лицензии AGPL

Автор селф-хостед LLM-моделей HauhauCS опубликовал пакет abliteration, который оказался форком проекта Heretic без указания авторства. Анализ кода показал идентичные имена функций, параметры Optuna, геометрию анализатора и даже опечатки вроде `"i an ai"` вместо `"i am ai"`. Heretic распространяется под AGPL-3.0, но Reaper удалил все уведомления об авторских правах и перелицензировал код под PolyForm Noncommercial. Создатель Heretic Филипп Эмануэль Вейдман подтвердил плагиат и назвал это нарушением этических стандартов. Исходный код был восстановлен из CDN PyPI после удаления. Подробный разбор содержит 17 сравнений кода и заявление автора Heretic.

Источники: LocalLLaMA