понедельник, 25 мая 2026 г.

AI Digest: Qwen3.6 разогнали до 249 токенов/с на RTX 5090M, Command A+ на Apple Silicon и LEMoE для MoE-маршрутизации

Qwen3.6-35B-A3B достиг 249 токенов/сек на RTX 5090M с MTP и APEX-квантованием. Command A+ (218B MoE) запущен на Apple Silicon через MLX. NVFP4 и MTP теперь доступны в llama.cpp. LEMoE представлен как stateless router для MoE в локальных LLM. Trooper научился восстанавливать агентов после сбоев с Ollama как fallback. Gemma 4 E2B теряет качество после 30-40 инференсов на 4GB VRAM. Первый полнометражный AI-фильм показали в Каннах. Работники в Индии собирают данные для человекоподобных роботов.

Рекорды производительности и новые возможности

Qwen3.6 35B-A3B показывает 249 токенов/с на RTX 5090M

Модель Qwen3.6 35B-A3B с архитектурой MTP демонстрирует скорость генерации 249 токенов в секунду на потребительской видеокарте с 24 ГБ VRAM. По данным поста, это в 3.4 раза выше производительности плотной 27B версии на том же железе. Результаты достигнуты на базе RTX 5090M, что указывает на эффективность разреженных архитектур для селф-хостинга. Источник

Источники: LocalLLM
Запуск Qwen3.6 35B MoE на RTX 3050 6GB: 26 t/s с контекстом 64K

Пользователь поделился конфигурацией для запуска Qwen3.6 35B-A3B MoE на ноутбуке с RTX 3050 6GB VRAM и 24GB RAM. Система выдаёт 22–26 t/s при генерации и 180–261 t/s при обработке промптов с контекстом 64K. Ключевые оптимизации включают сборку llama.cpp с CUDA, флаг `-ot "exps=CPU"` для выгрузки экспертов на процессор и кэширование KV в q4_0. Потребление составляет ~3.5GB VRAM и ~22GB RAM с использованием swap. В комментариях отмечают, что для таких конфигураций важнее определить конкретные задачи и подбирать специализированные решения — обсуждение.

Источники: LocalLLM
NVFP4 и MTP теперь доступны в llama.cpp

В llama.cpp добавлена поддержка NVFP4 квантования вместе с MTP (Multi-Token Prediction) в одном релизе. Пользователи обсуждают, имеет ли смысл NVFP4 на картах кроме Blackwell — загрузка более крупных моделей может нивелироваться низкой скоростью инференса. Также отмечают снижение качества по сравнению с Q6_K по метрике KLD. Релиз доступен в репозитории ggml-org. Релиз b9297

Источники: LocalLLaMA
Command A+ (218B MoE) запущен на Apple Silicon через MLX

Cohere выпустила Command A+ с открытой лицензией Apache 2.0 — модель на 218B параметров (25B активных), использующая MoE-архитектуру с 128 экспертами. Энтузиасты портировали модель в mlx-lm для запуска на Apple Silicon. Архитектурные особенности включают общего эксперта с увеличенным intermediate-слоем, sigmoid-роутинг вместо softmax и sliding window 3:1. На машине с достаточной памятью модель показывает 22.9 токенов/сек при генерации и 57.6 токенов/сек при обработке промпта в BF16→Q8. Pull request уже открыт в репозитории mlx-lm и находится на ревью. Подробнее

Источники: LocalLLaMA
Тестирование MTP с Qwen3.6-27B на MacBook M5 Max

Автор протестировал специулятивное декодирование (MTP) с моделью Qwen3.6-27B в квантовании Q6_K_XL на MacBook M5 Max со 128GB RAM. Без MTP получил 19 tps, с MTP — 22.3 tps, а после настройки параметров (--spec-draft-n-max 3 и --spec-draft-p-min 0.75) достиг 24.5 tps. В комментариях отмечают, что прирост в 17% для M5 — неплохой результат, поскольку пропускная способность памяти ограничивает acceptance rate на Apple Silicon. Для смешанных рабочих нагрузок на M-серии такой прирост считается ожидаемым. Пост

Источники: LocalLLaMA
CPU-инференс Qwen3-30B-A3B: 35 токенов/сек на модель при полной загрузке RAM

Пользователь протестировал параллельный запуск моделей Qwen3-30B-A3B на CPU с полной загрузкой оперативной памяти, достигнув производительности около 35 тысяч токенов в секунду на каждую модель. Результаты показали, что потенциал CPU-инференса часто недооценивают — можно эффективно работать без GPU при достаточном объёме RAM. В комментариях спросили о конфигурации железа (один из участников упомянул 80-ядерный ARM-нод с 128GB RAM) и поинтересовались, есть ли что-то особенное в этой версии Qwen или можно использовать Qwen 3.6. пост

Источники: LocalLLM
Qwen3.6-35B с MTP и APEX-квантованием

Вышла uncensored-версия Qwen3.6-35B-A3B с поддержкой MTP и APEX Compact квантования в форматах GGUF и Safetensors. Тесты на Beelink GTR9 Pro с процессором Strix Halo показали стабильную работу с контекстом 200k токенов — 5 сессий без глюков, петель или повторяющихся вызовов инструментов. Модель корректно переключается между несвязанными задачами после 120k токенов. Рекомендуемые кванты — APEX и MTP-APEX, однако в комментариях отмечают, что APEX может вызывать проблемы с код-агентами и неправильные вызовы инструментов. Для LM Studio предоставлены системный промпт и chat template. Модель на HuggingFace

Источники: LocalLLaMA
Qwen 3.6-35B играет в DCSS: сравнение MTP и non-MTP версий

Тестирование Qwen 3.6-35B-A3B в ролике Dungeon Crawl Stone Soup показало, что non-MTP версия на квантовании q4_k_xl справляется с игрой хорошо, тогда как MTP-версия выдаёт некорректные tool calls. Для управления используется гибридный подход: скриншоты через flameshot как визуальный источник состояния и character dumps из morgue-директории как структурированный текст. Бот нажимает «#» в игре для генерации дампа, затем парсит последний .txt-файл для извлечения HP/MP, уровня, угроз и последних сообщений. xdotool отправляет команды в окно игры, Ctrl-P служит резервным источником истории. Тест

Источники: LocalLLaMA
Запуск qwen3.6-35b на GTX 1060 6GB через LMStudio

Энтузиасту удалось запустить qwen3.6-35b-a3b-mtp на устаревшем железе: Dell T5810, процессор E5-2698v3 и видеокарта GTX 1060 6GB после майнинга. Использовалась квантованная версия unsloth Q4_K_XL в Windows через LMStudio с контекстом 131072. Производительность составила 130-150 токенов/сек на префилле и около 16 токенов/сек при декодировании. В комментариях советуют поэкспериментировать с оффлоудом слоев, так как сейчас видеокарта задействована преимущественно для KV и draft stack. Подробности

Источники: LocalLLaMA

Бенчмарки моделей: сравнения и ограничения

tinyllama и llama3.2:3b провалили тест на булеву логику — оба показали 50%

Автор бенчмарка проверил способность локальных моделей к булевой логике без кода — только чистые логические рассуждения. Для оценки использовался детерминированный движок с полным перебором таблиц истинности, верифицированный через z3. Результаты удивили: tinyllama и llama3.2:3b оба набрали 50%, но по разным причинам. tinyllama всегда отвечал «yes» и пропускал все конфликты, llama3.2:3b всегда отвечал «no» и пропускал все совместимые пары. Ни одна модель не рассуждала — обе выдавали константу. Пост содержит скрипт бенчмарка и репозиторий bool-LLM-ngn.

Источники: ollama
Бенчмарк function calling: Needle 26M против Qwen3-0.6B на CPU

Сравнение специализированной модели Needle (26M) и универсальной Qwen3-0.6B показало преимущество узкого специалиста на процессоре. Needle превзошла конкурента в точности вызова инструментов (72% против 56%) и скорости (10.9с против 47.9с), однако хуже справляется с многоязычными запросами и не поддерживает диалог. Qwen3 чаще ошибается в парсинге, но лучше работает с иностранными языками. Важно учитывать формат схемы: Needle требует специфической структуры, иначе точность падает до 8%. Детали теста

Источники: LocalLLaMA
Специализированная модель 26M параметров обошла Qwen3-0.6B в function calling

Автор провёл бенчмарк Needle 26M (специализированная модель для function calling) против Qwen3-0.6B (универсальная). Needle показала 72% успешных вызовов против 56% у Qwen3 и была в 4.4 раза быстрее на CPU. Ключевое различие в типах ошибок: Qwen3 чаще не использует инструменты вовсе (emit-ит текст вместо тегов), а Needle ошибается в выборе инструмента, но аргументы передаёт верно. Для неявных запросов вроде «стоит ли брать зонт в Амстердаме» Needle показала 80% против 10% у Qwen3. Автор рекомендует подбирать модель под распределение пользовательских запросов и рассматривать каскадные системы. Полный отчёт, код и данные

Источники: LocalLLM
Бенчмарк TTS-моделей для локального использования

Автор создал собственный бенчмарк для сравнения TTS-инструментов, доступных на май 2026 года. Тестирование уже проведено на Windows и Mac, результаты для Linux с конфигурацией 5900XT и 3090 скоро появятся. Данные представлены на HTML-странице в репозитории, что упрощает выбор TTS-решения для персональных проектов. В репозитории можно найти скрипты для самостоятельного тестирования и сравнения производительности. Репозиторий

Источники: LocalLLaMA
Vision LLM против OCR: бенчмарк для длинных документов

Сравнение vision-моделей и OCR-пайплайнов на 30 длинных PDF с графиками и таблицами из MMLongBench-Doc показало неожиданные результаты. Native PDF (vision LLM) занял 5-е место из 6 по точности (52,0%) и оказался самым дорогим вариантом — $0,2552 за запрос. Premium OCR с извлечением макета показал 59,6% точности при стоимости $0,1885. Vision-подход имел 7% внутренних ошибок, связанных с размером файлов, тогда как OCR после повторных попыток достиг 0% отказов. Разрыв в точности статистически значим по тесту Макнемара. Полный отчёт

Источники: LocalLLaMA
Тестирование Gemma3:4b в движке bool-LLM-ngn

Модель Gemma3:4b протестировали в открытом движке bool-LLM-ngn. Она демонстрирует признаки рассуждения и варьирует ответы, но уровень галлюцинаций остается на уровне 35%. Движок доступен с интерфейсом Streamlit для запуска собственных моделей репозиторий. Участники обсуждают тестирование Mistral или Phi3 для определения порога рассуждения в зависимости от количества параметров. Обсуждение

Источники: ollama
Лучшая модель для 24GB VRAM в мае 2026

Владелец RTX A5000 с 24GB видеопамяти ищет оптимальную чат-модель для агентских задач без необходимости в кодинге. В комментариях рекомендуют Qwen 3.6 27B в 4-битной квантовке как наиболее подходящий вариант для 24GB. Некоторые участники отмечают, что 27B с MTP работает лучше, чем 35B версия. Детали выбора и сравнения моделей в обсуждении.

Источники: LocalLLM
Gemma 4 E2B теряет качество после 30-40 инференсов на 4GB VRAM

Пользователь столкнулся с деградацией качества выводов Gemma 4 E2B при непрерывной работе через llama-server на GTX 1650 с 4GB VRAM. После 30-40 запросов ответы становятся короче, в JSON-выводе пропадают поля, иногда приходят пустые результаты. Перезапуск llama-server немедленно решает проблему. Конфигурация: flash-attn включён, один слот, контекст 6144, ngl 15. Обсуждается возможная причина — утечка KV cache или фрагментация видеопамяти со временем. Пост

Источники: LocalLLaMA
Gemma 4 2B: структурированный JSON, tool calling и reasoning traces в локальном setup

Пользователь протестировал google/gemma-4-e2b локально через LM Studio с OpenAI-совместимым эндпоинтом в Spring Boot-приложении. Модель корректно вернула JSON по схеме CodeReview (issues, qualityScore, suggestions, summary), нашла баг с == вместо .equals() в Java-коде и предложила рефакторинг на Streams. Quality score составил 50/100 — идентично Claude Sonnet 4.6, GPT-4o дал 55. Tool calling сработал без дообучения: модель сама вызвала weather-функцию для вопроса про зонт в Риге, извлекла параметр локации и вернула ответ. LM Studio добавил поле reasoning_content с пошаговым анализом перед финальным JSON. Пост включает видео-демо с тестом офлайн-инференса.

Источники: LocalLLaMA
Сравнение Qwen3.6-35B и Gemma4-26B: скорость против инструментов

Обсуждение выбора между Qwen3.6-35B-A3B и Gemma4-26B-A4B на железе AMD. Gemma4 показывает значительно более высокую скорость генерации на Radeon 9070 XT в llama.cpp, но пользователи отмечают проблемы с вызовом инструментов. В комментариях советуют использовать Gemma для ролевых сценариев, а Qwen — для задач, требующих точности и работы с функциями. Квантование варьируется от Q4 до Q5 в зависимости от модели. Обсуждение

Источники: LocalLLaMA
Сравнение локальной модели Qwen и Opencode при генерации кода

Пользователь протестировал локальную модель Qwen3.6-35B-A3B-Q4_K_M для создания веб-интерфейса агента. Скорость генерации достигала 90–100 токенов в секунду. Простой промпт позволил получить минималистичный рабочий код, тогда как специализированный инструмент Opencode выдал более сложную структуру из четырёх файлов, которая не заработала. Опыт демонстрирует эффективность современных локальных моделей в задачах кодинга без излишнего инжиниринга подробности.

Источники: LocalLLM
Сравнение OCR-моделей granite-docling от IBM

В сообществе обсуждают различия между granite-docling-258m и granite-docling-2stage-258m от IBM. Вторая версия использует динамический промпт с предвычисленными объектами layout на странице, что должно повышать робастность на out-of-distribution данных. Обе модели доступны на Hugging Face, но практические улучшения пока не очевидны для пользователей. Автор поста спрашивает, заметил ли кто-то реальную разницу в работе. Модели

Источники: LocalLLM

Железо для локального инференса: конфигурации и цены

Оптимизация скорости инференса Qwen3.6 27B на мульт GPU-конфигурации

Пользователь делится опытом запуска Qwen3.6 27B для агентных задач с длинным контекстом. На конфигурации из 1×2060 Super 8GB + 2×5060 Ti 16GB (40GB VRAM суммарно) достигается 300-500 токенов/сек при обработке промпта и 22-30 токенов/сек при генерации с контекстом 100k. Используется llama.cpp с spec-decoding через MTP-драфт (q4_0), флагами -fa on, --kv-unified и температурой 0.6. Автор ограничил контекст 100k вместо 128k из-за невозможности уместить всё в VRAM без сброса в RAM. В обсуждении ищут дополнительные флаги для выжимания производительности — пост.

Источники: LocalLLaMA
Проблемы производительности vLLM на NVIDIA DGX Spark в продакшене

Компания с ~20 пользователями запустила AI-приложение на NVIDIA DGX Spark с vLLM и Qwen3-32B (требуется мультиязычность). При 32K контексте и ~5 параллельных пользователях скорость генерации составляет лишь ~3.6 токенов/сек, что недостаточно для продакшена. Включены prefix caching и chunked prefill, max-num-seqs=4. Контейнер собран на основе spark-vllm-docker. Автор запрашивает опыт по выбору мультиязычных моделей, тюнингу vLLM, квантованию и альтернативным inference-стекам — обсуждение.

Источники: LocalLLM
Гайд по запуску LLM на Fedora через Ryzen NPU

Вышло руководство по настройке запуска языковых моделей на ОС Fedora с использованием нейропроцессора Ryzen NPU. Материал описывает процесс работы с ИИ без дискретной видеокарты, задействуя встроенные вычислительные возможности процессора AMD. Инструкция может быть интересна владельцам соответствующего железа для организации локального инференса. Гайд

Источники: LocalLLM
Intel Arc Pro B70: Vulkan стабильнее и быстрее SYCL в llama.cpp

Пользователь протестировал Intel Arc Pro B70 с llama.cpp и обнаружил существенную разницу между бэкендами. Vulkan показывает 700 t/s на pp512 для Qwen3.6-27B против 315 t/s у SYCL, а на Qwen3.5-35B-A3B достигает 102 t/s против ошибок out-of-resources у SYCL. Однако в комментариях отмечают: Vulkan быстрее, но обработка изображений на B70 крашится, тогда как SYCL с изображениями работает стабильно. Автор не тестировал vLLM и LM Studio, запросил рекомендации по ускорению. Тесты доступны в посте.

Источники: LocalLLM
Удаление vision-компонентов для экономии VRAM

Пользователь удалил файл mmproj из модели Qwen 3.6 35b, чтобы освободить видеопамять. В обсуждении подтвердили, что этот файл содержит тензоры для кодирования изображений, и его удаление никак не влияет на текстовые способности модели. Для тех, кто хочет сохранить возможность работы с изображениями без загрузки в VRAM, предлагают использовать флаг --no-mmproj-offload, оставляя функционал в оперативной памяти. Обсуждение

Источники: LocalLLaMA
Оптимизация llama.cpp для AMD MI60 в задачах умного дома

Автор поделился результатами 30 прогонов llama-bench на GPU MI60 с 32 ГБ VRAM для интеграции с Frigate и HomeAssistant. Использование готового Docker-контейнера упростило настройку ROCm, а подбор параметров кэша KV и batch size сократил задержку голосовых команд до 1.2с. Для генерации сводок с камер время обработки уменьшилось до 18 секунд. В комментариях отметили, что квантование KV-кэша может негативно сказаться на скорости генерации. Отчет и настройки

Источники: LocalLLaMA
Выбор железа для OpenClaw: HX370, апгрейд десктопа или облако

Владелец RTX 5080 16GB ищет оптимальную конфигурацию для OpenClaw и агентного программирования с надёжной работой инструментов и навыков. Локальные модели 4B и 9B показывают недостаточное качество для автономных задач. Рассматриваются три варианта: мини-ПК на HX370 с 64–96GB RAM за €1.5k, апгрейд текущей системы до 64GB RAM за €1k, или облачные подписки на 1–2 года. Центральный вопрос — минимальный размер модели, при котором агентная работа становится стабильной. Детали в посте.

Источники: LocalLLM
Производительность при выгрузке больших моделей в системную память

Обсуждается стратегия запуска тяжелых моделей вроде Deepseek V4 Pro на видеокартах с ограниченным VRAM через оффлоад весов в системную DDR5. Возникает вопрос, есть ли преимущество у карт с большим объемом памяти (например, RTX 6000 на 96 ГБ) перед 5090 на 48 ГБ, если эксперты постоянно свопятся между VRAM и RAM. Участники анализируют влияние пропускной способности PCIe на скорость декодирования и возможность кэширования экспертов в видеопамяти для ускорения работы. Обсуждение

Источники: LocalLLaMA
Запуск Supra-50m на 26-летнем ПК с Windows 9.X

В эксперименте модель Supra-50m запустили на винтажном компьютере для ретро-игр с Windows 9.X. CPU не поддерживает SSE2, поэтому вместо llama.cpp использовали llama2.c с кастомным токенизатором от Claude. Результат — около 1.3 tok/s на CPU inference. Автор отмечает, что с правильным файлом весов на 200 МБ подобные модели могли бы работать ещё в 1999 году. Пост с деталями эксперимента.

Источники: LocalLLM
Особенности размещения GPU при селф-хостинге

Пользователь собрал систему с четырьмя GPU RTX 5060 Ti 16 ГБ на одной материнской плате и интересуется безопасным расстоянием между кардами. Несмотря на плотную компоновку, планируется андервольтинг для снижения тепловыделения и использования десяти корпусных вентиляторов. В обсуждении отмечают, что при сниженном напряжении требования к зазорам меньше, но промежуток в один слот всё же желателен для airflow. Также советуют протестировать температуры под нагрузкой и упомяняют возможность разгона VRAM для компенсации пропускной способности. Обсуждение

Источники: LocalLLaMA
Тестирование DeepSeek V4 Flash на 8x V100

Пользователь тестирует локальную инфраструктуру на базе 8 GPU NVIDIA V100 и процессоров Xeon 8260 для запуска DeepSeek V4 Flash в квантовании IQ6. Размер модели составляет 150.2 ГБ, память дополнена модулями Optane в режиме App Direct. Зафиксирована скорость генерации 97 токенов в секунду, автор запросил оценку результата относительно спецификаций оборудования. Конфигурация включает 256 ГБ оперативной памяти DDR4-2400 и ускоренное хранилище для работы с большими весами. Тест производительности

Источники: LocalLLM
Запуск автономных агентов на CPU RAM вместо VRAM

Пользователь обсуждает возможность запуска автономных агентов на оперативной памяти процессора вместо видеопамяти. Производительность ниже примерно в 20 раз, но стоимость VRAM остаётся высокой. Для задач вроде чтения почты, отправки уведомлений или круглосуточного исследования лидов такой подход может быть экономически оправдан. Обсуждение viability CPU-инференса для фоновых задач продолжается в треде.

Источники: LocalLLM
Сборка за $5K для запуска 128B моделей

Пользователь ищет конфигурацию железа за $5000 для запуска Qwen или Gemma 128B. В комментариях предлагают два RTX 8000 (96GB за ~$4500) или одиночную карту с 64GB RAM и настройкой CPU MoE через llama.cpp. Отмечают, что 128B dense модели редко нужны — MoE-версии работают на двух 3090 с NVLink или комбинации 5090+3090. Для кодинга рекомендуют 27B, для перевода — Gemma 31B. Варианты сборок в треде.

Источники: LocalLLM
Первая неделя с DGX Spark и Hermes Agent

Автор настроил локальную рабочую станцию на базе DGX Spark с использованием vLLM, Open WebUI и Hermes Agent. Наиболее эффективной связкой оказалась модель уровня Qwen 35B A3B через vLLM, которая обеспечивает достаточную скорость для интерактивного использования и корректные tool-вызовы. Hermes добавил слой агентного рантайма, но выявил проблемы с песочницей: файлы, созданные внутри Docker, не всегда доступны пользователю без узкого пути артефактов. Локальные модели хорошо справляются с приватной предобработкой и задачами, где данные не должны покидать машину, но требуют retrieval для фактов. Отчет

Источники: LocalLLM
Как получить 24 ГБ VRAM на двух разных GPU AMD

Пользователь поделился опытом объединения видеокарт разных поколений для запуска локальных моделей. На системе с Ryzen 5600X и Fedora 44 удалось связать RX 7800 XT (16 ГБ) и RX 6600 XT (8 ГБ) через Vulkan в LM Studio. Система автоматически управляет питанием: вторая карта уходит в спящий режим без нагрузки. Модель Qwen3.6-35B работает стабильно, все слои оффлоятся на GPU. После настройки параметров оффлоада и контекста система работает гладко. Автор обсуждает, стоит ли переходить на ROCm ради производительности. Подробнее

Источники: LocalLLM
GB10 против MacBook Pro M5 Max: битва за локальный инференс

Сравнение производительности GB10 и MacBook Pro M5 Max с 128 ГБ памяти для запуска моделей вроде Qwen 27B-Q8. M5 Max заявляет четырехкратное ускорение обработки промптов и удвоенную пропускную способность памяти по сравнению с GB10. В комментариях отмечают, что для чистого инференса лучше подойдет Linux-система с RTX 5090, а Mac выигрывает за счет удобства и приложений. Пользователи DGX Spark хвалят стабильность удаленного доступа, но владельцы Mac указывают на прогресс oMLX и кэширования. Дискуссия

Источники: LocalLLM
Тестирование связки из двух RTX 5060 Ti для локальных LLM

Автор эксперимента проверил работу двух видеокарт RTX 5060 Ti 16 ГБ на базе старого ПК, сравнив производительность с одиночным GPU. Тесты проводили на MoE-моделях gemma4-26b и qwen3.6-35b с вариациями квантования кэша KV. Конфигурация оказалась эффективной: стоимость двух карт значительно ниже, чем у одного GPU с 32 ГБ памяти вроде RTX 5090. В комментариях делятся опытом эксплуатации: на плотных моделях удается достичь 80 токенов в секунду, на MoE-версиях — около 33 токенов. Тред

Источники: LocalLLM
Возможно ли запустить модель только в VRAM через llama.cpp

Пользователь столкнулся с тем, что при запуске небольших моделей через llama.cpp на RTX 4070 часть данных все равно уходит в оперативную память, даже если веса помещаются в VRAM. Вопрос вызвал обсуждение технических ограничений: библиотека резервирует память процессора под кэш KV, буферы и служебные нужды, поэтому нулевое использование RAM практически недостижимо. В комментариях рекомендуют квантовать кэши ключей и значений до q8_0 или использовать GUI-оболочки для тонкой настройки параметров. Дискуссия

Источники: LocalLLaMA
Обучение 1.58-битных моделей на NPU Huawei

Исследователи опубликовали результаты работы BitCPM-CANN по обучению 1.58-битных моделей на платформе Huawei Ascend NPU без использования CUDA. Модели объемом до 8B параметров сохраняют до 97.2% производительности полноточных аналогов при сокращении памяти весов в 8 раз. Накладные расходы на обучение составили всего 4.5%, что делает технологию перспективной для внедрения. В обсуждении отмечают, что мелкие версии уже работают на CPU через llama.cpp, хотя и уступают в качествах другим решениям, но сам факт нативного обучения на NPU важен для экосистемы. Обсуждение

Источники: LocalLLaMA
Сравнение производительности RTX 6000 PRO MaxQ и Workstation Edition

Пользователи обсуждают разницу в производительности между RTX 6000 PRO MaxQ и версиями Workstation или Server Edition. Задачи, зависящие от пропускной способности памяти, например генерация токенов, показывают снижение скорости на 5–15% у MaxQ из-за лимита потребления 300 Вт против 600 Вт. Для вычислительно сложных задач, таких как обработка промптов или диффузия, разница может достигать 50% в пользу полноценной версии. Обсуждение включает ссылки на тесты и опыт владельцев обсуждение.

Источники: LocalLLM
Рост цен на видеокарты RTX PRO Blackwell в Европе

Пользователи сообщают о значительном подорожании линейки RTX PRO Blackwell в Центральной Европе. Стоимость RTX 6000 96GB выросла с €7500 до €11500, а RTX 5000 48GB — с €4500 до €6000. Участники обсуждения подтверждают дефицит и быстрый выкуп наличных запасов, отмечая похожую ситуацию в Норвегии, где цена RTX 6000 MaxQ увеличилась с €10500 до €12000 тред.

Источники: LocalLLM
Обсуждение апгрейда до RTX 6000 Pro и пределов локальных моделей

Пользователи обсуждают целесообразность покупки второй RTX 6000 Pro с 96 ГБ памяти. Основной вопрос: является ли Qwen 3.6 27b пределом для локального запуска до достижения 300 ГБ VRAM. В комментариях отмечают, что двойная конфигурация может пригодиться для архитектуры local council с несколькими моделями одновременно. Владелец M3 Ultra с 96 ГБ RAM добавляет, что пока сложно найти модель лучше qwen3.6, хотя Gemma 4 близка в нетехнических задачах. Обсуждение

Источники: LocalLLM
Проблемы совместимости llama-bench с MTP и спекулятивным декодированием

Пользователи столкнулись с невозможностью запустить llama-bench с поддержкой MTP, несмотря на работу конфигураций в llama-server. В обсуждении поясняют, что это проблема экосистемы llama.cpp: разные приложения пишутся разными людьми, что ведет к несовместимости флагов. Поддержка speculative decoding в llama-bench пока отсутствует. В качестве альтернативы сообщество рекомендует утилиту llama-benchy для бенчмаркинга. Тред

Источники: LocalLLaMA

Агентные системы: память, оркестрация и восстановление

Agentic GRPO: новый подход к RL для длинных агентных workflows

Традиционный RL для LLM рассматривает один ответ как одну траекторию, но агентные системы работают иначе: они вызывают инструменты, генерируют гипотезы, запускают тесты, отлаживают код и повторяют циклы до успеха. Это создаёт проблему поздних наград и длинных траекторий с off-policy drift. Agentic GRPO (Group Relative Policy Optimization) решает это через немедленные награды на промежуточных этапах с последующей ретроактивной коррекцией после финального результата. Подход ускоряет и стабилизирует обучение для coding agents и автономных workflows. По утверждению автора, это первая AI-система, стабильно превосходящая всех людей в соревнованиях по спортивному программированию — обсуждение.

Источники: LocalLLaMA
Локальный RAG-агент с графом знаний

Автор сообщает о создании мощного RAG-агента с интеграцией knowledge graph, который полностью работает локально без облачных зависимостей. Детали архитектуры и стек технологий не раскрываются в заголовке поста. Заинтересованные могут изучить подробности в оригинальном сообщении — пост.

Источники: LocalLLM
Контролируемый vibe coding с агентом Iris

Разработан агент Iris для решения проблемы контроля доступа ИИ к файлам при генерации кода. В отличие от Claude Code или Cursor, пользователь задает структурированный промт и точно определяет права доступа к конкретным файлам. Проект работает локально через Ollama, версия 1.8.4 уже поддерживает создание проектов средней сложности. Подробнее в обсуждении

Источники: ollama
Агент QevosAgent для долгосрочных задач на локальной модели

Разработан агент QevosAgent, который выполняет задачи до достижения цели без необходимости постоянных напоминаний. Система использует инструменты, определенные как простые функции, и работает на локальной модели Qwen3.6 27b. В тестах агент обучал модель на датасете Verilog, анализировал геномные данные и разворачивал видеомодель wan2.2. Исходный код доступен на GitHub, есть установщик для Windows. Обсуждение проекта

Источники: ollama
Мониторинг безопасности LLM напрямую в VRAM

Описан метод перехвата смещения выравнивания LLM напрямую в VRAM с задержкой около 10 мкс. Вместо отдельных guard-моделей, увеличивающих задержку и потребление памяти, используется C++ бридж для llama.cpp, мониторивший активации через OpenCL. Система проектирует тензоры токенов через High-Dimensional Computing и завершает процесс при обнаружении дрейфа (Exit Code 137). Накладные расходы составляют менее 0.1% на токен. Спецификация и демо, обсуждение

Источники: ollama
Локальный AI-агент на базе Ollama для практических задач

Пользователь разработал собственного локального AI-агента, сфокусированного на Ollama и выполнении практических задач. Проект демонстрирует подход к построению автономных систем, которые работают без облачных зависимостей и могут интегрироваться в локальные рабочие процессы. Детали архитектуры и конкретные сценарии использования описаны в исходном посте. Обсуждение

Источники: ollama
Локальная настройка Gemma4 31B с tool calls и claude code за 4 часа

Автор поделился рабочим сетапом для запуска Gemma4 31B с использованием Docker, sglang и litellm в качестве прокси для совместимости с Anthropic API. Ключевые моменты: tool-call-parser критически важен для работы tool calls, context-length должен быть высоким для claude code, а спекулятивный декодинг с draft-моделью даёт 2.1x эффективность по данным Google. Конфигурация включает sglang serve с параметрами вроде --mem-fraction-static 0.7 и --cuda-graph-max-bs 8. В комментариях отметили, что на AgentRQ blog есть дополнительные детали, а также подняли вопрос, почему Gemma4 вместо Qwen3.6 для dev-задач. пост

Источники: LocalLLM
llama.cpp server получил встроенные инструменты для агентских задач

В llama.cpp server обнаружили экспериментальный флаг --tools с нативной поддержкой read_file, file_glob_search, grep_search, exec_shell_command, write_file, edit_file, apply_diff и get_datetime. Это превращает llama-server в мини-агент без необходимости настраивать MCP или тяжёлые обёртки — достаточно .gguf файла и бинарника llama.cpp. Файловые операции работают относительно папки запуска сервера, но песочницы безопасности пока нет, так что стоит быть осторожным с доступом. В обсуждении пользователи разделились: одни называют находку полезной, другие ссылаются на GitHub discussion с сомнениями в работоспособности, третьи сообщают, что не смогли заставить инструменты работать. обсуждение

Источники: LocalLLaMA
Мост для управления Claude/Ollama/Codex с телефона без API-ключей

Пользователь разработал решение для управления локальными LLM (Claude, Ollama, Codex) прямо со смартфона. Система работает полностью на собственном оборудовании, не требует API-ключей и внешних сервисов. Это даёт возможность запускать инференс моделей удалённо, сохраняя контроль над данными и инфраструктурой. Подробнее

Источники: ollama
Проблемы Hermes Agent с выполнением терминальных команд

Пользователь столкнулся с проблемой: Hermes Agent сообщает об успешном создании директории, но фактически команда не выполняется. При запросе создать /home/john/projects/demo модель возвращает подтверждение, но директория не появляется. Используется Qwen3.5 9b, логи Hermes не показывают предупреждений. Вопрос в инструментальном вызове (tool calling) или контексте остаётся открытым. Пост

Источники: LocalLLaMA
MAIstro: единая память для локальных и облачных моделей

Разработчик описал архитектуру MAIstro, позволяющую локальным LLM и фронтир-моделям работать как единый разум с общей памятью. Система включает более 25 техник с заявкой на патент и работает на ROG Ally X, объединяя три локальные модели и Claude на разных устройствах с обменом контекстом менее чем за секунду. Автор утверждает, что использование Claude сократилось на 50% благодаря нативной обработке задач субстратом, прототип в разработке с 20 апреля 2026 года. Обсуждение

Источники: LocalLLM
Агент для категоризации расходов на CSV

В рамках серии Build in Public создан специализированный агент для автоматической сортировки выписок по кредитным картам из CSV-файлов. Архитектура намеренно упрощена: отсутствует слой рефлексии или постоянная память, что обеспечивает быструю и дешевую обработку данных. Для гарантирования структурированного ответа используется модель Pydantic CategorizedExpenses, код проекта доступен для клонирования. Исходный пост

Источники: AgentsOfAI
AgentFlow4J: оркестрация для Spring AI

Инструмент AgentFlow4J добавляет слой workflow и runtime поверх Spring AI для разработчиков на Java. Решение закрывает потребности production-систем в повторных попытках, чекпоинтах, общем состоянии и согласовании действий человеком без лишнего кода оркестрации. Проект помогает строить системы с сохранением состояния и сейчас находится на ранней стадии развития. Детали

Источники: AgentsOfAI
Настройка агентов и суб-агентов в гибридном окружении

Автор делится опытом организации работы агентов через Librechat, где DeepSeek v4 pro выступает мастер-планировщиком через OpenRouter. Локально используются Qwen 35B для основных задач и Gemma E2B для тривиальных запросов, что позволяет выполнять задачи параллельно. В сообществе ищут рекомендации по более легким и специализированным моделям для эффективного распределения ролей в такой схеме. Тред

Источники: LocalLLaMA
Eve Agent V2 Unleashed — локальный агент для кодинга

Разработчик выпустил open-source агент Eve Agent V2 с 40-раундовым циклом выполнения задач и поддержкой 112 суб-агентов для разработки ПО. Система работает локально через Ollama, использует мердж двух моделей (8B и 4B), причем 4B версия прошла файн-тюнинг для точных вызовов инструментов. Интерфейс выполнен в стиле киберпанк с потоковой передачей рассуждений модели в реальном времени. Проект

Источники: LocalLLM
Локальный GUI для фреймворка TradingAgents с поддержкой Ollama

Разработчик создал веб-интерфейс для TradingAgents — мульти-агентной системы анализа акций, где дюжина агентов (аналитик рынка, новостей, быки, медведи, риск-команда) обсуждают стратегию и дают торговую рекомендацию. Оригинальный фреймворк работал только через CLI, новая версия добавила визуализацию пайплайна, трёхпанельный читер отчётов, поиск и регулировку длины отчёта (concise mode экономит ~50% токенов). Поддерживаются все основные провайдеры: OpenAI, Anthropic, Google, OpenRouter, DeepSeek, Ollama, xAI, Qwen, GLM, MiniMax. Код на Apache 2.0, репозиторий TradingAgents-GUI открыт.

Источники: LocalLLaMA
IRIS: управление памятью для локальных ассистентов

Появился инструмент IRIS, локальное приложение для управления памятью персонального ИИ-ассистента без облачных зависимостей. Ключевая особенность — полный контроль пользователя над данными: память можно просматривать, редактировать, экспортировать или удалять, избегая эффекта «чёрного ящика». Стабильная версия доступна для Windows, тогда как сборки для macOS и Linux находятся в статусе экспериментальных превью. Проект не собирает телеметрию и работает исключительно с локальными моделями через Ollama. Обсуждение, релиз на GitHub

Источники: ollama
Проблемы поиска товаров ИИ-агентами

Пользователь столкнулся с трудностями при делегировании задачи поиска товаров локальному агенту на базе Gemma 4 26B и облачному Claude Sonnet 4.6. Локальная модель завершила поиск за минуту, предложив общие категории вместо конкретных позиций, что не соответствовало требованиям задачи. Claude отработал детальнее, но также потребовал уточнений для выдачи списка конкретных товаров вместо производителей. Автор отмечает парадокс: модели способны навигировать по каталогам и искать в интернете, но сложно выполняют точный подбор по критериям. Обсуждение проблемы

Источники: LocalLLaMA
Rule Zero: инструкция против галлюцинаций coding-агентов

Агенты для написания кода часто выдвигают гипотезы без проверки фактов, например, диагностируют бан сервера без выполнения команд. Для решения проблемы создан конфиг Rule Zero, который обязывает модель сначала собрать данные через команды, и только потом строить теории. Решение открыто под лицензией CC0 репозиторий и включает хуки для блокировки спекулятивных фраз вроде «probably». Поддерживается Claude Code, Cursor, Codex и другими инструментами. Обсуждение

Источники: LocalLLM
Qwen3-coder не читает файлы в Claude Code через Ollama

Пользователь сообщает о проблеме: при инструкции прочитать текущую директорию Qwen3-coder создаёт файл вместо чтения существующих. Проблема возникает при использовании Ollama's claude code. Скриншот демонстрирует, что модель игнорирует команду чтения и переходит к созданию нового файла. Требуется уточнение конфигурации или промпта для корректной работы с файловой системой. Пост

Источники: LocalLLM
Qwen3.6-35B-A3B играет в roguelike DCSS

Демонстрация возможностей qwen3.6-35b-a3b@q4_k_xl в игре Dungeon Crawl Stone Soup — открытой roguelike-адвенчуре. Модель показывает достойные результаты в навигации по игровому миру и принятии решений. Квантование q4_k_xl позволяет запускать 35B-модель локально с приемлемой производительностью. Видео

Источники: LocalLLM
Опыт использования LuMay Voice Agent для бизнес-задач

Пользователь протестировал LuMay Voice Agent в реальных бизнес-процессах и отметил фокус на продакшен-готовности вместо демо-звонков. Среди ключевых функций: низкая задержка, входящие и исходящие вызовы, автоматизация CRM, запись на встречи и поддержка нескольких языков. В сравнении с Vapi, Retell AI, Bland AI и Synthflow, LuMay показал лучшую стабильность при долгих разговорах и обработке прерываний. Автор интересуется опытом других пользователей масштабирования этого решения. Обсуждение

Источники: AgentsOfAI
Портативная версия Hermes Agent без установки зависимостей

Для запуска Hermes Agent от Nous Research создан портативный wrapper, не требующий установки глобальных Python или Node на хост-машине. Решение работает из отдельной папки или USB-накопителя, сохраняя API-ключи, историю чатов и память внутри директории проекта. При первом запуске автоматически загружаются автономные рантаймы и настраивается локальный venv. Это упрощает развертывание агента на разных машинах без загрязнения системы. Детали

Источники: LocalLLM
Web RAG через нативные инструменты llama.cpp с песочницей

Автор демонстрирует рабочий процесс для безопасного веб-скрапинга прямо из веб-интерфейса llama-server с использованием нативных инструментов llama.cpp. Решение включает многоуровневую песочницу: firejail для изоляции, отдельный пользователь vmagents, и OCI-контейнеры через smolmachines с Alpine Linux. Скрипт vm-exec оборачивает команды перед выполнением, запуская их в изолированной VM с последующей остановкой. Для запроса контента используется wget с user-agent строкой Mozilla. Такой подход позволяет выполнять внешние запросы без риска для основной системы. Инструкция

Источники: LocalLLaMA
ScreenMind: локальная память экрана на llama.cpp + Gemma 4

Open-source проект ScreenMind захватывает скриншоты при изменении контента (perceptual hashing), анализирует их через Gemma 4 vision и строит поисковую базу активности за день. Всё работает локально без отправки данных наружу. Функции включают чат по истории экрана, семантический + ключевой поиск, транскрибацию встреч через нативный аудио-энкодер Gemma 4, voice memos и MCP-сервер для Claude/Cursor. Платформа агентов позволяет описывать задачи в markdown-файлах на английском, которые выполняются автоматически с подстановкой данных экрана. Работает на GTX 1650 4GB, pHash-кеширование сокращает инференсы на 30-50%. GitHub

Источники: ollama
Trooper: восстановление агентов после сбоев с Ollama как fallback

Инструмент Trooper решил проблему потери прогресса при сбоях агентов. В тесте агент ревьюил 8 PR, на четвёртом получил quota error — типичная ситуация, когда прокси либо слепо ретраят, либо падают. Trooper перехватил ошибку и вернул JSON с completed_steps, resume_from и recovery_hint, после чего агент продолжил с PR #4 через Ollama как локальный fallback. Новый эндпоинт /recovery/{session_id} отслеживает выполнение сабагентов в реальном времени, позволяя точно знать точку восстановления. GitHub

Источники: ollama
Trooper восстанавливает работу агента после исчерпания квоты

Короткий отчет об устойчивости агента Trooper. При исчерпании квоты на четвертом пул-реквесте из восьми система автоматически восстановила сессию. Работа продолжилась ровно с того места, где остановилась, без потери контекста. Это демонстрирует надежность обработки длинных задач в автономном режиме. Источник

Источники: LocalLLM
LEMoE — лёгкий stateless router для MoE в локальных LLM

Разработчик представил LEMoE, open-source router для Mixture of Experts, оптимизированный для локальных LLM. Проект позиционируется как лёгкое и stateless-решение для маршрутизации экспертов в MoE-архитектурах. Автор ищет обратную связь от сообщества для улучшения проекта. Пост

Источники: LocalLLM
LEMoE — stateless router для MoE в локальных LLM (Ollama)

В r/ollama разработчик анонсировал LEMoE — lightweight stateless router для Mixture of Experts, предназначенный для локальных LLM. Проект open-source, автор приглашает сообщество к тестированию и feedback. Инструмент может быть полезен для оптимизации маршрутизации в MoE-моделях при селф-хостинге. Пост

Источники: ollama

Инструменты и практическое внедрение

Работники в Индии собирают данные для человекоподобных роботов

Работники в Индии всё чаще используют камеры, закреплённые на голове, для записи видео данных. Эти материалы предназначены для обучения моделей человекоподобных роботов. В обсуждении пользователи проводят параллели с книгой «Player Piano», где машины обучались на записях лучших специалистов, а также отмечают этические аспекты такого сбора данных. Обсуждение

Источники: singularity
Нишевые кейсы YC и видимость в AI-поиске

Фокус YC на узких сценариях использования случайно сделал стартапы из их портфеля удобными для индексации генеративными моделями. LLM лучше отвечают на специфические операционные запросы, где семантическая территория не занята конкурентами. Автор термина «Latent Space Monopoly» советует структурировать активы под точные запросы клиентов и заранее формировать упоминания на сторонних платформах вроде G2 или Crunchbase. В комментариях подтверждают, что чёткий след бренда в нишевых пространствах повышает шансы на цитирование моделями. Пост

Источники: ycombinator
Обсуждение лучшей модели для кодинга на RTX 6000 Blackwell

Пользователь с RTX 6000 Blackwell (96GB VRAM) спросил сообщество о рекомендациях для задач селф-хостед кодинга. В обсуждении советуют Qwen 3.6 27B в полном весе или fp8 как оптимальный вариант для агентов и программирования. Участники отмечают скорость 60-70+ токенов в секунду с поддержкой MTP через vllm или sglang, потребление VRAM около 55 ГБ. Также предупреждают об изменении лицензии MiniMax M2.7, которая теперь запрещает коммерческое использование, и предлагают альтернативы вроде Gemma 4 31B для чата. Обсуждение

Источники: LocalLLM
Kwipu превращает заметки Obsidian в граф знаний для MCP

Инструмент Kwipu работает как полностью локальный MCP сервер для Ollama. Он позволяет преобразовывать заметки в формате Markdown и Obsidian в запрашиваемый граф знаний без отправки данных во внешние сервисы. Решение подходит для организации личной базы знаний с поддержкой локальных моделей. Проект

Источники: ollama
Гибридная локально-облачная архитектура для команды из 5 разработчиков

Пользователь проектирует workflow для команды из 5 разработчиков с гибридным подходом: облачная модель работает как планировщик/архитектор, локальная — как исполнитель кода. В планах использовать OpenCode как интерфейс, кастомный роутер и локальную модель Qwen 27B FP8 через vLLM. Ключевой вопрос: хватит ли 2x RTX 3090 (24GB каждая) для 5 одновременных задач с контекстом 64k и активным использованием RAG. Облаку передаётся только сжатое дерево репозитория и выбранные файлы, полный код остаётся локально. Обсуждение включает запросы на рекомендации по моделям и опыту подобных архитектур.

Источники: LocalLLM
Ежедневный новостной кроссворд на Ollama и qwen:32b

Создан проект CrossGoss — ежедневный кроссворд, где каждое clue основано на реальной новости. Пайплайн загружает статьи, суммирует их и локально фильтрует через qwen:32b в Ollama для дедупликации. Ключевые слова извлекаются для построения сетки, а подсказкой служит саммари с пропущенным ключевым словом. При настройке промтов потребовалась итерация, так как модель иногда отвечала на китайском. Сайт проекта, обсуждение

Источники: ollama
lvm — менеджер версий для llama.cpp по аналогии с nvm

Разработчик представил lvm, инструмент для управления версиями llama.cpp, вдохновленный nvm из экосистемы Node.js. Утилита позволяет устанавливать, переключать и удалять версии через команды install, use и ls, автоматически подбирая сборку под GPU. Система использует shim-механизм, чтобы вызовы llama-cli и llama-server всегда направлялись на активную версию без ручной настройки PATH. Проект написан на Go с помощью AI-ассистентов и позиционируется как легковесная альтернатива Docker-контейнерам для повседневного использования. Исходный код доступен на GitHub.

Источники: LocalLLM
Prompt eval vs generation: как правильно указывать скорость в t/s

В сообществе существует путаница в метриках скорости: prompt eval (обработка входного промпта) и eval/decoding (генерация ответа). Пользователь M1 Pro 32GB получает 45 t/s на prompt eval, но лишь 4 t/s на генерацию с Qwen 3.6 27B MTP. В комментариях поясняют, что по умолчанию t/s обычно означает decoding, тогда как prompt processing измеряется сотнями или тысячами токенов в секунду. Для M1 Pro с q4 и MTP ожидается около 9 t/s на генерацию. Бенчмарки доступны на omlx.ai.

Источники: LocalLLM
Llama.cpp против LMStudio: реальная разница в производительности

В сообществе обсуждают, стоит ли переходить с LMStudio на чистый Llama.cpp ради скорости генерации токенов. Пользователи отмечают прирост в 5-15% при использовании Llama.cpp напрямую, но для многих это не критично по сравнению с удобством GUI в LMStudio. Один из участников заметил, что наибольший прирост производительности дал переход на Linux, а не смена инструмента. В качестве альтернативы рекомендуют Unsloth Studio — он быстрее LMStudio и сохраняет удобный интерфейс. Обсуждение

Источники: LocalLLM
Сравнение inference-провайдеров по cache-hit rate на данных OpenRouter

В сообществе AgentsOfAI опубликовали сравнение провайдеров инференса по проценту попаданий в кэш на основе данных OpenRouter. Метрика важна для агентных систем, где повторяющиеся запросы могут значительно снизить стоимость и задержки. Подробный анализ и методология сбора данных доступны в отдельном материале. Анализ

Источники: AgentsOfAI
Векторы эмбеддингов для датасета NVIDIA Nemotron Personas

Для датасета nvidia/Nemotron-Personas, содержащего миллионы синтетических персон с подробными характеристиками, подготовлены предвычисленные векторы эмбеддингов. Поиск и кластеризация в таком объёме данных затруднены, поэтому автор использовал Qwen 0.6B для расчёта семантических векторов — лёгкая модель справляется с поиском K-Nearest Neighbours и группировкой персон. Доступны эмбеддинги для Кореи, Японии, Франции и США, есть веб-демо для тестирования. Ресурс подойдёт для локальных агентных проектов, требующих работы с персонажами. Коллекция на HuggingFace

Источники: LocalLLaMA
Shortcast — macOS-приложение для генерации постов из видео на Gemma 4

Shortcast — нативное приложение для macOS, которое анализирует короткое вертикальное видео и готовит тексты для TikTok, Instagram Reels и YouTube Shorts. Внутри работает Gemma 4 E4B через MLX Swift полностью локально: модель обрабатывает кадры и аудиодорожку, возвращая заголовок, описание и хэштеги для каждой платформы. Пользователь получает три редактируемых превью и может одной кнопкой опубликовать видео с текстом во все три сети. Ключи API хранятся в macOS Keychain, телеметрии нет, лицензия Apache 2.0. Требуется macOS 15 и Apple Silicon. Репозиторий

Источники: LocalLLM
Как писать эффективные системные промпты для локальных моделей

Пользователь поделился опытом работы с системными промптами в Ollama — на примере Gemma4:e4b промпт работает, но уступает профессиональным инструментам вроде Claude Code. В обсуждении советуют делать промпты менее двусмысленными: вместо «ты профессиональный редактор» писать конкретно «исправь грамматику в тексте». Другой подход — рассматривать системный промпт как спецификацию интерфейса: определить формат вывода, режимы ошибок и привести примеры хорошего и плохого поведения. Для небольших локальных моделей рекомендуют собрать небольшой eval-сет под свои задачи и тестировать изменения по одному правилу. Обсуждение

Источники: ollama
Зачем нужны uncensored-модели вне ролевых сценариев

Пользователь задаётся вопросом, есть ли практический смысл в uncensored-моделях, если не использовать их для ролеплея. При тестировании RAG оказалось, что такие модели иногда выдают случайные ошибки, которых нет в обычных версиях, а простые промпты вроде «не давай пропаганду» обходят стандартные ограничения. В обсуждении приводят другие варианты использования: исследования по акциям (модель не отказывается давать мнения фразой «я не могу давать финансовые советы»), реверс-инжиниринг и задачи, где цензура мешает разработке. Тема

Источники: LocalLLaMA
Локальная модель для бухгалтерских задач

Автор использует Qwen 3.6 27b для ежемесячного закрытия счетов, сверки банковских выписок и управления дебиторской/кредиторской задолженностью. На базе SQLite построена простая база данных, которую модель обслуживает, плюс интегрированы Claude skills и репозиторий financial-services от Anthropic. Несмотря на слабое iGPU и запуск MTP-версии в ночное время, система справляется с задачами. По мнению автора, локальные модели постепенно становятся практичным инструментом для реальных рабочих процессов. Пост

Источники: LocalLLaMA
Тестирование модели с методом RYS на HuggingFace

На HuggingFace выложили модель Qwopus3.6-27B-v2-MTP с применением метода RYS в квантовании Q5_K_M. Автор ищет добровольцев для тестирования и сравнения результатов, поскольку собственный сетап показывает низкую скорость. Метод описан в блоге dnhkng.github.io, но практические эффекты ещё требуют проверки сообществом. В комментариях спросили, как RYS работает с MTP, можно ли использовать метод в MOE-архитектурах для стабильности инференса, и почему выбраны именно 3 слоя для применения техники. модель

Источники: LocalLLaMA
Почему важно, чтобы AI-система говорила «я не знаю»

Автор отмечает, что в рабочих сценариях (закупки, операции, логистика) важнее не качество рассуждений модели, а её способность работать с верифицируемыми данными. General-purpose агенты часто выдают уверенные ответы даже при отсутствии актуальной информации — цены поставщиков, статусы заказов, наличие на складах. Системы, подключённые к реальным источникам данных и признающие неопределённость, вызывают больше доверия. В комментариях пользователи делятся опытом: кто-то настраивает локальных агентов на веб-поиск при сомнениях, другие хвалят Minimax 2.7 за частые «я не знаю» вместо галлюцинаций. Обсуждение

Источники: LocalLLM
Лучшие маленькие модели для запуска на CPU

Пользователь спрашивает о текущих Small Language Models, которые можно запускать без GPU с хорошим балансом точности и скорости. В комментариях рекомендуют серию LFM от LiquidAI: LFM2.5-1.2B-Thinking, LFM2.5-1.2B-Instruct и LFM2-8B-A1B в GGUF-формате. Один из участников использует 8B-A1B на NAS с CPU-only в связке с KaraKeep для авто-генерации тегов и саммари. Также упоминают Gemma 4 (26B MoE) и Qwen 3.6 (35B MoE) — работают на CPU со скоростью 10-15 токенов/сек, что вполне применимо на практике. Тред

Источники: LocalLLaMA
Запуск Gemma4 (Gemini Nano) в Chrome без GPU

Пользователь создал расширение для запуска модели Gemma4 (Gemini Nano) прямо в браузере Chrome без необходимости в GPU или сложных настройках вроде llama.cpp. Для работы требуется 16 ГБ ОЗУ, модель функционирует полностью локально с контекстом 9216 токенов на сессию. На ноутбуке без дискретной видеокарты скорость составляет около 20 токенов в секунду, расширение называется Dobby и имеет открытый код. Подробнее

Источники: LocalLLaMA
Релиз llampart 1.0.0 — веб-интерфейс для llama-server

Вышла первая публичная версия llampart, standalone веб-UI для работы с llama-server с акцентом на локальное использование. Интерфейс поддерживает локализацию на шести языках, расширенные настройки, управление MCP и удобную боковую панель для диалогов с закреплением и экспортом. Доступны темы оформления включая режим Frosted Glass, проект распространяется под лицензией MIT. Релиз

Источники: LocalLLaMA
Полный редуб игры за 2 дня на открытых инструментах

Пользователь поделился опытом полной озвучки игры, используя только open source инструменты. Весь процесс занял два дня работы. Детали проекта и использованный стек доступны в посте.

Источники: LocalLLM
Выбор лучшей версии Qwen3-27B для кодинга: рекомендации комьюнити

Пользователь ищет оптимальную конфигурацию Qwen3-27B для генерации кода на NVIDIA DGX Spark с KV Cache BF16. В обсуждении рекомендуют кванты от cyankiwi — INT4 и INT8 версии показывают lower KLD чем Unsloth UD-Q6. Также упоминается файлн-тюнинг Jackrong Qwopus3.6-27B-v2-GGUF как отличная альтернатива. Часть комментаторов советует фокусироваться на настройке agent.md и инструментов разработки, а не на смене квантизации. Подробности и ссылки на модели в обсуждении.

Источники: LocalLLM
Вопросы о динамических активных параметрах в MoE-моделях

Пользователь задал вопрос о возможности выбора количества активных параметров в модели — от dense до MoE в зависимости от задачи. В комментариях объяснили, что технически выбирать число активных параметров в MoE можно, но в 99% случаев это нецелесообразно. Динамический роутинг по сложности задачи, вероятно, используется в GPT-5 на уровне гарнитура, а не внутри модели. MTP-слой не может работать автономно — он зависит от остальных слоёв и ранее сгенерированного текста. Изменение весов на лету теоретически возможно, но создаёт проблемы стабильности для фиксированных рабочих процессов. Обсуждение

Источники: LocalLLaMA
Автоматизация обработки почты через n8n и Gemini

Пользователь автоматизировал обработку 50+ ежедневных писем поддержки с помощью стека n8n, Gmail, Gemini и Telegram. Агент классифицирует важность писем: критичные отправляют уведомление в Telegram с черновиком ответа, остальные логируются в Google Sheets. При настройке возникли сложности с бесплатными лимитами AI и скрытыми символами в строках, которые ломали сравнение условий. Решение потребовало явной нормализации строк и корректного указания путей к данным в узлах n8n. Подробности

Источники: AgentsOfAI
Проблемы мультиинстанса llama.cpp на 4x AMD R9700

Запуск нескольких экземпляров llama.cpp на системе с 4x AMD Radeon AI PRO R9700 через Vulkan backend приводит к нестабильности. Одиночный GPU работает стабильно со скоростью 129 t/s decode, но при параллельном запуске 3-4 процессов процессы завершаются ошибкой без явных сообщений. Использование ROCm невозможно из-за deadlock в RCCL на мульти-GPU конфигурации. Автор ищет информацию о конфликтах ресурсов между процессами Vulkan на драйвере RADV. Тред

Источники: LocalLLM
OpenAI исправили баг с кэшем в Codex

OpenAI устранили ошибку кэширования в Codex, которая приводила к быстрому исчерпанию лимитов использования. Пользователям восстановили квоты после сброса. Также Тибо намекнул на появление режима `/slow` для Codex, который оптимизирует выполнение несрочных объемных задач. Подробнее в источнике.

Источники: ai_newz
Автоматизация почты через n8n и Gemini

Автор настроил AI-агента для обработки 50+ ежедневных писем. Воркфлоу на n8n анализирует входящие через Gmail, определяет важность и тему, отправляет уведомления в Telegram для важных писем с готовым черновиком ответа. Стек бесплатный: n8n, Gmail, Gemini, Telegram-бот, Google Sheets для логирования. В комментариях делятся опытом использования n8n с MCP для автоматической сборки и отладки потоков — время от идеи до продакшена сократилось с недель до часов. Основные проблемы: невидимые символы в строках и лимиты бесплатных AI-провайдеров. Полный разбор в посте.

Источники: ollama
Выбор abliterated-версии Gemma 4 31B и 26B-A4B: опыт сообщества

Обсуждение актуальных версий Gemma 4 от разных авторов спустя два месяца после релиза. Пользователи тестируют квантованные модели, включая версии от llmfan46 (31B и 26B-A4B regular). В комментариях отмечают, что Gemma 4 по умолчанию не имеет цензурных ограничений, поэтому необходимость в abliterated-вариантах под вопросом. Тем не менее, некоторые ищут версии с улучшенной обработкой NSFW-запросов. Обсуждение

Источники: LocalLLaMA
Проблемы с задержкой Sarvam AI для голосовых агентов

Разработчик SaaS для голосовых агентов столкнулся с высокой задержкой Sarvam Bulbul TTS при обработке двуязычных запросов (английский и хинди). Модель хорошо справляется с Hinglish, но время отклика превышает 1 секунду, тогда как Deepgram и Cartesia показывают 150-250 мс. При стоимости 2-3 рупии за минуту против 8-11 у конкурентов, задержка остаётся критичной для телефонных звонков. Сообщество ищет альтернативы с поддержкой индийских языков и низкой латентностью. Тема

Источники: LocalLLM
Веб-приложение для локальных LLM с XTunnel и RAG

Разработчик опубликовал легковесное веб-приложение, которое объединяет фронтенд для локальных моделей вроде Ollama или LM Studio с безопасным доступом через XTunnel. Туннель позволяет expose локальный LLM в интернет без проброса портов и облачных прокси, хранящих данные. Встроенный RAG работает с загружаемыми PDF, markdown и txt файлами, используя sentence-transformers и Chroma для локального эмбеддинга. Стек включает FastAPI, SQLite и HTMX, при этом безопасность туннеля остается ответственностью пользователя. Описание проекта

Источники: LocalLLM
Golem — Electron-приложение для работы с локальными моделями

Разработчик представил Golem, десктопное GUI для локальных моделей на Electron (основная платформа — Windows, сборки macOS/Linux существуют без полноценного тестирования). Интерфейс повторяет опыт Gemini и Claude Desktop. Sigils — пресеты системных промптов с ролью модели, Skills — шаблоны рабочих процессов с конструктором. Есть система Projects (привязка папок/файлов к контексту беседы), поддержка MCP и локальная статистика использования. Автообновление проверяется при запуске, в следующих релизах уберут 4-часовой пинг. Версия 0.7, до 1.0 ещё в работе. GitHub

Источники: ollama
Wildllama — новый UI для Ollama

Пользователь разработал собственный интерфейс для Ollama под названием Wildllama. Проект доступен в виде публичного репозитория с исходным кодом. Детали архитектуры и функциональности в посте не раскрываются, но автор отмечает, что работал над UI несколько дней после завершения других проектов. Репозиторий

Источники: ollama
Первый полнометражный AI-фильм показали в Каннах

Стартап Higgsfield создал научно-фантастический фильм Hell Grind длиной 95 минут с использованием искусственного интеллекта. Это первая AI-генерируемая полнометражная картина, показанная на Каннском кинофестивале. Бюджет проекта составил около $500 000, причем почти 80% средств ушло на вычислительные мощности для генерации. Источник

Источники: startupsi
Эксперимент с системой ансамбля нескольких LLM

Разработчик поделился проектом системы для запуска ансамблей нескольких локальных моделей. Реализованы режимы работы с GPU, последовательное и параллельное выполнение запросов, а также маршрутизация от одной модели до всех доступных. Автор ищет рекомендации по дальнейшему развитию функционала и расширению возможностей системы пост.

Источники: LocalLLM
Сопоставление товаров между супермаркетами на Gemma 26b MoE

Пользователь поделился опытом использования Gemma 26b MoE через LM Studio для задачи точного сопоставления товаров между двумя сетями супермаркетов. Модель обрабатывает batches по 2 товара за 5-30 секунд с хорошей точностью, но иногда попадает в циклы повторных размышлений (1-5 раз) перед финальным ответом. Промпт включает строгие правила: объём/вес должен совпадать (максимум 10% отклонения), размер упаковки одинаковый, вкус/вариант идентичный, хаус-бренды вроде Jumbo и AH считаются эквивалентными. Вывод модели — raw JSON array с matched_id для каждого товара без markdown-форматирования. Автор ищет советы по оптимизации workflow и устранению reasoning loops. Пост

Источники: LocalLLM