← все дайджесты

понедельник, 25 мая 2026 г.

AI Digest: Qwen3.6 разогнали до 249 токенов/с на RTX 5090M, Command A+ на Apple Silicon и LEMoE для MoE-маршрутизации

Qwen3.6-35B-A3B достиг 249 токенов/сек на RTX 5090M с MTP и APEX-квантованием. Command A+ (218B MoE) запущен на Apple Silicon через MLX. NVFP4 и MTP теперь доступны в llama.cpp. LEMoE представлен как stateless router для MoE в локальных LLM. Trooper научился восстанавливать агентов после сбоев с Ollama как fallback. Gemma 4 E2B теряет качество после 30-40 инференсов на 4GB VRAM. Первый полнометражный AI-фильм показали в Каннах. Работники в Индии собирают данные для человекоподобных роботов.

Рекорды производительности и новые возможности

  • Qwen3.6 35B-A3B показывает 249 токенов/с на RTX 5090M

    Модель Qwen3.6 35B-A3B с архитектурой MTP демонстрирует скорость генерации 249 токенов в секунду на потребительской видеокарте с 24 ГБ VRAM. По данным поста, это в 3.4 раза выше производительности плотной 27B версии на том же железе. Результаты достигнуты на базе RTX 5090M, что указывает на эффективность разреженных архитектур для селф-хостинга. Источник

    Источники: LocalLLM

  • Запуск Qwen3.6 35B MoE на RTX 3050 6GB: 26 t/s с контекстом 64K

    Пользователь поделился конфигурацией для запуска Qwen3.6 35B-A3B MoE на ноутбуке с RTX 3050 6GB VRAM и 24GB RAM. Система выдаёт 22–26 t/s при генерации и 180–261 t/s при обработке промптов с контекстом 64K. Ключевые оптимизации включают сборку llama.cpp с CUDA, флаг `-ot "exps=CPU"` для выгрузки экспертов на процессор и кэширование KV в q4_0. Потребление составляет ~3.5GB VRAM и ~22GB RAM с использованием swap. В комментариях отмечают, что для таких конфигураций важнее определить конкретные задачи и подбирать специализированные решения — обсуждение.

    Источники: LocalLLM

  • NVFP4 и MTP теперь доступны в llama.cpp

    В llama.cpp добавлена поддержка NVFP4 квантования вместе с MTP (Multi-Token Prediction) в одном релизе. Пользователи обсуждают, имеет ли смысл NVFP4 на картах кроме Blackwell — загрузка более крупных моделей может нивелироваться низкой скоростью инференса. Также отмечают снижение качества по сравнению с Q6_K по метрике KLD. Релиз доступен в репозитории ggml-org. Релиз b9297

    Источники: LocalLLaMA

  • Command A+ (218B MoE) запущен на Apple Silicon через MLX

    Cohere выпустила Command A+ с открытой лицензией Apache 2.0 — модель на 218B параметров (25B активных), использующая MoE-архитектуру с 128 экспертами. Энтузиасты портировали модель в mlx-lm для запуска на Apple Silicon. Архитектурные особенности включают общего эксперта с увеличенным intermediate-слоем, sigmoid-роутинг вместо softmax и sliding window 3:1. На машине с достаточной памятью модель показывает 22.9 токенов/сек при генерации и 57.6 токенов/сек при обработке промпта в BF16→Q8. Pull request уже открыт в репозитории mlx-lm и находится на ревью. Подробнее

    Источники: LocalLLaMA

  • Тестирование MTP с Qwen3.6-27B на MacBook M5 Max

    Автор протестировал специулятивное декодирование (MTP) с моделью Qwen3.6-27B в квантовании Q6_K_XL на MacBook M5 Max со 128GB RAM. Без MTP получил 19 tps, с MTP — 22.3 tps, а после настройки параметров (--spec-draft-n-max 3 и --spec-draft-p-min 0.75) достиг 24.5 tps. В комментариях отмечают, что прирост в 17% для M5 — неплохой результат, поскольку пропускная способность памяти ограничивает acceptance rate на Apple Silicon. Для смешанных рабочих нагрузок на M-серии такой прирост считается ожидаемым. Пост

    Источники: LocalLLaMA

  • CPU-инференс Qwen3-30B-A3B: 35 токенов/сек на модель при полной загрузке RAM

    Пользователь протестировал параллельный запуск моделей Qwen3-30B-A3B на CPU с полной загрузкой оперативной памяти, достигнув производительности около 35 тысяч токенов в секунду на каждую модель. Результаты показали, что потенциал CPU-инференса часто недооценивают — можно эффективно работать без GPU при достаточном объёме RAM. В комментариях спросили о конфигурации железа (один из участников упомянул 80-ядерный ARM-нод с 128GB RAM) и поинтересовались, есть ли что-то особенное в этой версии Qwen или можно использовать Qwen 3.6. пост

    Источники: LocalLLM

  • Qwen3.6-35B с MTP и APEX-квантованием

    Вышла uncensored-версия Qwen3.6-35B-A3B с поддержкой MTP и APEX Compact квантования в форматах GGUF и Safetensors. Тесты на Beelink GTR9 Pro с процессором Strix Halo показали стабильную работу с контекстом 200k токенов — 5 сессий без глюков, петель или повторяющихся вызовов инструментов. Модель корректно переключается между несвязанными задачами после 120k токенов. Рекомендуемые кванты — APEX и MTP-APEX, однако в комментариях отмечают, что APEX может вызывать проблемы с код-агентами и неправильные вызовы инструментов. Для LM Studio предоставлены системный промпт и chat template. Модель на HuggingFace

    Источники: LocalLLaMA

  • Qwen 3.6-35B играет в DCSS: сравнение MTP и non-MTP версий

    Тестирование Qwen 3.6-35B-A3B в ролике Dungeon Crawl Stone Soup показало, что non-MTP версия на квантовании q4_k_xl справляется с игрой хорошо, тогда как MTP-версия выдаёт некорректные tool calls. Для управления используется гибридный подход: скриншоты через flameshot как визуальный источник состояния и character dumps из morgue-директории как структурированный текст. Бот нажимает «#» в игре для генерации дампа, затем парсит последний .txt-файл для извлечения HP/MP, уровня, угроз и последних сообщений. xdotool отправляет команды в окно игры, Ctrl-P служит резервным источником истории. Тест

    Источники: LocalLLaMA

  • Запуск qwen3.6-35b на GTX 1060 6GB через LMStudio

    Энтузиасту удалось запустить qwen3.6-35b-a3b-mtp на устаревшем железе: Dell T5810, процессор E5-2698v3 и видеокарта GTX 1060 6GB после майнинга. Использовалась квантованная версия unsloth Q4_K_XL в Windows через LMStudio с контекстом 131072. Производительность составила 130-150 токенов/сек на префилле и около 16 токенов/сек при декодировании. В комментариях советуют поэкспериментировать с оффлоудом слоев, так как сейчас видеокарта задействована преимущественно для KV и draft stack. Подробности

    Источники: LocalLLaMA

Бенчмарки моделей: сравнения и ограничения

  • tinyllama и llama3.2:3b провалили тест на булеву логику — оба показали 50%

    Автор бенчмарка проверил способность локальных моделей к булевой логике без кода — только чистые логические рассуждения. Для оценки использовался детерминированный движок с полным перебором таблиц истинности, верифицированный через z3. Результаты удивили: tinyllama и llama3.2:3b оба набрали 50%, но по разным причинам. tinyllama всегда отвечал «yes» и пропускал все конфликты, llama3.2:3b всегда отвечал «no» и пропускал все совместимые пары. Ни одна модель не рассуждала — обе выдавали константу. Пост содержит скрипт бенчмарка и репозиторий bool-LLM-ngn.

    Источники: ollama

  • Бенчмарк function calling: Needle 26M против Qwen3-0.6B на CPU

    Сравнение специализированной модели Needle (26M) и универсальной Qwen3-0.6B показало преимущество узкого специалиста на процессоре. Needle превзошла конкурента в точности вызова инструментов (72% против 56%) и скорости (10.9с против 47.9с), однако хуже справляется с многоязычными запросами и не поддерживает диалог. Qwen3 чаще ошибается в парсинге, но лучше работает с иностранными языками. Важно учитывать формат схемы: Needle требует специфической структуры, иначе точность падает до 8%. Детали теста

    Источники: LocalLLaMA

  • Специализированная модель 26M параметров обошла Qwen3-0.6B в function calling

    Автор провёл бенчмарк Needle 26M (специализированная модель для function calling) против Qwen3-0.6B (универсальная). Needle показала 72% успешных вызовов против 56% у Qwen3 и была в 4.4 раза быстрее на CPU. Ключевое различие в типах ошибок: Qwen3 чаще не использует инструменты вовсе (emit-ит текст вместо тегов), а Needle ошибается в выборе инструмента, но аргументы передаёт верно. Для неявных запросов вроде «стоит ли брать зонт в Амстердаме» Needle показала 80% против 10% у Qwen3. Автор рекомендует подбирать модель под распределение пользовательских запросов и рассматривать каскадные системы. Полный отчёт, код и данные

    Источники: LocalLLM

  • Бенчмарк TTS-моделей для локального использования

    Автор создал собственный бенчмарк для сравнения TTS-инструментов, доступных на май 2026 года. Тестирование уже проведено на Windows и Mac, результаты для Linux с конфигурацией 5900XT и 3090 скоро появятся. Данные представлены на HTML-странице в репозитории, что упрощает выбор TTS-решения для персональных проектов. В репозитории можно найти скрипты для самостоятельного тестирования и сравнения производительности. Репозиторий

    Источники: LocalLLaMA

  • Vision LLM против OCR: бенчмарк для длинных документов

    Сравнение vision-моделей и OCR-пайплайнов на 30 длинных PDF с графиками и таблицами из MMLongBench-Doc показало неожиданные результаты. Native PDF (vision LLM) занял 5-е место из 6 по точности (52,0%) и оказался самым дорогим вариантом — $0,2552 за запрос. Premium OCR с извлечением макета показал 59,6% точности при стоимости $0,1885. Vision-подход имел 7% внутренних ошибок, связанных с размером файлов, тогда как OCR после повторных попыток достиг 0% отказов. Разрыв в точности статистически значим по тесту Макнемара. Полный отчёт

    Источники: LocalLLaMA

  • Тестирование Gemma3:4b в движке bool-LLM-ngn

    Модель Gemma3:4b протестировали в открытом движке bool-LLM-ngn. Она демонстрирует признаки рассуждения и варьирует ответы, но уровень галлюцинаций остается на уровне 35%. Движок доступен с интерфейсом Streamlit для запуска собственных моделей репозиторий. Участники обсуждают тестирование Mistral или Phi3 для определения порога рассуждения в зависимости от количества параметров. Обсуждение

    Источники: ollama

  • Лучшая модель для 24GB VRAM в мае 2026

    Владелец RTX A5000 с 24GB видеопамяти ищет оптимальную чат-модель для агентских задач без необходимости в кодинге. В комментариях рекомендуют Qwen 3.6 27B в 4-битной квантовке как наиболее подходящий вариант для 24GB. Некоторые участники отмечают, что 27B с MTP работает лучше, чем 35B версия. Детали выбора и сравнения моделей в обсуждении.

    Источники: LocalLLM

  • Gemma 4 E2B теряет качество после 30-40 инференсов на 4GB VRAM

    Пользователь столкнулся с деградацией качества выводов Gemma 4 E2B при непрерывной работе через llama-server на GTX 1650 с 4GB VRAM. После 30-40 запросов ответы становятся короче, в JSON-выводе пропадают поля, иногда приходят пустые результаты. Перезапуск llama-server немедленно решает проблему. Конфигурация: flash-attn включён, один слот, контекст 6144, ngl 15. Обсуждается возможная причина — утечка KV cache или фрагментация видеопамяти со временем. Пост

    Источники: LocalLLaMA

  • Gemma 4 2B: структурированный JSON, tool calling и reasoning traces в локальном setup

    Пользователь протестировал google/gemma-4-e2b локально через LM Studio с OpenAI-совместимым эндпоинтом в Spring Boot-приложении. Модель корректно вернула JSON по схеме CodeReview (issues, qualityScore, suggestions, summary), нашла баг с == вместо .equals() в Java-коде и предложила рефакторинг на Streams. Quality score составил 50/100 — идентично Claude Sonnet 4.6, GPT-4o дал 55. Tool calling сработал без дообучения: модель сама вызвала weather-функцию для вопроса про зонт в Риге, извлекла параметр локации и вернула ответ. LM Studio добавил поле reasoning_content с пошаговым анализом перед финальным JSON. Пост включает видео-демо с тестом офлайн-инференса.

    Источники: LocalLLaMA

  • Сравнение Qwen3.6-35B и Gemma4-26B: скорость против инструментов

    Обсуждение выбора между Qwen3.6-35B-A3B и Gemma4-26B-A4B на железе AMD. Gemma4 показывает значительно более высокую скорость генерации на Radeon 9070 XT в llama.cpp, но пользователи отмечают проблемы с вызовом инструментов. В комментариях советуют использовать Gemma для ролевых сценариев, а Qwen — для задач, требующих точности и работы с функциями. Квантование варьируется от Q4 до Q5 в зависимости от модели. Обсуждение

    Источники: LocalLLaMA

  • Сравнение локальной модели Qwen и Opencode при генерации кода

    Пользователь протестировал локальную модель Qwen3.6-35B-A3B-Q4_K_M для создания веб-интерфейса агента. Скорость генерации достигала 90–100 токенов в секунду. Простой промпт позволил получить минималистичный рабочий код, тогда как специализированный инструмент Opencode выдал более сложную структуру из четырёх файлов, которая не заработала. Опыт демонстрирует эффективность современных локальных моделей в задачах кодинга без излишнего инжиниринга подробности.

    Источники: LocalLLM

  • Сравнение OCR-моделей granite-docling от IBM

    В сообществе обсуждают различия между granite-docling-258m и granite-docling-2stage-258m от IBM. Вторая версия использует динамический промпт с предвычисленными объектами layout на странице, что должно повышать робастность на out-of-distribution данных. Обе модели доступны на Hugging Face, но практические улучшения пока не очевидны для пользователей. Автор поста спрашивает, заметил ли кто-то реальную разницу в работе. Модели

    Источники: LocalLLM

Железо для локального инференса: конфигурации и цены

  • Оптимизация скорости инференса Qwen3.6 27B на мульт GPU-конфигурации

    Пользователь делится опытом запуска Qwen3.6 27B для агентных задач с длинным контекстом. На конфигурации из 1×2060 Super 8GB + 2×5060 Ti 16GB (40GB VRAM суммарно) достигается 300-500 токенов/сек при обработке промпта и 22-30 токенов/сек при генерации с контекстом 100k. Используется llama.cpp с spec-decoding через MTP-драфт (q4_0), флагами -fa on, --kv-unified и температурой 0.6. Автор ограничил контекст 100k вместо 128k из-за невозможности уместить всё в VRAM без сброса в RAM. В обсуждении ищут дополнительные флаги для выжимания производительности — пост.

    Источники: LocalLLaMA

  • Проблемы производительности vLLM на NVIDIA DGX Spark в продакшене

    Компания с ~20 пользователями запустила AI-приложение на NVIDIA DGX Spark с vLLM и Qwen3-32B (требуется мультиязычность). При 32K контексте и ~5 параллельных пользователях скорость генерации составляет лишь ~3.6 токенов/сек, что недостаточно для продакшена. Включены prefix caching и chunked prefill, max-num-seqs=4. Контейнер собран на основе spark-vllm-docker. Автор запрашивает опыт по выбору мультиязычных моделей, тюнингу vLLM, квантованию и альтернативным inference-стекам — обсуждение.

    Источники: LocalLLM

  • Гайд по запуску LLM на Fedora через Ryzen NPU

    Вышло руководство по настройке запуска языковых моделей на ОС Fedora с использованием нейропроцессора Ryzen NPU. Материал описывает процесс работы с ИИ без дискретной видеокарты, задействуя встроенные вычислительные возможности процессора AMD. Инструкция может быть интересна владельцам соответствующего железа для организации локального инференса. Гайд

    Источники: LocalLLM

  • Intel Arc Pro B70: Vulkan стабильнее и быстрее SYCL в llama.cpp

    Пользователь протестировал Intel Arc Pro B70 с llama.cpp и обнаружил существенную разницу между бэкендами. Vulkan показывает 700 t/s на pp512 для Qwen3.6-27B против 315 t/s у SYCL, а на Qwen3.5-35B-A3B достигает 102 t/s против ошибок out-of-resources у SYCL. Однако в комментариях отмечают: Vulkan быстрее, но обработка изображений на B70 крашится, тогда как SYCL с изображениями работает стабильно. Автор не тестировал vLLM и LM Studio, запросил рекомендации по ускорению. Тесты доступны в посте.

    Источники: LocalLLM

  • Удаление vision-компонентов для экономии VRAM

    Пользователь удалил файл mmproj из модели Qwen 3.6 35b, чтобы освободить видеопамять. В обсуждении подтвердили, что этот файл содержит тензоры для кодирования изображений, и его удаление никак не влияет на текстовые способности модели. Для тех, кто хочет сохранить возможность работы с изображениями без загрузки в VRAM, предлагают использовать флаг --no-mmproj-offload, оставляя функционал в оперативной памяти. Обсуждение

    Источники: LocalLLaMA

  • Оптимизация llama.cpp для AMD MI60 в задачах умного дома

    Автор поделился результатами 30 прогонов llama-bench на GPU MI60 с 32 ГБ VRAM для интеграции с Frigate и HomeAssistant. Использование готового Docker-контейнера упростило настройку ROCm, а подбор параметров кэша KV и batch size сократил задержку голосовых команд до 1.2с. Для генерации сводок с камер время обработки уменьшилось до 18 секунд. В комментариях отметили, что квантование KV-кэша может негативно сказаться на скорости генерации. Отчет и настройки

    Источники: LocalLLaMA

  • Выбор железа для OpenClaw: HX370, апгрейд десктопа или облако

    Владелец RTX 5080 16GB ищет оптимальную конфигурацию для OpenClaw и агентного программирования с надёжной работой инструментов и навыков. Локальные модели 4B и 9B показывают недостаточное качество для автономных задач. Рассматриваются три варианта: мини-ПК на HX370 с 64–96GB RAM за €1.5k, апгрейд текущей системы до 64GB RAM за €1k, или облачные подписки на 1–2 года. Центральный вопрос — минимальный размер модели, при котором агентная работа становится стабильной. Детали в посте.

    Источники: LocalLLM

  • Производительность при выгрузке больших моделей в системную память

    Обсуждается стратегия запуска тяжелых моделей вроде Deepseek V4 Pro на видеокартах с ограниченным VRAM через оффлоад весов в системную DDR5. Возникает вопрос, есть ли преимущество у карт с большим объемом памяти (например, RTX 6000 на 96 ГБ) перед 5090 на 48 ГБ, если эксперты постоянно свопятся между VRAM и RAM. Участники анализируют влияние пропускной способности PCIe на скорость декодирования и возможность кэширования экспертов в видеопамяти для ускорения работы. Обсуждение

    Источники: LocalLLaMA

  • Запуск Supra-50m на 26-летнем ПК с Windows 9.X

    В эксперименте модель Supra-50m запустили на винтажном компьютере для ретро-игр с Windows 9.X. CPU не поддерживает SSE2, поэтому вместо llama.cpp использовали llama2.c с кастомным токенизатором от Claude. Результат — около 1.3 tok/s на CPU inference. Автор отмечает, что с правильным файлом весов на 200 МБ подобные модели могли бы работать ещё в 1999 году. Пост с деталями эксперимента.

    Источники: LocalLLM

  • Особенности размещения GPU при селф-хостинге

    Пользователь собрал систему с четырьмя GPU RTX 5060 Ti 16 ГБ на одной материнской плате и интересуется безопасным расстоянием между кардами. Несмотря на плотную компоновку, планируется андервольтинг для снижения тепловыделения и использования десяти корпусных вентиляторов. В обсуждении отмечают, что при сниженном напряжении требования к зазорам меньше, но промежуток в один слот всё же желателен для airflow. Также советуют протестировать температуры под нагрузкой и упомяняют возможность разгона VRAM для компенсации пропускной способности. Обсуждение

    Источники: LocalLLaMA

  • Тестирование DeepSeek V4 Flash на 8x V100

    Пользователь тестирует локальную инфраструктуру на базе 8 GPU NVIDIA V100 и процессоров Xeon 8260 для запуска DeepSeek V4 Flash в квантовании IQ6. Размер модели составляет 150.2 ГБ, память дополнена модулями Optane в режиме App Direct. Зафиксирована скорость генерации 97 токенов в секунду, автор запросил оценку результата относительно спецификаций оборудования. Конфигурация включает 256 ГБ оперативной памяти DDR4-2400 и ускоренное хранилище для работы с большими весами. Тест производительности

    Источники: LocalLLM

  • Запуск автономных агентов на CPU RAM вместо VRAM

    Пользователь обсуждает возможность запуска автономных агентов на оперативной памяти процессора вместо видеопамяти. Производительность ниже примерно в 20 раз, но стоимость VRAM остаётся высокой. Для задач вроде чтения почты, отправки уведомлений или круглосуточного исследования лидов такой подход может быть экономически оправдан. Обсуждение viability CPU-инференса для фоновых задач продолжается в треде.

    Источники: LocalLLM

  • Сборка за $5K для запуска 128B моделей

    Пользователь ищет конфигурацию железа за $5000 для запуска Qwen или Gemma 128B. В комментариях предлагают два RTX 8000 (96GB за ~$4500) или одиночную карту с 64GB RAM и настройкой CPU MoE через llama.cpp. Отмечают, что 128B dense модели редко нужны — MoE-версии работают на двух 3090 с NVLink или комбинации 5090+3090. Для кодинга рекомендуют 27B, для перевода — Gemma 31B. Варианты сборок в треде.

    Источники: LocalLLM

  • Первая неделя с DGX Spark и Hermes Agent

    Автор настроил локальную рабочую станцию на базе DGX Spark с использованием vLLM, Open WebUI и Hermes Agent. Наиболее эффективной связкой оказалась модель уровня Qwen 35B A3B через vLLM, которая обеспечивает достаточную скорость для интерактивного использования и корректные tool-вызовы. Hermes добавил слой агентного рантайма, но выявил проблемы с песочницей: файлы, созданные внутри Docker, не всегда доступны пользователю без узкого пути артефактов. Локальные модели хорошо справляются с приватной предобработкой и задачами, где данные не должны покидать машину, но требуют retrieval для фактов. Отчет

    Источники: LocalLLM

  • Как получить 24 ГБ VRAM на двух разных GPU AMD

    Пользователь поделился опытом объединения видеокарт разных поколений для запуска локальных моделей. На системе с Ryzen 5600X и Fedora 44 удалось связать RX 7800 XT (16 ГБ) и RX 6600 XT (8 ГБ) через Vulkan в LM Studio. Система автоматически управляет питанием: вторая карта уходит в спящий режим без нагрузки. Модель Qwen3.6-35B работает стабильно, все слои оффлоятся на GPU. После настройки параметров оффлоада и контекста система работает гладко. Автор обсуждает, стоит ли переходить на ROCm ради производительности. Подробнее

    Источники: LocalLLM

  • GB10 против MacBook Pro M5 Max: битва за локальный инференс

    Сравнение производительности GB10 и MacBook Pro M5 Max с 128 ГБ памяти для запуска моделей вроде Qwen 27B-Q8. M5 Max заявляет четырехкратное ускорение обработки промптов и удвоенную пропускную способность памяти по сравнению с GB10. В комментариях отмечают, что для чистого инференса лучше подойдет Linux-система с RTX 5090, а Mac выигрывает за счет удобства и приложений. Пользователи DGX Spark хвалят стабильность удаленного доступа, но владельцы Mac указывают на прогресс oMLX и кэширования. Дискуссия

    Источники: LocalLLM

  • Тестирование связки из двух RTX 5060 Ti для локальных LLM

    Автор эксперимента проверил работу двух видеокарт RTX 5060 Ti 16 ГБ на базе старого ПК, сравнив производительность с одиночным GPU. Тесты проводили на MoE-моделях gemma4-26b и qwen3.6-35b с вариациями квантования кэша KV. Конфигурация оказалась эффективной: стоимость двух карт значительно ниже, чем у одного GPU с 32 ГБ памяти вроде RTX 5090. В комментариях делятся опытом эксплуатации: на плотных моделях удается достичь 80 токенов в секунду, на MoE-версиях — около 33 токенов. Тред

    Источники: LocalLLM

  • Возможно ли запустить модель только в VRAM через llama.cpp

    Пользователь столкнулся с тем, что при запуске небольших моделей через llama.cpp на RTX 4070 часть данных все равно уходит в оперативную память, даже если веса помещаются в VRAM. Вопрос вызвал обсуждение технических ограничений: библиотека резервирует память процессора под кэш KV, буферы и служебные нужды, поэтому нулевое использование RAM практически недостижимо. В комментариях рекомендуют квантовать кэши ключей и значений до q8_0 или использовать GUI-оболочки для тонкой настройки параметров. Дискуссия

    Источники: LocalLLaMA

  • Обучение 1.58-битных моделей на NPU Huawei

    Исследователи опубликовали результаты работы BitCPM-CANN по обучению 1.58-битных моделей на платформе Huawei Ascend NPU без использования CUDA. Модели объемом до 8B параметров сохраняют до 97.2% производительности полноточных аналогов при сокращении памяти весов в 8 раз. Накладные расходы на обучение составили всего 4.5%, что делает технологию перспективной для внедрения. В обсуждении отмечают, что мелкие версии уже работают на CPU через llama.cpp, хотя и уступают в качествах другим решениям, но сам факт нативного обучения на NPU важен для экосистемы. Обсуждение

    Источники: LocalLLaMA

  • Сравнение производительности RTX 6000 PRO MaxQ и Workstation Edition

    Пользователи обсуждают разницу в производительности между RTX 6000 PRO MaxQ и версиями Workstation или Server Edition. Задачи, зависящие от пропускной способности памяти, например генерация токенов, показывают снижение скорости на 5–15% у MaxQ из-за лимита потребления 300 Вт против 600 Вт. Для вычислительно сложных задач, таких как обработка промптов или диффузия, разница может достигать 50% в пользу полноценной версии. Обсуждение включает ссылки на тесты и опыт владельцев обсуждение.

    Источники: LocalLLM

  • Рост цен на видеокарты RTX PRO Blackwell в Европе

    Пользователи сообщают о значительном подорожании линейки RTX PRO Blackwell в Центральной Европе. Стоимость RTX 6000 96GB выросла с €7500 до €11500, а RTX 5000 48GB — с €4500 до €6000. Участники обсуждения подтверждают дефицит и быстрый выкуп наличных запасов, отмечая похожую ситуацию в Норвегии, где цена RTX 6000 MaxQ увеличилась с €10500 до €12000 тред.

    Источники: LocalLLM

  • Обсуждение апгрейда до RTX 6000 Pro и пределов локальных моделей

    Пользователи обсуждают целесообразность покупки второй RTX 6000 Pro с 96 ГБ памяти. Основной вопрос: является ли Qwen 3.6 27b пределом для локального запуска до достижения 300 ГБ VRAM. В комментариях отмечают, что двойная конфигурация может пригодиться для архитектуры local council с несколькими моделями одновременно. Владелец M3 Ultra с 96 ГБ RAM добавляет, что пока сложно найти модель лучше qwen3.6, хотя Gemma 4 близка в нетехнических задачах. Обсуждение

    Источники: LocalLLM

  • Проблемы совместимости llama-bench с MTP и спекулятивным декодированием

    Пользователи столкнулись с невозможностью запустить llama-bench с поддержкой MTP, несмотря на работу конфигураций в llama-server. В обсуждении поясняют, что это проблема экосистемы llama.cpp: разные приложения пишутся разными людьми, что ведет к несовместимости флагов. Поддержка speculative decoding в llama-bench пока отсутствует. В качестве альтернативы сообщество рекомендует утилиту llama-benchy для бенчмаркинга. Тред

    Источники: LocalLLaMA

Агентные системы: память, оркестрация и восстановление

  • Agentic GRPO: новый подход к RL для длинных агентных workflows

    Традиционный RL для LLM рассматривает один ответ как одну траекторию, но агентные системы работают иначе: они вызывают инструменты, генерируют гипотезы, запускают тесты, отлаживают код и повторяют циклы до успеха. Это создаёт проблему поздних наград и длинных траекторий с off-policy drift. Agentic GRPO (Group Relative Policy Optimization) решает это через немедленные награды на промежуточных этапах с последующей ретроактивной коррекцией после финального результата. Подход ускоряет и стабилизирует обучение для coding agents и автономных workflows. По утверждению автора, это первая AI-система, стабильно превосходящая всех людей в соревнованиях по спортивному программированию — обсуждение.

    Источники: LocalLLaMA

  • Локальный RAG-агент с графом знаний

    Автор сообщает о создании мощного RAG-агента с интеграцией knowledge graph, который полностью работает локально без облачных зависимостей. Детали архитектуры и стек технологий не раскрываются в заголовке поста. Заинтересованные могут изучить подробности в оригинальном сообщении — пост.

    Источники: LocalLLM

  • Контролируемый vibe coding с агентом Iris

    Разработан агент Iris для решения проблемы контроля доступа ИИ к файлам при генерации кода. В отличие от Claude Code или Cursor, пользователь задает структурированный промт и точно определяет права доступа к конкретным файлам. Проект работает локально через Ollama, версия 1.8.4 уже поддерживает создание проектов средней сложности. Подробнее в обсуждении

    Источники: ollama

  • Агент QevosAgent для долгосрочных задач на локальной модели

    Разработан агент QevosAgent, который выполняет задачи до достижения цели без необходимости постоянных напоминаний. Система использует инструменты, определенные как простые функции, и работает на локальной модели Qwen3.6 27b. В тестах агент обучал модель на датасете Verilog, анализировал геномные данные и разворачивал видеомодель wan2.2. Исходный код доступен на GitHub, есть установщик для Windows. Обсуждение проекта

    Источники: ollama

  • Мониторинг безопасности LLM напрямую в VRAM

    Описан метод перехвата смещения выравнивания LLM напрямую в VRAM с задержкой около 10 мкс. Вместо отдельных guard-моделей, увеличивающих задержку и потребление памяти, используется C++ бридж для llama.cpp, мониторивший активации через OpenCL. Система проектирует тензоры токенов через High-Dimensional Computing и завершает процесс при обнаружении дрейфа (Exit Code 137). Накладные расходы составляют менее 0.1% на токен. Спецификация и демо, обсуждение

    Источники: ollama

  • Локальный AI-агент на базе Ollama для практических задач

    Пользователь разработал собственного локального AI-агента, сфокусированного на Ollama и выполнении практических задач. Проект демонстрирует подход к построению автономных систем, которые работают без облачных зависимостей и могут интегрироваться в локальные рабочие процессы. Детали архитектуры и конкретные сценарии использования описаны в исходном посте. Обсуждение

    Источники: ollama

  • Локальная настройка Gemma4 31B с tool calls и claude code за 4 часа

    Автор поделился рабочим сетапом для запуска Gemma4 31B с использованием Docker, sglang и litellm в качестве прокси для совместимости с Anthropic API. Ключевые моменты: tool-call-parser критически важен для работы tool calls, context-length должен быть высоким для claude code, а спекулятивный декодинг с draft-моделью даёт 2.1x эффективность по данным Google. Конфигурация включает sglang serve с параметрами вроде --mem-fraction-static 0.7 и --cuda-graph-max-bs 8. В комментариях отметили, что на AgentRQ blog есть дополнительные детали, а также подняли вопрос, почему Gemma4 вместо Qwen3.6 для dev-задач. пост

    Источники: LocalLLM

  • llama.cpp server получил встроенные инструменты для агентских задач

    В llama.cpp server обнаружили экспериментальный флаг --tools с нативной поддержкой read_file, file_glob_search, grep_search, exec_shell_command, write_file, edit_file, apply_diff и get_datetime. Это превращает llama-server в мини-агент без необходимости настраивать MCP или тяжёлые обёртки — достаточно .gguf файла и бинарника llama.cpp. Файловые операции работают относительно папки запуска сервера, но песочницы безопасности пока нет, так что стоит быть осторожным с доступом. В обсуждении пользователи разделились: одни называют находку полезной, другие ссылаются на GitHub discussion с сомнениями в работоспособности, третьи сообщают, что не смогли заставить инструменты работать. обсуждение

    Источники: LocalLLaMA

  • Мост для управления Claude/Ollama/Codex с телефона без API-ключей

    Пользователь разработал решение для управления локальными LLM (Claude, Ollama, Codex) прямо со смартфона. Система работает полностью на собственном оборудовании, не требует API-ключей и внешних сервисов. Это даёт возможность запускать инференс моделей удалённо, сохраняя контроль над данными и инфраструктурой. Подробнее

    Источники: ollama

  • Проблемы Hermes Agent с выполнением терминальных команд

    Пользователь столкнулся с проблемой: Hermes Agent сообщает об успешном создании директории, но фактически команда не выполняется. При запросе создать /home/john/projects/demo модель возвращает подтверждение, но директория не появляется. Используется Qwen3.5 9b, логи Hermes не показывают предупреждений. Вопрос в инструментальном вызове (tool calling) или контексте остаётся открытым. Пост

    Источники: LocalLLaMA

  • MAIstro: единая память для локальных и облачных моделей

    Разработчик описал архитектуру MAIstro, позволяющую локальным LLM и фронтир-моделям работать как единый разум с общей памятью. Система включает более 25 техник с заявкой на патент и работает на ROG Ally X, объединяя три локальные модели и Claude на разных устройствах с обменом контекстом менее чем за секунду. Автор утверждает, что использование Claude сократилось на 50% благодаря нативной обработке задач субстратом, прототип в разработке с 20 апреля 2026 года. Обсуждение

    Источники: LocalLLM

  • Агент для категоризации расходов на CSV

    В рамках серии Build in Public создан специализированный агент для автоматической сортировки выписок по кредитным картам из CSV-файлов. Архитектура намеренно упрощена: отсутствует слой рефлексии или постоянная память, что обеспечивает быструю и дешевую обработку данных. Для гарантирования структурированного ответа используется модель Pydantic CategorizedExpenses, код проекта доступен для клонирования. Исходный пост

    Источники: AgentsOfAI

  • AgentFlow4J: оркестрация для Spring AI

    Инструмент AgentFlow4J добавляет слой workflow и runtime поверх Spring AI для разработчиков на Java. Решение закрывает потребности production-систем в повторных попытках, чекпоинтах, общем состоянии и согласовании действий человеком без лишнего кода оркестрации. Проект помогает строить системы с сохранением состояния и сейчас находится на ранней стадии развития. Детали

    Источники: AgentsOfAI

  • Настройка агентов и суб-агентов в гибридном окружении

    Автор делится опытом организации работы агентов через Librechat, где DeepSeek v4 pro выступает мастер-планировщиком через OpenRouter. Локально используются Qwen 35B для основных задач и Gemma E2B для тривиальных запросов, что позволяет выполнять задачи параллельно. В сообществе ищут рекомендации по более легким и специализированным моделям для эффективного распределения ролей в такой схеме. Тред

    Источники: LocalLLaMA

  • Eve Agent V2 Unleashed — локальный агент для кодинга

    Разработчик выпустил open-source агент Eve Agent V2 с 40-раундовым циклом выполнения задач и поддержкой 112 суб-агентов для разработки ПО. Система работает локально через Ollama, использует мердж двух моделей (8B и 4B), причем 4B версия прошла файн-тюнинг для точных вызовов инструментов. Интерфейс выполнен в стиле киберпанк с потоковой передачей рассуждений модели в реальном времени. Проект

    Источники: LocalLLM

  • Локальный GUI для фреймворка TradingAgents с поддержкой Ollama

    Разработчик создал веб-интерфейс для TradingAgents — мульти-агентной системы анализа акций, где дюжина агентов (аналитик рынка, новостей, быки, медведи, риск-команда) обсуждают стратегию и дают торговую рекомендацию. Оригинальный фреймворк работал только через CLI, новая версия добавила визуализацию пайплайна, трёхпанельный читер отчётов, поиск и регулировку длины отчёта (concise mode экономит ~50% токенов). Поддерживаются все основные провайдеры: OpenAI, Anthropic, Google, OpenRouter, DeepSeek, Ollama, xAI, Qwen, GLM, MiniMax. Код на Apache 2.0, репозиторий TradingAgents-GUI открыт.

    Источники: LocalLLaMA

  • IRIS: управление памятью для локальных ассистентов

    Появился инструмент IRIS, локальное приложение для управления памятью персонального ИИ-ассистента без облачных зависимостей. Ключевая особенность — полный контроль пользователя над данными: память можно просматривать, редактировать, экспортировать или удалять, избегая эффекта «чёрного ящика». Стабильная версия доступна для Windows, тогда как сборки для macOS и Linux находятся в статусе экспериментальных превью. Проект не собирает телеметрию и работает исключительно с локальными моделями через Ollama. Обсуждение, релиз на GitHub

    Источники: ollama

  • Проблемы поиска товаров ИИ-агентами

    Пользователь столкнулся с трудностями при делегировании задачи поиска товаров локальному агенту на базе Gemma 4 26B и облачному Claude Sonnet 4.6. Локальная модель завершила поиск за минуту, предложив общие категории вместо конкретных позиций, что не соответствовало требованиям задачи. Claude отработал детальнее, но также потребовал уточнений для выдачи списка конкретных товаров вместо производителей. Автор отмечает парадокс: модели способны навигировать по каталогам и искать в интернете, но сложно выполняют точный подбор по критериям. Обсуждение проблемы

    Источники: LocalLLaMA

  • Rule Zero: инструкция против галлюцинаций coding-агентов

    Агенты для написания кода часто выдвигают гипотезы без проверки фактов, например, диагностируют бан сервера без выполнения команд. Для решения проблемы создан конфиг Rule Zero, который обязывает модель сначала собрать данные через команды, и только потом строить теории. Решение открыто под лицензией CC0 репозиторий и включает хуки для блокировки спекулятивных фраз вроде «probably». Поддерживается Claude Code, Cursor, Codex и другими инструментами. Обсуждение

    Источники: LocalLLM

  • Qwen3-coder не читает файлы в Claude Code через Ollama

    Пользователь сообщает о проблеме: при инструкции прочитать текущую директорию Qwen3-coder создаёт файл вместо чтения существующих. Проблема возникает при использовании Ollama's claude code. Скриншот демонстрирует, что модель игнорирует команду чтения и переходит к созданию нового файла. Требуется уточнение конфигурации или промпта для корректной работы с файловой системой. Пост

    Источники: LocalLLM

  • Qwen3.6-35B-A3B играет в roguelike DCSS

    Демонстрация возможностей qwen3.6-35b-a3b@q4_k_xl в игре Dungeon Crawl Stone Soup — открытой roguelike-адвенчуре. Модель показывает достойные результаты в навигации по игровому миру и принятии решений. Квантование q4_k_xl позволяет запускать 35B-модель локально с приемлемой производительностью. Видео

    Источники: LocalLLM

  • Опыт использования LuMay Voice Agent для бизнес-задач

    Пользователь протестировал LuMay Voice Agent в реальных бизнес-процессах и отметил фокус на продакшен-готовности вместо демо-звонков. Среди ключевых функций: низкая задержка, входящие и исходящие вызовы, автоматизация CRM, запись на встречи и поддержка нескольких языков. В сравнении с Vapi, Retell AI, Bland AI и Synthflow, LuMay показал лучшую стабильность при долгих разговорах и обработке прерываний. Автор интересуется опытом других пользователей масштабирования этого решения. Обсуждение

    Источники: AgentsOfAI

  • Портативная версия Hermes Agent без установки зависимостей

    Для запуска Hermes Agent от Nous Research создан портативный wrapper, не требующий установки глобальных Python или Node на хост-машине. Решение работает из отдельной папки или USB-накопителя, сохраняя API-ключи, историю чатов и память внутри директории проекта. При первом запуске автоматически загружаются автономные рантаймы и настраивается локальный venv. Это упрощает развертывание агента на разных машинах без загрязнения системы. Детали

    Источники: LocalLLM

  • Web RAG через нативные инструменты llama.cpp с песочницей

    Автор демонстрирует рабочий процесс для безопасного веб-скрапинга прямо из веб-интерфейса llama-server с использованием нативных инструментов llama.cpp. Решение включает многоуровневую песочницу: firejail для изоляции, отдельный пользователь vmagents, и OCI-контейнеры через smolmachines с Alpine Linux. Скрипт vm-exec оборачивает команды перед выполнением, запуская их в изолированной VM с последующей остановкой. Для запроса контента используется wget с user-agent строкой Mozilla. Такой подход позволяет выполнять внешние запросы без риска для основной системы. Инструкция

    Источники: LocalLLaMA

  • ScreenMind: локальная память экрана на llama.cpp + Gemma 4

    Open-source проект ScreenMind захватывает скриншоты при изменении контента (perceptual hashing), анализирует их через Gemma 4 vision и строит поисковую базу активности за день. Всё работает локально без отправки данных наружу. Функции включают чат по истории экрана, семантический + ключевой поиск, транскрибацию встреч через нативный аудио-энкодер Gemma 4, voice memos и MCP-сервер для Claude/Cursor. Платформа агентов позволяет описывать задачи в markdown-файлах на английском, которые выполняются автоматически с подстановкой данных экрана. Работает на GTX 1650 4GB, pHash-кеширование сокращает инференсы на 30-50%. GitHub

    Источники: ollama

  • Trooper: восстановление агентов после сбоев с Ollama как fallback

    Инструмент Trooper решил проблему потери прогресса при сбоях агентов. В тесте агент ревьюил 8 PR, на четвёртом получил quota error — типичная ситуация, когда прокси либо слепо ретраят, либо падают. Trooper перехватил ошибку и вернул JSON с completed_steps, resume_from и recovery_hint, после чего агент продолжил с PR #4 через Ollama как локальный fallback. Новый эндпоинт /recovery/{session_id} отслеживает выполнение сабагентов в реальном времени, позволяя точно знать точку восстановления. GitHub

    Источники: ollama

  • Trooper восстанавливает работу агента после исчерпания квоты

    Короткий отчет об устойчивости агента Trooper. При исчерпании квоты на четвертом пул-реквесте из восьми система автоматически восстановила сессию. Работа продолжилась ровно с того места, где остановилась, без потери контекста. Это демонстрирует надежность обработки длинных задач в автономном режиме. Источник

    Источники: LocalLLM

  • LEMoE — лёгкий stateless router для MoE в локальных LLM

    Разработчик представил LEMoE, open-source router для Mixture of Experts, оптимизированный для локальных LLM. Проект позиционируется как лёгкое и stateless-решение для маршрутизации экспертов в MoE-архитектурах. Автор ищет обратную связь от сообщества для улучшения проекта. Пост

    Источники: LocalLLM

  • LEMoE — stateless router для MoE в локальных LLM (Ollama)

    В r/ollama разработчик анонсировал LEMoE — lightweight stateless router для Mixture of Experts, предназначенный для локальных LLM. Проект open-source, автор приглашает сообщество к тестированию и feedback. Инструмент может быть полезен для оптимизации маршрутизации в MoE-моделях при селф-хостинге. Пост

    Источники: ollama

Инструменты и практическое внедрение

  • Работники в Индии собирают данные для человекоподобных роботов

    Работники в Индии всё чаще используют камеры, закреплённые на голове, для записи видео данных. Эти материалы предназначены для обучения моделей человекоподобных роботов. В обсуждении пользователи проводят параллели с книгой «Player Piano», где машины обучались на записях лучших специалистов, а также отмечают этические аспекты такого сбора данных. Обсуждение

    Источники: singularity

  • Нишевые кейсы YC и видимость в AI-поиске

    Фокус YC на узких сценариях использования случайно сделал стартапы из их портфеля удобными для индексации генеративными моделями. LLM лучше отвечают на специфические операционные запросы, где семантическая территория не занята конкурентами. Автор термина «Latent Space Monopoly» советует структурировать активы под точные запросы клиентов и заранее формировать упоминания на сторонних платформах вроде G2 или Crunchbase. В комментариях подтверждают, что чёткий след бренда в нишевых пространствах повышает шансы на цитирование моделями. Пост

    Источники: ycombinator

  • Обсуждение лучшей модели для кодинга на RTX 6000 Blackwell

    Пользователь с RTX 6000 Blackwell (96GB VRAM) спросил сообщество о рекомендациях для задач селф-хостед кодинга. В обсуждении советуют Qwen 3.6 27B в полном весе или fp8 как оптимальный вариант для агентов и программирования. Участники отмечают скорость 60-70+ токенов в секунду с поддержкой MTP через vllm или sglang, потребление VRAM около 55 ГБ. Также предупреждают об изменении лицензии MiniMax M2.7, которая теперь запрещает коммерческое использование, и предлагают альтернативы вроде Gemma 4 31B для чата. Обсуждение

    Источники: LocalLLM

  • Kwipu превращает заметки Obsidian в граф знаний для MCP

    Инструмент Kwipu работает как полностью локальный MCP сервер для Ollama. Он позволяет преобразовывать заметки в формате Markdown и Obsidian в запрашиваемый граф знаний без отправки данных во внешние сервисы. Решение подходит для организации личной базы знаний с поддержкой локальных моделей. Проект

    Источники: ollama

  • Гибридная локально-облачная архитектура для команды из 5 разработчиков

    Пользователь проектирует workflow для команды из 5 разработчиков с гибридным подходом: облачная модель работает как планировщик/архитектор, локальная — как исполнитель кода. В планах использовать OpenCode как интерфейс, кастомный роутер и локальную модель Qwen 27B FP8 через vLLM. Ключевой вопрос: хватит ли 2x RTX 3090 (24GB каждая) для 5 одновременных задач с контекстом 64k и активным использованием RAG. Облаку передаётся только сжатое дерево репозитория и выбранные файлы, полный код остаётся локально. Обсуждение включает запросы на рекомендации по моделям и опыту подобных архитектур.

    Источники: LocalLLM

  • Ежедневный новостной кроссворд на Ollama и qwen:32b

    Создан проект CrossGoss — ежедневный кроссворд, где каждое clue основано на реальной новости. Пайплайн загружает статьи, суммирует их и локально фильтрует через qwen:32b в Ollama для дедупликации. Ключевые слова извлекаются для построения сетки, а подсказкой служит саммари с пропущенным ключевым словом. При настройке промтов потребовалась итерация, так как модель иногда отвечала на китайском. Сайт проекта, обсуждение

    Источники: ollama

  • lvm — менеджер версий для llama.cpp по аналогии с nvm

    Разработчик представил lvm, инструмент для управления версиями llama.cpp, вдохновленный nvm из экосистемы Node.js. Утилита позволяет устанавливать, переключать и удалять версии через команды install, use и ls, автоматически подбирая сборку под GPU. Система использует shim-механизм, чтобы вызовы llama-cli и llama-server всегда направлялись на активную версию без ручной настройки PATH. Проект написан на Go с помощью AI-ассистентов и позиционируется как легковесная альтернатива Docker-контейнерам для повседневного использования. Исходный код доступен на GitHub.

    Источники: LocalLLM

  • Prompt eval vs generation: как правильно указывать скорость в t/s

    В сообществе существует путаница в метриках скорости: prompt eval (обработка входного промпта) и eval/decoding (генерация ответа). Пользователь M1 Pro 32GB получает 45 t/s на prompt eval, но лишь 4 t/s на генерацию с Qwen 3.6 27B MTP. В комментариях поясняют, что по умолчанию t/s обычно означает decoding, тогда как prompt processing измеряется сотнями или тысячами токенов в секунду. Для M1 Pro с q4 и MTP ожидается около 9 t/s на генерацию. Бенчмарки доступны на omlx.ai.

    Источники: LocalLLM

  • Llama.cpp против LMStudio: реальная разница в производительности

    В сообществе обсуждают, стоит ли переходить с LMStudio на чистый Llama.cpp ради скорости генерации токенов. Пользователи отмечают прирост в 5-15% при использовании Llama.cpp напрямую, но для многих это не критично по сравнению с удобством GUI в LMStudio. Один из участников заметил, что наибольший прирост производительности дал переход на Linux, а не смена инструмента. В качестве альтернативы рекомендуют Unsloth Studio — он быстрее LMStudio и сохраняет удобный интерфейс. Обсуждение

    Источники: LocalLLM

  • Сравнение inference-провайдеров по cache-hit rate на данных OpenRouter

    В сообществе AgentsOfAI опубликовали сравнение провайдеров инференса по проценту попаданий в кэш на основе данных OpenRouter. Метрика важна для агентных систем, где повторяющиеся запросы могут значительно снизить стоимость и задержки. Подробный анализ и методология сбора данных доступны в отдельном материале. Анализ

    Источники: AgentsOfAI

  • Векторы эмбеддингов для датасета NVIDIA Nemotron Personas

    Для датасета nvidia/Nemotron-Personas, содержащего миллионы синтетических персон с подробными характеристиками, подготовлены предвычисленные векторы эмбеддингов. Поиск и кластеризация в таком объёме данных затруднены, поэтому автор использовал Qwen 0.6B для расчёта семантических векторов — лёгкая модель справляется с поиском K-Nearest Neighbours и группировкой персон. Доступны эмбеддинги для Кореи, Японии, Франции и США, есть веб-демо для тестирования. Ресурс подойдёт для локальных агентных проектов, требующих работы с персонажами. Коллекция на HuggingFace

    Источники: LocalLLaMA

  • Shortcast — macOS-приложение для генерации постов из видео на Gemma 4

    Shortcast — нативное приложение для macOS, которое анализирует короткое вертикальное видео и готовит тексты для TikTok, Instagram Reels и YouTube Shorts. Внутри работает Gemma 4 E4B через MLX Swift полностью локально: модель обрабатывает кадры и аудиодорожку, возвращая заголовок, описание и хэштеги для каждой платформы. Пользователь получает три редактируемых превью и может одной кнопкой опубликовать видео с текстом во все три сети. Ключи API хранятся в macOS Keychain, телеметрии нет, лицензия Apache 2.0. Требуется macOS 15 и Apple Silicon. Репозиторий

    Источники: LocalLLM

  • Как писать эффективные системные промпты для локальных моделей

    Пользователь поделился опытом работы с системными промптами в Ollama — на примере Gemma4:e4b промпт работает, но уступает профессиональным инструментам вроде Claude Code. В обсуждении советуют делать промпты менее двусмысленными: вместо «ты профессиональный редактор» писать конкретно «исправь грамматику в тексте». Другой подход — рассматривать системный промпт как спецификацию интерфейса: определить формат вывода, режимы ошибок и привести примеры хорошего и плохого поведения. Для небольших локальных моделей рекомендуют собрать небольшой eval-сет под свои задачи и тестировать изменения по одному правилу. Обсуждение

    Источники: ollama

  • Зачем нужны uncensored-модели вне ролевых сценариев

    Пользователь задаётся вопросом, есть ли практический смысл в uncensored-моделях, если не использовать их для ролеплея. При тестировании RAG оказалось, что такие модели иногда выдают случайные ошибки, которых нет в обычных версиях, а простые промпты вроде «не давай пропаганду» обходят стандартные ограничения. В обсуждении приводят другие варианты использования: исследования по акциям (модель не отказывается давать мнения фразой «я не могу давать финансовые советы»), реверс-инжиниринг и задачи, где цензура мешает разработке. Тема

    Источники: LocalLLaMA

  • Локальная модель для бухгалтерских задач

    Автор использует Qwen 3.6 27b для ежемесячного закрытия счетов, сверки банковских выписок и управления дебиторской/кредиторской задолженностью. На базе SQLite построена простая база данных, которую модель обслуживает, плюс интегрированы Claude skills и репозиторий financial-services от Anthropic. Несмотря на слабое iGPU и запуск MTP-версии в ночное время, система справляется с задачами. По мнению автора, локальные модели постепенно становятся практичным инструментом для реальных рабочих процессов. Пост

    Источники: LocalLLaMA

  • Тестирование модели с методом RYS на HuggingFace

    На HuggingFace выложили модель Qwopus3.6-27B-v2-MTP с применением метода RYS в квантовании Q5_K_M. Автор ищет добровольцев для тестирования и сравнения результатов, поскольку собственный сетап показывает низкую скорость. Метод описан в блоге dnhkng.github.io, но практические эффекты ещё требуют проверки сообществом. В комментариях спросили, как RYS работает с MTP, можно ли использовать метод в MOE-архитектурах для стабильности инференса, и почему выбраны именно 3 слоя для применения техники. модель

    Источники: LocalLLaMA

  • Почему важно, чтобы AI-система говорила «я не знаю»

    Автор отмечает, что в рабочих сценариях (закупки, операции, логистика) важнее не качество рассуждений модели, а её способность работать с верифицируемыми данными. General-purpose агенты часто выдают уверенные ответы даже при отсутствии актуальной информации — цены поставщиков, статусы заказов, наличие на складах. Системы, подключённые к реальным источникам данных и признающие неопределённость, вызывают больше доверия. В комментариях пользователи делятся опытом: кто-то настраивает локальных агентов на веб-поиск при сомнениях, другие хвалят Minimax 2.7 за частые «я не знаю» вместо галлюцинаций. Обсуждение

    Источники: LocalLLM

  • Лучшие маленькие модели для запуска на CPU

    Пользователь спрашивает о текущих Small Language Models, которые можно запускать без GPU с хорошим балансом точности и скорости. В комментариях рекомендуют серию LFM от LiquidAI: LFM2.5-1.2B-Thinking, LFM2.5-1.2B-Instruct и LFM2-8B-A1B в GGUF-формате. Один из участников использует 8B-A1B на NAS с CPU-only в связке с KaraKeep для авто-генерации тегов и саммари. Также упоминают Gemma 4 (26B MoE) и Qwen 3.6 (35B MoE) — работают на CPU со скоростью 10-15 токенов/сек, что вполне применимо на практике. Тред

    Источники: LocalLLaMA

  • Запуск Gemma4 (Gemini Nano) в Chrome без GPU

    Пользователь создал расширение для запуска модели Gemma4 (Gemini Nano) прямо в браузере Chrome без необходимости в GPU или сложных настройках вроде llama.cpp. Для работы требуется 16 ГБ ОЗУ, модель функционирует полностью локально с контекстом 9216 токенов на сессию. На ноутбуке без дискретной видеокарты скорость составляет около 20 токенов в секунду, расширение называется Dobby и имеет открытый код. Подробнее

    Источники: LocalLLaMA

  • Релиз llampart 1.0.0 — веб-интерфейс для llama-server

    Вышла первая публичная версия llampart, standalone веб-UI для работы с llama-server с акцентом на локальное использование. Интерфейс поддерживает локализацию на шести языках, расширенные настройки, управление MCP и удобную боковую панель для диалогов с закреплением и экспортом. Доступны темы оформления включая режим Frosted Glass, проект распространяется под лицензией MIT. Релиз

    Источники: LocalLLaMA

  • Полный редуб игры за 2 дня на открытых инструментах

    Пользователь поделился опытом полной озвучки игры, используя только open source инструменты. Весь процесс занял два дня работы. Детали проекта и использованный стек доступны в посте.

    Источники: LocalLLM

  • Выбор лучшей версии Qwen3-27B для кодинга: рекомендации комьюнити

    Пользователь ищет оптимальную конфигурацию Qwen3-27B для генерации кода на NVIDIA DGX Spark с KV Cache BF16. В обсуждении рекомендуют кванты от cyankiwi — INT4 и INT8 версии показывают lower KLD чем Unsloth UD-Q6. Также упоминается файлн-тюнинг Jackrong Qwopus3.6-27B-v2-GGUF как отличная альтернатива. Часть комментаторов советует фокусироваться на настройке agent.md и инструментов разработки, а не на смене квантизации. Подробности и ссылки на модели в обсуждении.

    Источники: LocalLLM

  • Вопросы о динамических активных параметрах в MoE-моделях

    Пользователь задал вопрос о возможности выбора количества активных параметров в модели — от dense до MoE в зависимости от задачи. В комментариях объяснили, что технически выбирать число активных параметров в MoE можно, но в 99% случаев это нецелесообразно. Динамический роутинг по сложности задачи, вероятно, используется в GPT-5 на уровне гарнитура, а не внутри модели. MTP-слой не может работать автономно — он зависит от остальных слоёв и ранее сгенерированного текста. Изменение весов на лету теоретически возможно, но создаёт проблемы стабильности для фиксированных рабочих процессов. Обсуждение

    Источники: LocalLLaMA

  • Автоматизация обработки почты через n8n и Gemini

    Пользователь автоматизировал обработку 50+ ежедневных писем поддержки с помощью стека n8n, Gmail, Gemini и Telegram. Агент классифицирует важность писем: критичные отправляют уведомление в Telegram с черновиком ответа, остальные логируются в Google Sheets. При настройке возникли сложности с бесплатными лимитами AI и скрытыми символами в строках, которые ломали сравнение условий. Решение потребовало явной нормализации строк и корректного указания путей к данным в узлах n8n. Подробности

    Источники: AgentsOfAI

  • Проблемы мультиинстанса llama.cpp на 4x AMD R9700

    Запуск нескольких экземпляров llama.cpp на системе с 4x AMD Radeon AI PRO R9700 через Vulkan backend приводит к нестабильности. Одиночный GPU работает стабильно со скоростью 129 t/s decode, но при параллельном запуске 3-4 процессов процессы завершаются ошибкой без явных сообщений. Использование ROCm невозможно из-за deadlock в RCCL на мульти-GPU конфигурации. Автор ищет информацию о конфликтах ресурсов между процессами Vulkan на драйвере RADV. Тред

    Источники: LocalLLM

  • OpenAI исправили баг с кэшем в Codex

    OpenAI устранили ошибку кэширования в Codex, которая приводила к быстрому исчерпанию лимитов использования. Пользователям восстановили квоты после сброса. Также Тибо намекнул на появление режима `/slow` для Codex, который оптимизирует выполнение несрочных объемных задач. Подробнее в источнике.

    Источники: ai_newz

  • Автоматизация почты через n8n и Gemini

    Автор настроил AI-агента для обработки 50+ ежедневных писем. Воркфлоу на n8n анализирует входящие через Gmail, определяет важность и тему, отправляет уведомления в Telegram для важных писем с готовым черновиком ответа. Стек бесплатный: n8n, Gmail, Gemini, Telegram-бот, Google Sheets для логирования. В комментариях делятся опытом использования n8n с MCP для автоматической сборки и отладки потоков — время от идеи до продакшена сократилось с недель до часов. Основные проблемы: невидимые символы в строках и лимиты бесплатных AI-провайдеров. Полный разбор в посте.

    Источники: ollama

  • Выбор abliterated-версии Gemma 4 31B и 26B-A4B: опыт сообщества

    Обсуждение актуальных версий Gemma 4 от разных авторов спустя два месяца после релиза. Пользователи тестируют квантованные модели, включая версии от llmfan46 (31B и 26B-A4B regular). В комментариях отмечают, что Gemma 4 по умолчанию не имеет цензурных ограничений, поэтому необходимость в abliterated-вариантах под вопросом. Тем не менее, некоторые ищут версии с улучшенной обработкой NSFW-запросов. Обсуждение

    Источники: LocalLLaMA

  • Проблемы с задержкой Sarvam AI для голосовых агентов

    Разработчик SaaS для голосовых агентов столкнулся с высокой задержкой Sarvam Bulbul TTS при обработке двуязычных запросов (английский и хинди). Модель хорошо справляется с Hinglish, но время отклика превышает 1 секунду, тогда как Deepgram и Cartesia показывают 150-250 мс. При стоимости 2-3 рупии за минуту против 8-11 у конкурентов, задержка остаётся критичной для телефонных звонков. Сообщество ищет альтернативы с поддержкой индийских языков и низкой латентностью. Тема

    Источники: LocalLLM

  • Веб-приложение для локальных LLM с XTunnel и RAG

    Разработчик опубликовал легковесное веб-приложение, которое объединяет фронтенд для локальных моделей вроде Ollama или LM Studio с безопасным доступом через XTunnel. Туннель позволяет expose локальный LLM в интернет без проброса портов и облачных прокси, хранящих данные. Встроенный RAG работает с загружаемыми PDF, markdown и txt файлами, используя sentence-transformers и Chroma для локального эмбеддинга. Стек включает FastAPI, SQLite и HTMX, при этом безопасность туннеля остается ответственностью пользователя. Описание проекта

    Источники: LocalLLM

  • Golem — Electron-приложение для работы с локальными моделями

    Разработчик представил Golem, десктопное GUI для локальных моделей на Electron (основная платформа — Windows, сборки macOS/Linux существуют без полноценного тестирования). Интерфейс повторяет опыт Gemini и Claude Desktop. Sigils — пресеты системных промптов с ролью модели, Skills — шаблоны рабочих процессов с конструктором. Есть система Projects (привязка папок/файлов к контексту беседы), поддержка MCP и локальная статистика использования. Автообновление проверяется при запуске, в следующих релизах уберут 4-часовой пинг. Версия 0.7, до 1.0 ещё в работе. GitHub

    Источники: ollama

  • Wildllama — новый UI для Ollama

    Пользователь разработал собственный интерфейс для Ollama под названием Wildllama. Проект доступен в виде публичного репозитория с исходным кодом. Детали архитектуры и функциональности в посте не раскрываются, но автор отмечает, что работал над UI несколько дней после завершения других проектов. Репозиторий

    Источники: ollama

  • Первый полнометражный AI-фильм показали в Каннах

    Стартап Higgsfield создал научно-фантастический фильм Hell Grind длиной 95 минут с использованием искусственного интеллекта. Это первая AI-генерируемая полнометражная картина, показанная на Каннском кинофестивале. Бюджет проекта составил около $500 000, причем почти 80% средств ушло на вычислительные мощности для генерации. Источник

    Источники: startupsi

  • Эксперимент с системой ансамбля нескольких LLM

    Разработчик поделился проектом системы для запуска ансамблей нескольких локальных моделей. Реализованы режимы работы с GPU, последовательное и параллельное выполнение запросов, а также маршрутизация от одной модели до всех доступных. Автор ищет рекомендации по дальнейшему развитию функционала и расширению возможностей системы пост.

    Источники: LocalLLM

  • Сопоставление товаров между супермаркетами на Gemma 26b MoE

    Пользователь поделился опытом использования Gemma 26b MoE через LM Studio для задачи точного сопоставления товаров между двумя сетями супермаркетов. Модель обрабатывает batches по 2 товара за 5-30 секунд с хорошей точностью, но иногда попадает в циклы повторных размышлений (1-5 раз) перед финальным ответом. Промпт включает строгие правила: объём/вес должен совпадать (максимум 10% отклонения), размер упаковки одинаковый, вкус/вариант идентичный, хаус-бренды вроде Jumbo и AH считаются эквивалентными. Вывод модели — raw JSON array с matched_id для каждого товара без markdown-форматирования. Автор ищет советы по оптимизации workflow и устранению reasoning loops. Пост

    Источники: LocalLLM