понедельник, 11 мая 2026 г.

AI Digest: Cloudflare сократила 1100 сотрудников, Qwen 3.6 достиг 80 токенов/сек на 12GB и Sarvam выпустила MoE-модели

Cloudflare объявила о сокращении 1100 сотрудников несмотря на рост использования ИИ. Sarvam добавила поддержку MoE-архитектуры с моделями 30B и 105B. Qwen3.6-35B показал 80 токенов/сек с контекстом 128K на 12GB VRAM. OpenAI добавила синхронный перевод в Realtime API. mlx-serve превзошёл LM Studio на 40% на Apple Silicon. Доля кода от ИИ в Airbnb, Shopify и Google продолжает расти.

Корпоративные новости и рынок труда

Cloudflare сокращает 1100 сотрудников на фоне роста использования ИИ

Использование ИИ-сервисов Cloudflare выросло на 600% за последние три месяца. В рамках реструктуризации под агентный ИИ (Agentic AI) компания сократила 1100 рабочих мест. В обсуждении отмечают, что акции упали после новости об увольнении более пятой части штата. Участники дискуссии указывают на уязвимость операционных ролей, так как SaaS-платформы внедряют агентные функции. Согласно данным из комментариев, финотчет за первый квартал 2026 года показал чистый убыток в $22,93 млн. Подробнее в посте.

Источники: singularity
Создатели «Южного парка» основали ИИ-стартап Deep Voodoo

Трей Паркер и Мэтт Стоун запустили компанию Deep Voodoo, которая занимается созданием дипфейков и визуальных эффектов. Идея возникла из желания сделать дипфейк с Дональдом Трампом, но студии не обеспечивали нужного качества, поэтому они собрали собственную команду. Стартап привлек $20 млн инвестиций, использует массив из девяти камер для захвата актеров и строит отдельную модель под каждый проект. Среди работ — клип Кендрика Ламара и реклама Супербоула, при этом компания требует разрешения на использование внешности и планирует внедрять ИИ в производство мультсериала для ускорения работы. Источник

Источники: hiaimedia
Скепсис вокруг сделки xAI и Anthropic

Команда подкаста Equity скептически оценила крупную сделку между xAI и Anthropic. В свежем эпизоде обсудили последствия партнерства для материнской компании SpaceX. Участники выразили циничное отношение к перспективам соглашения и возможным рискам. Подробности и аргументы сторон в материале TechCrunch.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Доля кода от ИИ в Airbnb, Shopify и Google

В треде собирают статистику по внедрению ИИ в разработку крупных компаний. Shopify сообщает о 50% кода в e-commerce сегменте, Airbnb — 60% нового кода, Google — 75%. Ссылки на источники публикуют после удаления предыдущего поста из-за коммерческих ссылок. Комментаторы скептически оценивают статус Airbnb как технологической компании и отмечают рост количества багов в продуктах Google. Разработчики также опасаются, что менеджеры начнут передавать им сырой код от ИИ на доработку. Подробности в посте.

Источники: singularity

Новые модели и архитектурные решения

59M-параметровая модель для геймдев-кодинга

Разработчик обучил компактную 59M-параметровую decoder-only модель для генерации кода под Unity, Godot и Unreal Engine. На узком бенчмарке игровых команд модель набрала 116/120 баллов, обойдя Qwen2.5 7B (102/120) и fine-tuned Qwen2.5 0.5B LoRA (90/120). Среднее время ответа на локальном запуске — около 2.1 секунды. Модель не претендует на универсальность, но работает как быстрый селф-хостед фолбэк для конкретных задач вроде «добавить WASD-управление» или «создать капсулу с коллайдером». Репозиторий

Источники: LocalLLM
Sarvam добавил поддержку MoE-архитектуры: модели 30B и 105B

Sarvam анонсировал две новые MoE-модели с фокусом на индийские языки и практическое развёртывание. Sarvam-30B имеет 2.4B активных параметров, оптимизирован для ресурсо-ограниченных сред и поддерживает 22 индийских языка. Sarvam-105B с 10.3B активными параметрами показывает результаты на уровне закрытых моделей в задачах reasoning, математики и кодинга. Обе модели поддерживают агентские задачи, включая веб-поиск и технический траблшутинг. В комментариях отметили, что релиз задержался, но модели всё равно представляют интерес для мультиязычных сценариев. Детали

Источники: LocalLLaMA
NVIDIA Star Elastic: три модели в одном чекпоинте

NVIDIA выпустила Star Elastic — один чекпоинт содержит 30B, 23B и 12B модели с возможностью zero-shot извлечения подмоделей. Меньшая модель работает на этапе мышления, полная — для финального ответа, что даёт +16% точности и в 1.9 раза меньшую задержку. 12B NVFP4 версия работает на RTX 5080 со скоростью 7426 токенов/с, при этом все три модели делят KV-кэш. Чекпоинты доступны в BF16, FP8 и NVFP4 форматах на HuggingFace. анализ

Источники: LocalLLaMA
Hammerstein-7B v3a: QLoRA-адаптер для стратегического анализа с wargamer-режимом

Разработчик настольных варгеймов выпустил Hammerstein-7B v3a — QLoRA-адаптер на базе Qwen2.5-7B-Instruct для аудита стратегических решений. Модель работает через Ollama на Mac с 8GB+ RAM, требует ~4.7GB в формате Q4_K_M GGUF. Ключевое достижение v3a — устранение catastrophic forgetting: утечка OOD снизилась с 2.80 до 0.00 при сохранении стратегических способностей (67.5% побед в слепом сравнении). В комплект входит wargamer-mode UI для генерации заказов по фото игрового поля и PDF-правилам с цитированием конкретных разделов. Репозиторий

Источники: LocalLLM
HyperThinkCode-Qwen3-8B-v1: файн-тюнинг с явным этапом рассуждения перед генерацией кода

Автор выложил 4-битный QLoRA файн-тюнинг на базе Qwen3-8B, который сначала формулирует логику решения в специальном thinking-поле, и только потом выдаёт код. Обучение прошло на двух Tesla T4 (по 16GB VRAM) через Unsloth, таргетировались все линейные слои с Rank 16 / Alpha 16. Всего 50 шагов заняли около 1 часа 17 минут, loss снизился с 0.8177 до 0.6785. Контекст ограничен 4096 токенами для баланса между сложностью кода и потреблением VRAM. Модель доступна на HuggingFace, автор просит протестировать в сравнении с другими локальными кодинг-моделями пост.

Источники: LocalLLM
OpenAI добавила синхронный перевод в Realtime API

OpenAI выпустила три голосовые модели для Realtime API: reasoning, транскрипция и синхронный перевод. GPT-Realtime-Translate обучали на тысячах часов аудио профессиональных переводчиков — модель только переводит, не отвечает на вопросы. Поддерживает 70+ языков на вход, 13 на выход, включая русский. Демонстрация показывает перевод с французского и немецкого на английский в реальном времени. Подробнее в канале.

Источники: ai_for_devs

Локальный инференс: производительность и железо

Восстановление скорости работы GLM 5.1 в Ollama

Пользователи сообщают о нормализации скорости работы модели GLM 5.1 после недавних проблем с инфраструктурой. Ранее наблюдались значительные замедления и ошибки 504 API, влиявшие на качество генерации и расход квот. Сейчас модель снова работает стабильно, допускается запуск нескольких экземпляров параллельно с субагентами без потери производительности. Ситуация подтвердила связь между проблемами инфраструктуры и деградацией скорости и качества ответа. Тред

Источники: ollama
Ускорение Qwen3.6-27B с MTP на_dual_AMD Mi50

Пользователь протестировал Multi-Token Prediction (MTP) для Qwen3.6-27B на двух AMD Mi50 с ROCm 7.2. Базовая скорость составила около 26 tok/s, с MTP выросла до 36-40 tok/s (1.5x ускорение), а комбинация MTP и tensor parallelism дала до 59 tok/s — почти 2x прирост. В реальном тесте с 18k токенов кода общее время выполнения сократилось с 390 секунд до 205 секунд при использовании обеих оптимизаций. Есть регрессия в скорости prefill, над которой сейчас работают. Для запуска использовался форк llama.cpp с поддержкой gfx906. Детали теста

Источники: LocalLLaMA
80 токенов/сек и 128K контекст на 12GB VRAM с Qwen3.6 35B

Пользователь достиг производительности 80 токенов в секунду с контекстным окном 128K на видеопамяти 12GB, используя модель Qwen3.6 35B A3B и llama.cpp с MTP. Такой результат демонстрирует возможности оптимизации для селф-хостинга крупных моделей на ограниченном железе. Детали конфигурации и настройки доступны в обсуждении.

Источники: LocalLLM
Запуск Minimax 2.7 со 100k контекстом на Strix Halo: настройки и опыт

Пользователь поделился конфигурацией для запуска MiniMax-M2.7 в GGUF с контекстом 100k на AMD Strix Halo под Fedora Linux. Ключевые флаги: --no-context-shift для контроля переполнения, --kv-unified для совместного кэша сессий, --cache-ram 0 для хранения кэша в VRAM. По сравнению с Qwen3.6 27b, Minimax лучше улавливает интент в задачах кодинга, но слабее в архитектурных обсуждениях и код-ревью. В комментариях обсудили оптимальные значения ubatch (2048 вместо 1024) и альтернативные настройки кэша. Полная команда и объяснения

Источники: LocalLLaMA
Визуальный гайд по требованиям VRAM в зависимости от квантования и параметров

Опубликована инфографика, показывающая как квантование и количество параметров влияют на требования к VRAM для запуска локальных моделей. В комментариях пользователи указали на ограничения:.chart не учитывает KV-кэш, который существенно влияет на реальное потребление памяти при длинном контексте. Также отмечено, что для MoE-моделей возможен запуск более крупных моделей с оффлоадингом в RAM. Гайд полезен для начальной оценки, но требует поправок на конкретные сценарии использования. Обсуждение

Источники: LocalLLM
mlx-serve быстрее LM Studio на 40% на Apple Silicon

Бенчмарк показывает, что mlx-serve на 40% быстрее LM Studio при работе с Gemma4 на чипах M-серии. Наибольший прирост (+122%) заметен на задачах с эхо-повторами, вроде агентского редактирования кода, где спекулятивное декодирование работает эффективнее. Сервер написан на Zig, не требует Python в стеке и поддерживает API OpenAI и Anthropic. В комментариях упоминают omlx как альтернативу с лучшим энергопотреблением. репозиторий

Источники: LocalLLM
Опыт запуска Qwen3.6-35B-A3B на RTX 3090: скорость против контекста

Пользователь протестировал Qwen3.6-35B-A3B (Unsloth UD-Q4_K_XL) на одной карте RTX 3090 24GB в сценариях агентного программирования через Claude Code. Модель выдает 113 токенов в секунду со стабильным вызовом инструментов, но упирается в лимит контекста 64K уже после 2-3 редактирований файлов. Системный промпт и история операций занимают значительную часть памяти, что прерывает длинные сессии рефакторинга. В обсуждении рекомендуют попробовать агенты с меньшими системными промптами, например opencode или Pi, либо использовать квантование IQ4_XS для увеличения окна контекста. Также обсуждается возможность выгрузки KV cache в системную RAM через параметр `--no-kv-offload` для сохранения сессии ценой скорости. Обсуждение

Источники: LocalLLM
Квантование Qwen3.6-35B-A3B на RTX 3060 12GB: q4_k_s против q6_k

Пользователь с RTX 3060 12GB и 32GB DDR4 тестирует Qwen3.6-35B-A3B в разных квантованиях. На q4_k_s достигается 33-40 t/s, но на q6_k скорость падает ниже 10 t/s при тех же настройках. В комментариях объясняют: вероятно, упираетесь в shared memory. Решение — перенести experts на CPU, оставить KV cache в GPU, тогда Q5 и Q6 дадут около 25 t/s. Для агентского кодинга минимум Q5, Q4 слишком часто ошибается в tool calls. Альтернатива — вторая GPU на 24GB. Обсуждение

Источники: LocalLLM
Производительность Qwen 27B Q3 на 9070XT: 12 tok/s в llama.cpp

Пользователь получает 12 tok/s на 9070XT при запуске Qwen 27B в q3 через llama.cpp с контекстом 65536. В комментариях советуют: для такой конфигурации лучше взять 35B вместо 27B. Текущая связка Q3 + KV Cache Q4 сильно режет производительность. 35B на Q4/Q5 с f16 KV Cache при том же окне контекста даст выше скорость генерации. Другой пользователь делится конфигом: 24.63 t/s при 75k контексте на аналогичной модели. Рекомендуется убрать параметры threads, np, b, ubatch и добавлять по одному для теста. Тред

Источники: LocalLLaMA
Apple убирает 256GB версию M3 Ultra Mac Studio

Пользователи обеспокоены сокращением опций памяти Mac Studio: было 512GB, стало 256GB, теперь 96GB. В комментариях связывают это с дефицитом памяти на рынке — Samsung сократила производство RAM на 58% из-за забастовки рабочих (40 тысяч участников протеста из-за низких бонусов). Другая версия — Apple готовит линейку M5 Mac Studio и сворачивает запасы чипов под M3. Обсуждение

Источники: LocalLLaMA
Оптимизация Qwen 3.6 на AMD 7900XT: проблемы и решения

Пользователь столкнулся с падениями системы при запуске qwen3.6-27B на AMD 7900XT (24 ГБ VRAM) через Ollama и Open Web UI в Ubuntu. Скорость около 10 токенов в секунду, стабильность страдает при многозадачности. В комментариях советуют перейти на vllm с 4-битной квантовкой или использовать llama.cpp для поддержки multi token prediction. Опытные пользователи отмечают, что на той же видеокарте с 64 ГБ ОЗУ модель работает стабильнее, и рекомендуют заменить Open Web UI на другие клиенты. Также упоминается версия 35b MoE, которая показывает значительно более высокую скорость при генерации. Тред

Источники: LocalLLM
Бенчмарк Qwen3.6-27B на двух V100: 64GB VRAM за $1200 против 3090

Тестирование Qwen3.6-27B в формате Q8_0 на паре Tesla V100-SXM2 (32GB каждая) показывает 797 токенов/сек при prefill 2048 и контексте 4K. При 65K контексте скорость генерации падает до 26.7 токенов/сек, на 200K — до 18.53 токенов/сек. Пара V100 стоит около $1200 за 64GB VRAM против $1100 за 24GB на 3090, что даёт больший запас для длинных контекстов в задачах codegen. Бенчмарк выполнен через llama.cpp с tensor parallelism и flash-attention. Пост

Источники: LocalLLaMA
Опыт запуска GLM 5.1 на 4xRTX 6000 Pro

Пользователь назвал GLM 5.1 своей любимой локальной моделью, отметив её высокую эффективность в задачах на логику. Для развёртывания используется квантование Q4, которое стабильно работает на конфигурации с четырьмя видеокартами RTX 6000 Pro. Такой подход позволяет организовать селф-хостинг для требовательных нейросетей без облачных зависимостей. Детали конфигурации и впечатления от работы модели обсуждаются в треде.

Источники: LocalLLM
BeeLlama.cpp: форк llama.cpp с DFlash и TurboQuant для ускорения инференса

Разработчик представил BeeLlama.cpp — производительный форк llama.cpp с поддержкой спекулятивного декодирования DFlash и сжатия KV-кэша TurboQuant/TCQ. На RTX 3090 достигается запуск Qwen 3.6 27B Q5 с 200k контекстом и включённым зрением, пиковая скорость до 135 токенов в секунду (в 2-3 раза быстрее базовой версии). Среди ключевых функций: адаптивное управление глубиной черновика, защита от циклов рассуждений, мультимодальная поддержка и возможность переопределения параметров спекуляции на уровне запроса. Проект сохраняет совместимость с инструментами и серверным потоком llama.cpp, подробная документация и конфиги доступны в репозитории.

Источники: LocalLLM
Сборка на Ubuntu 26.04 с CUDA 13.2 для 30B модели с 256k контекстом

Пользователь поделился конфигурацией для запуска 30B модели с 256k контекстом на стандартном Dell-сервере. Сборка включает Ubuntu 26.04, CUDA 13.2, Python 3.14 и 3.13.13 для cuquantum-python-cu13. Детали реализации в посте.

Источники: LocalLLM
Проблемы производительности на 4x AMD MI50 (gfx906): 1-0.1 tps вместо ожидаемых 80-100

Пользователь столкнулся с крайне низкой производительностью на сервере с 4x AMD Instinct MI50 (128GB VRAM суммарно). При запуске Qwen3.6 через vllm скорость падает до 1-0.1 tps, тогда как на единственной RTX 3090 другие пользователи получают 80-100 tps. Бенчмарки показывают Mean TTFT около 17-26 секунд и Output token throughput 41-55 tok/s в зависимости от длины контекста. Конфигурация включает ROCm 7.2.1, FLASH_ATTENTION_TRITON_AMD_ENABLE, tensor-parallel-size 4 и различные оптимизации. Автор спрашивает, нормальны ли такие цифры для gfx906 или проблема в настройке. Обсуждение и конфигурация в посте.

Источники: LocalLLM
Пользователи сообщают о проблемах со скоростью DeepSeek V4 Pro в Ollama Cloud

Подписчики Ollama Cloud жалуются на критическое замедление работы DeepSeek V4 Pro — запросы выполняются значительно медленнее, чем ранее, некоторые пользователи отмечают, что локальные сетапы работают быстрее. В комментариях указывают на недостаточную инфраструктуру сервиса для текущего трафика, проблема наблюдается несколько недель. В качестве обходного пути предлагают отмену подписки или использование альтернативных платформ вроде Irene с fast mode, где доступны модели Ollama Cloud. Обсуждение

Источники: ollama
Опыт использования AMD ROCm Radeon AI Pro R9700 для локальных LLM

Энтузиаст поделился опытом перехода с Nvidia RTX 3090 на AMD Radeon AI Pro R9700 (32GB VRAM) для селф-хостинга LLM в рамках homelab на Unraid. Подтвердилось распространённое мнение: Nvidia работает по принципу «just works», тогда как AMD требует значительных усилий по настройке. Ollama функционирует без проблем, но LocalAI в контейнере Unraid не запустился, а с WAN2GP возникли сложности в отладке. Пользователь продолжает тестировать GPU в связке с Unraid и Docker, несмотря на трудности. Пост

Источники: LocalLLM
Гайд по запуску Ollama с DeepSeek на Ryzen APU (5700G)

Пользователь протестировал настройку Ollama на процессоре AMD Ryzen 5700G со встроенной графикой и подготовил подробный гайд по развёртыванию стека для работы с моделями DeepSeek. Инструкция включает конфигурацию Linux-окружения, настройки Ollama под APU и рекомендации по оптимизации. Гайд выложен на GitHub, автор отмечает, что документация поможет избежать типичных ошибок при настройке репозиторий.

Источники: ollama
Запуск DeepSeek V4 Pro локально на рабочей станции

Пользователь успешно развернул DeepSeek V4 Pro на домашней станции с процессором Epyc Genoa 9374F и видеокартой RTX PRO 6000 Max-Q (97 ГБ VRAM). Использовалась модифицированная версия llama.cpp с поддержкой квантования Q4_K_M, файл модели весит 859 ГБ. Скорость генерации составила 8.6 t/s при загрузке контекста. Исходный код конвертера доступен в CUDA-репозитории, сама модель — на HuggingFace.

Источники: LocalLLaMA
llama.cpp b9095: NCCL-Free Tensor Parallelism для Dual Blackwell PCIe

В версии llama.cpp b9095 реализована поддержка NCCL-Free Tensor Parallelism для систем с двумя потребительскими GPU Blackwell на PCIe. Это позволяет использовать режим `-sm tensor` без NCCL, что важно для селф-хостинга на данном железе. Пользователи уже тестируют обновление: на Windows возникли сложности с несовместимостью квантования KV cache для моделей 35B, но на меньших размерах заметен прирост TG при tensor split. В комментариях также уточняют, распространится ли поддержка на карты предыдущих поколений вроде 3090 или P40. Подробнее

Источники: LocalLLaMA

Агентные системы и инструменты разработки

Сравнение локальных и облачных браузерных агентов

Пользователи обсуждают выбор между локальными и облачными агентами для автоматизации рабочих процессов. Локальная настройка через браузер уменьшает зависимость от синхронизации и облачных логинов, хотя потребляет больше ресурсов и иногда сталкивается со сложными React-страницами. Важным преимуществом называют прозрачность: список задач показывает, где именно прерывается workflow, убирая эффект «черного ящика». Автор использует Accio Work для ручного поиска, чтобы сосредоточиться на проектах. Обсуждение

Источники: AgentsOfAI
Open-source AI-агент для кибербезопасности numasec

Разработчик представил numasec — open-source AI-агент для работы в сфере кибербезопасности, который работает прямо в терминале. Система использует 5 специализированных агентов: Pentest, Hacking, OSINT, Appsec и универсальный Security-агент. В отличие от код-ассистентов вроде Claude Code, этот инструмент заточен под пентесты и баг-баунти: он знает доступные локальные инструменты, следует стратегиям безопасности, переключает режимы и сохраняет контекст между сессиями. Агент интегрируется с Kali Linux и помогает перемещаться по рабочим процессам безопасности без необходимости постоянно объяснять цель заново. Пост

Источники: AgentsOfAI
Модели Ollama получили контроль над собственным интерфейсом

Эксперимент позволил моделям Ollama управлять своим интерфейсом самостоятельно. Такой подход открывает возможности для более гибкого взаимодействия между пользователем и моделью без жёсткой привязки к предустановленным элементам управления. Подробности реализации и демонстрация доступны в обсуждении.

Источники: LocalLLM
Обновление Vellium: питомцы на рабочем столе и агенты

Вышло обновление для Vellium, открытого кроссплатформенного приложения для работы с локальными моделями. Добавлена функция «Питомцы»: виртуальный персонаж размещается поверх окон, меняет эмоции и поддерживает чат, хотя функционал пока сырой. Вкладка Agents позволяет запускать CLI-подобные агенты для работы с документами, терминалом и файлами, включая поддержку MCP-серверов. Разработчик также исправил множество ошибок и добавил кастомизацию полей в чате. Обсуждение

Источники: LocalLLaMA
Prism: селф-хостед рабочее пространство с контролем интерфейса

Проект Prism реализует селф-хостед рабочее пространство, где модель получает контроль над окружением, а не только чат. Подключенная через Ollama, система умеет выполнять код, shell-команды, создавать интерактивные виджеты и управлять браузером. Для поиска используется селф-хостед SearXNG, а для памяти — PostgreSQL с pgvector. Проект работает через Docker Compose и позволяет агенту регистрировать новые инструменты без изменения кода. Детали

Источники: ollama
Pragma показывает шаги рассуждений агента в реальном времени

Pragma — агент с открытым исходным кодом, который транслирует каждый шаг рассуждений в интерфейсе в реальном времени, убирая эффект черного ящика. Система использует цикл ReAct и разделяет задачи между моделью для оркестрации и моделью для кода, например Qwen 2.5 Coder. Навыки агента включают работу с файловой системой, оболочкой и веб-поиском, при этом вся история сохраняется локально. Тесты проводились на NVIDIA RTX A2000 12 ГБ с связкой Gemma 4 E4B и Qwen 2.5 Coder 7B. Пост

Источники: ollama
Год развития MCP-серверов для локальных моделей

Автор делится опытом года работы над MCP-сервером для локальных LLM. Если раньше tool calling на локальных моделях работал нестабильно, то сейчас gemma4 и qwen3.6 на mac mini справляются с задачами на полной скорости через нативный tool calling. Проект остаётся открытым, но автор отмечает, как выросла экосистема за последний год — от «дикого запада» до зрелых решений для селф-хостинга. пост

Источники: LocalLLaMA
Обновление Dunetrace: мониторинг продакшен-агентов

Вышло обновление открытого инструмента Dunetrace для мониторинга агентных систем в реальном времени. Добавлен кросс-агентный анализ паттернов: теперь видно, какие детекторы срабатывают во всем флоте агентов, а не только на одном ране. Появился счетчик здоровья агента (0–100) и глубокая аналитика через Langfuse — кнопка Explain загружает трассировку и показывает промпты. Также добавлена интеграция для кастомных агентов на TypeScript и Python без лишних зависимостей. Подробнее

Источники: AgentsOfAI
Verdify: локальный ИИ-планировщик для теплицы

Проект Verdify использует локальный агентный планировщик для управления климатом в теплице без прямого доступа к оборудованию. ИИ анализирует телеметрию и прогнозы, предлагая целевые диапазоны для вентиляторов и полива, но реле переключает только прошивка на ESP32. Диспетчер валидирует и ограничивает выводы модели, обеспечивая безопасность системы. Это позволяет оценить пользу локального ИИ для оптимизации ресурсов без риска стать критическим контроллером. Код проекта доступен на GitHub, детали в посте.

Источники: LocalLLM
Реальность внедрения AI-агентов: проблемы легаси, данных и ожиданий

Разработчик, занимающийся внедрением AI-агентов для бизнеса, делится опытом реальных проектов. Основные сложности — интеграция со старыми системами (вплоть до Windows XP), разрозненные данные в таблицах и отсутствие бюджета на подготовку инфраструктуры. Агенты часто выдают уверенно неправильные ответы на незнакомые вопросы, поэтому требуются правила передачи человеку и логирование решений. Автор рекомендует начинать с мелких задач (например, проверка заполнения форм), а не автоматизировать процессы целиком. В комментариях часть сообщества скептически оценивает опыт автора, называя пост «slop» и подвергая сомнению существование клиентов. Подробности в обсуждении.

Источники: AgentsOfAI
AIF-dialect: протокол M2M-коммуникации для агентов с экономией 70% токенов

Представлен AIF-dialect — новый протокол коммуникации между агентами, который сокращает объём генерируемого текста на 70%. Протокол предназначен для machine-to-machine взаимодействия и помогает агентам избегать избыточных ответов при обмене данными. Решение особенно актуально для селф-хостed-развёртываний, где экономия токенов напрямую влияет на скорость и стоимость работы. Подробнее

Источники: LocalLLM
Архитектура OpenClaw: мульти-агентная система на ARM Grace + Blackwell (128GB)

Автор финализирует архитектуру полностью локальной мульти-агентной системы OpenClaw на базе ASUS Ascent GX10 с ARM Grace CPU и NVIDIA Blackwell GPU (128GB унифицированной памяти). Стек внутри Podman: PyTorch 2.13.0.dev + vLLM 0.19.2.dev + CUDA 13.0. Используется паттерн Planner → Executor → Judge: Executor на Qwen2.5-14B-Instruct, Planner/Judge — кандидаты Llama-3.3-70B-Instruct-FP8 или Gemma-4-31B-it-FP8. Автор запрашивает фидбэк по стабильности FP8 на Blackwell, выбору между Gemma 4 и Llama 3.3 для ролей планировщика/судьи, и актуальности классического агентного лупа в 2026 году обсуждение.

Источники: LocalLLM

Практические кейсы и приложения

Визуальный движок Nexora для сложных сценариев в Ollama

В разработке находится проект Nexora — визуальный движок на основе узлов для автоматизации локальных моделей без написания Python-кода. Приложение позволяет связывать несколько моделей в единый DAG, например используя Llama 3 для логики и Phi-3 для саммари. Реализована нативная поддержка циклов Foreach для обработки файлов и условий, а сам клиент написан на Tauri и Rust, что исключает тяжелые контейнеры Docker или Electron. Инструмент ориентирован на пользователей Ollama, которым нужно управлять сложной логикой через визуальные workflow. Подробности

Источники: ollama
SenseNova U1: ноды для ComfyUI и требования к железу

Для модели SenseNova U1 вышли ноды ComfyUI — модель сильна в генерации инфографики и чередующихся композиций. Теперь поддерживается 8-шаговый LoRA с заметным улучшением скорости локальной генерации. Требования к системе выше обычных SD-моделей: минимум 36GB оперативной памяти, иначе возможны краши при загрузке весов. VRAM хватает 8GB, а для GPU с 16GB+ рекомендуется установить `prefetch_count` в 0 при использовании Q6 GGUF-квантования — это отключает Layer Swapping и снижает задержки инференса. Репозиторий

Источники: LocalLLM
Запрос на плагин для автоматического суммаризации контекста в LMstudio

Пользователь ищет решение для расширения контекстного окна моделей Gemma 4 в LMstudio на Windows ARM. Идея заключается в автоматической суммаризации диалога при заполнении контекста на 80%, сохранении резюме в файл и подгрузке его в новую сессию для сохранения долгосрочной персоны. Такой подход позволил бы развивать продолжительные диалоги с ИИ без потери истории. Автор спрашивает, существует ли готовый плагин для LMstudio или других фронтендов, либо предлагает сообществу создать такое решение. Пост содержит подробное описание задачи.

Источники: LocalLLM
Maxime Labonne о тренировке маленьких моделей и устранении doom loops

Maxime Labonne из Liquid AI объясняет различия в тренировке маленьких и больших моделей. В материале рассматриваются техники, разработанные для устранения doom loops, которые всё ещё влияют на маленькие модели вроде Qwen3.5-0.8B. Также показано, как reinforcement learning может решать многие проблемы маленьких моделей. Объяснение содержит примеры и практические рекомендации.

Источники: LocalLLM
Автоматизация браузера на RTX 5060 с Qwen 3.5 9B

Пользователь запустил автоматизацию браузера на видеокарте RTX 5060 8 ГБ, используя модель Qwen 3.5 9B (квантование q4k_m) через llama.cpp. Система выдает около 40 токенов в секунду и поддерживает контекст 64k при использовании kv :q8. Автор отмечает двукратный прирост производительности по сравнению с LMStudio, хотя время мышления у модели остается заметным. В обсуждении ищут рекомендации по другим моделям с хорошим вызовом инструментов и vision в пределах 8–14 ГБ видеопамяти. Источник

Источники: LocalLLM
Проблема контекста в Zed с Qwen3.6: лимиты превышаются

Пользователь на RTX 3090 24GB и 64GB RAM столкнулся с ошибкой превышения контекста в Zed при работе с Qwen3.6 iq4_xs 35ba3b. Модель полностью помещается в VRAM, но Zed периодически отправляет 190k или 140k токенов в llama.cpp, хотя в конфиге Zed стоит 121k, а в llama.cpp — 128k. Причина такого поведения и способы фикса пока не ясны, пользователь запросил помощь сообщества. Пост

Источники: ollama
Запуск Qwen-32B на Alienware R16 с виртуальным аватаром

Пользователь успешно развернул модель Qwen-32B-Q4_K_M локально на ноутбуке Alienware R16 через LM Studio. После очистки фоновых процессов и настройки исключений в Windows Defender удалось загрузить GPU на 90–100% во время инференса. Контекст 4096 токенов, KV cache квантован в q4_0/q8_0 для скорости. В связке с Open-LLM-VTuber работает 2D-аватар с голосом (Edge TTS): ответ занимает 4–5 с на 14B модели и 10–15 с на 32B. В планах настройка RAG для работы с документами и веб-поиск через Tavily. Обсуждение

Источники: LocalLLM
Кастомный инференс-движок ds4 для DeepSeek v4 Flash от создателя Redis

Основатель Redis представил ds4 — нативный движок инференса, специально разработанный для DeepSeek v4 Flash. На M3 Max с 128GB RAM достигается 14–15 токенов/сек при 62K заполненном контексте в реальных задачах кодирования. Использование памяти стабильно на уровне ~85GB, дисковый кэш занимает ~8GB для полного окна контекста 100K. Термальные показатели в норме, сервер инференса работает стабильно. Пост

Источники: LocalLLM
Обновление UI: Ubuntu 26.04, CUDA 13.2 и сокращение уязвимостей с 1300+ до 48

Разработчик переводит интерфейс на Ubuntu 26.04 с CUDA 13.2 и Python 3.14, что позволило сократить количество CVE с 1300+ до 48. Квантово-устойчивое шифрование прямых сообщений relies на cuquantum, поэтому пока сохраняется Python 3.13.13 для совместимости библиотек. Базовая Docker-сборка будет выпущена на этой неделе с блокировками для предотвращения AI-тренировки. Демонстрационные видео записаны на Dell PC с Nvidia 4060ti (8GB VRAM, 32GB RAM). Детали

Источники: ollama
Project Caroline: локальный AI-киоск на Gemma 3:1b для Raspberry Pi 5

Project Caroline — это AI-киоск в киберпанк-стиле для Raspberry Pi 5, построенный вокруг моделей 1B–3B диапазона. По умолчанию используется gemma3:1b, который на Pi 5 даёт почти мгновенный отклик для glanceable desk-консоли. Система управляет памятью и историей чата локально, использует модель как logic engine для интеграций со Spotify, Philips Hue и Google Calendar. Стек включает Node-RED backend (localhost), nginx и Chromium в fullscreen-режиме. GitHub

Источники: ollama
Локальные LLM через 12-24 месяца заменят облачные подписки

Автор протестировал Qwen3.6-35B на MacBook Pro M2 Max с 64GB RAM и пришёл к выводу, что локальные модели станут массовой альтернативой через 1-2 года. На текущем железе модель выдаёт около 27 токенов в секунду, одношаговое выполнение задач работает в 75% случаев, остальное требует итераций. Генерация лендинга занимает 8-9 минут против 3-4 у Claude Opus, но зато нет лимитов запросов и проблем с приватностью. В комментариях пользователи отмечают, что уже полностью перешли на локальные решения — кто на RTX 5090, кто ценит возможность строить систему из «кирпичей», которые локальная модель создаёт под конкретные задачи. Обсуждение

Источники: LocalLLM
Qwen 3.6 35B помог настроить WiFi в самолёте на высоте 10 км

Пользователь запустил qwen/Qwen-3.6-35b-a3b-Q6_k на ноутбуке Framework 16 (7840hs, 96GB RAM, 780m iGPU) прямо во время полёта. Локальный агент за секунды нашёл решение проблемы с DNS через nmcli — systemd-resolved использовал DNS Docker'а вместо шлюза сети самолёта. Скорость генерации составила около 20 TPS через llama.cpp с Vulkan-рантаймом в LMStudio. В комментариях шутят, что «это всегда DNS» и что для пятичасового перелёта понадобились все 35 миллиардов параметров модели. Пост

Источники: LocalLLaMA
iOS-приложение Priv AI с локальным запуском LLM и мостом к Ollama

Разработчик открыл исходный код приложения Priv AI для iOS, которое запускает LLM прямо на iPhone через llama.cpp с поддержкой GGUF-моделей (SmolLM2, Qwen 2.5, Llama 3.2, Gemma, Phi, Mistral). Ключевая особенность — Ollama bridge: приложение подключается к Ollama на Mac через локальный WiFi и передаёт тяжёлые задачи на более мощную модель. Реализованы сценарии анализа данных Apple HealthKit и парсинга PDF-выписок по кредитным картам — всё остаётся в локальной сети без отправки в облако. Автор приглашает предложения по дополнительным use case, в планах журналы и анализ документов. Репозиторий

Источники: ollama
Локальное AI-приложение для геополитических отчётов: проблема излишней уверенности моделей

Разработчик создал локальное приложение для генерации отчётов по геополитическим рискам на базе AI. По его словам, самая сложная часть оказалась не в технической реализации, а в том, чтобы заставить модель меньше «уверенствовать» в выводах — то есть калибровать уровень уверенности в ответах и избегать категоричных утверждений там, где данные неоднозначны. Детали реализации в обсуждении.

Источники: ollama
Qwen 3.6 27B в режиме полёта сравним с Claude Opus в Claude Code

Сооснователь Hugging Face отметил, что модель Qwen 3.6 27B, запущенная локально в режиме полёта, показывает результаты, близкие к последнему Opus в Claude Code. Для селф-хостинг-сообщества это важный сигнал: компактные модели догоняют закрытые облачные решения даже без доступа к интернету. Подробности обсуждения в треде.

Источники: LocalLLM
Оптимизация Qwen 3.6 35B для локального код-агента

Пользователь тестирует Qwen 3.6 35B-A3B (Q4_K_M) на 5060 Ti (16 ГБ VRAM) + 32 ГБ RAM через LM Studio. При 72% заполнении контекста (36K токенов) скорость падает до 9 t/s, время ответа — 77 секунд. В комментариях рекомендуют перейти на llama-server с параметрами -ctk f16, -fa on, batch 512, что даёт 35-40 t/s на аналогичном железе. Также советуют экспериментировать с GPU offload в диапазоне 25-29 слоёв. Обсуждение в треде.

Источники: LocalLLaMA