четверг, 30 апреля 2026 г.

AI Digest: Anthropic оценили в $1 трлн, NVIDIA Nemotron Nano и рекорды Qwen 3.6 на M5 Max

Anthropic достигла оценки в $1 трлн на вторичном рынке. Scout AI привлекла $100 млн на военные ИИ-агенты, Firestorm Labs — $82 млн на дронов. NVIDIA выпустила мультимодальную модель Nemotron 3 Nano Omni, Poolside открыла Laguna XS.2 33B. Qwen3.6-35B-A3B протестирован с контекстом до 1M токенов на M5 Max. llama.cpp добавил нативную поддержку NVFP4 для Blackwell с ускорением до 68%. Anthropic заблокировала компанию из 110 человек без предупреждения.

Финансирование и корпоративные новости

Scout AI привлекла $100 млн на разработку военных ИИ-агентов

Scout AI Коби Адкок закрыла раунд для обучения моделей, предназначенных для боевых задач. В учебном центре стартапа тестируют агентов, позволяющих отдельным солдатам управлять автономной техникой. Инвесторы делают ставку на индивидуальный контроль над флотом дронов через ИИ-интерфейсы. TechCrunch

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Стартап GRAI поднял $9 млн на социальное взаимодействие с музыкой

Стартап GRAI привлек $9 млн от Khosla Ventures, Inovo VC и a16z Scout Fund. Платформа фокусируется на ремиксах, трансформациях и взаимодействии с артистами, а не на генерации треков. Андрей Авсиевич сообщил, что активный фандрайзинг занял около 4 месяцев при контакте с 50–100 инвесторами. Источник

Источники: proventure
Оценка Anthropic достигла $1 трлн на вторичном рынке

По данным Forge Global, стоимость акций Anthropic превысила показатель OpenAI в $880 млрд на вторичном рынке. Капитализация выросла с $380 млрд в феврале на фоне сделки с Mythos и изменений в контрактах с Пентагоном. Ранее: Google заключила секретное соглашение с Пентагоном по ИИ после отказа Anthropic. Рост котировок отражает высокий инвестиционный спрос в секторе генеративного ИИ. Данные

Источники: startupsi
Anthropic заблокировала компанию из 110 человек без предупреждения

Компания Anthropic заблокировала доступ организации из 110 человек без предварительного предупреждения, что подняло вопрос об операционных рисках при использовании закрытых API. В комментариях отмечают, что такие инциденты усиливают мотивацию переходить на открытые модели для снижения зависимости от провайдеров. Пользователи советуют заранее готовиться к возможному росту цен и ограничениям доступа. Ситуация напоминает о важности наличия альтернативных решений для бизнес-процессов. Источник

Источники: AgentsOfAI
OpenAI на Bedrock: конец эксклюзивности Azure и расчёт реальной экономии

OpenAI завершила трёхлетнюю эксклюзивность с Microsoft — gpt-5.5, gpt-5.4, Codex и Managed Agents теперь доступны напрямую в Amazon Bedrock в ограниченном превью. Для архитектуры это меняет экономику: при маршрутизации запросов из EC2 в us-east-1 к внешнему эндпоинту OpenAI каждый вызов терял 40-70 мс на сетевой оверхед плюс плата за egress. Автор протестировал сценарий с 100 запросами в секунду, 50 000 токенов контекста из pgvector и генерацией 1 000 токенов — в старой архитектуре это 52 ТБ egress в месяц или $4 680 только на передачу данных. Через AWS PrivateLink на Bedrock трафик остаётся внутри сети AWS, стоимость падает до $520 в месяц, экономия $4 100 без изменения промптов. IAM-роли заменяют API-ключи, метрики нативно идут в CloudWatch, а модель-роутинг между Opus 4.7 и gpt-5.5 сводится к смене modelId в Boto3-клиенте. Пост

Источники: LocalLLM
Оценка Anthropic достигла $1 трлн

Стоимость акций Anthropic на вторичном рынке выросла до $1 трлн, превысив оценку OpenAI в $880 млрд по данным Forge Global. Рост обусловлен сделкой Mythos и факторами спроса со стороны государственных структур. С февраля оценка компании увеличилась более чем в два раза с $380 млрд. Источник

Источники: startupsi
Закат эпохи GitHub: смена бизнес-модели и деградация платформы

GitHub переходит от подписочной модели к PAYG (оплата за использование) для Copilot, что знаменует смену приоритетов платформы. Mitchell Hashimoto (Ghostty) публично объявил об уходе с GitHub из-за постоянных проблем с доступностью — платформа перестала быть предсказуемым инструментом. Звёзды на GitHub превратились в «фейковую экономику» с миллионами накрученных отметок, которые продаются инвесторам как успех. За последние полгода открытый код на платформе стал вектором атак, а инфраструктура не справляется с наплывом ИИ-ботов и агентов. Подробности

Источники: quantumquintum
Parallel Web Systems оценили в $2 млрд через пять месяцев после прошлого раунда

Стартап Parallel Web Systems, занимающийся инструментами для AI-агентов, привлек $100 млн инвестиций под руководством Sequoia. Основатель компании — бывший генеральный директор Twitter Параг Агравал. Оценка проекта достигла $2 млрд всего через пять месяцев после предыдущего раунда на $100 млн. Подробнее

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Firestorm Labs привлекла $82 млн на мобильные заводы дронов

Оборонный стартап Firestorm Labs закрыл раунд финансирования на $82 млн. Компания планирует размещать производства дронов внутри грузовых контейнеров, чтобы организовать сборку непосредственно на передовой. Это позволит доставлять технику быстрее и адаптироваться к условиям поля боя. Источник

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Figure AI увеличила производство роботов в 24 раза

Компания Figure AI масштабировала производство своих гуманоидных роботов в 24 раза, достигнув скорости сборки одного устройства в час. В комментариях пользователи отмечают визуальное сходство презентации с фильмом «Я, робот» и шутят о начале «Войн клонов». Основываясь на темпах роста, компания готовится к развертыванию парка устройств. Обсуждение

Источники: singularity
Китайская Zhipu AI вошла в топ TIME наряду с OpenAI и Google

В обсуждении приводят данные из списка TIME за 2026 год, где китайская Zhipu AI оказалась в одном ряду с OpenAI и Google. Сообщается, что их модель GLM-5 на 744 млрд параметров обучена на процессорах Huawei без западных чипов и распространяется под лицензией MIT. Выручка компании выросла на 132% до $107 млн, а модель GLM-5.1 конкурирует с Claude Opus в задачах кодинга. Пост

Источники: singularity

Новые модели и открытые веса

Ling-2.6-flash стал открытым: 7.4B активных параметров

Ling-2.6-flash стал открытым, модель позиционируется как эффективный исполнитель с 7.4B активных параметров. Акцент сделан на пропускную способность и агентские задачи, но для локального использования важны вопросы квантования и потребления памяти. Обсуждают, какие бенчмарки нужны для оценки реальной пользы вне официальных серверов. Страница на Hugging Face уже доступна. Детали, HF

Источники: LocalLLM
Talkie: 13B модель на данных до 1931 года

Вышла языковая модель Talkie на 13 миллиардов параметров, обученная исключительно на данных до 1931 года. Такое ограничение датасета исключает современные знания, что может быть полезно для специфических экспериментов или стилизации. Пост

Источники: LocalLLM
Poolside выпустили открытую модель Laguna XS.2 33B

Poolside представили модель Laguna XS.2 33B A3B MoE с лицензией Apache 2. Сообщается, что результаты в агентских задачах сопоставимы с Qwen 3.5 35B A3B, но отстают от версии 3.6. Веса модели доступны на HuggingFace, а детали обучения опубликованы в блоге компании вместе с информацией о более крупной закрытой версии. Подробнее

Источники: LocalLLaMA
Sber выпустил Kandinsky 6.0 Image Pro с упором на редактирование

Обновление фокусируется на инструментах редактирования изображений, где модель сравнивают с Flux 2 Max и GPT Image 1.5 по сохранению стиля, геометрии и консистентности. Скорость генерации выросла более чем на 40% благодаря архитектуре MoE и оптимизации внимания. Ключевая особенность — Image RAG, позволяющая подтягивать релевантные изображения в контекст для точной отработки специфических запросов. Среди кейсов называют удаление объектов, замену предметов с сохранением стиля и реставрацию архивных фото. Анонс, сравнение

Источники: ai_newz
LoRA для Gemma 3 270M добавляет возможность рассуждений

Энтузиаст адаптировал компактную модель Gemma 3 270M для режима мышления через fine-tuning LoRA-адаптера. Обучение проводилось на процедурно сгенерированном датасете с участием Qwen 3.6 и GLM 5.1, с использованием кастомной функции потерь для соблюдения формата тегов. Автор отмечает сложности с ограничениями видеопамяти на RTX 3050 4GB, что повлияло на размер батчей и длину контекста. В комментариях предлагают развивать идею специализированных адаптеров для конкретных технологий или комбинировать малые модели с веб-поиском. Пост

Источники: LocalLLaMA
Talkie — 13B модель, обученная на данных до 1930 года

Команда выпустила 13B модель, натренированную на 260 миллиардах токенов, ограниченных 1930 годом — это крупнейший эксперимент в жанре исторических LLM. Дата выбрана потому, что всё написанное до 1930 года в США является общественным достоянием. Модель предназначена для тестирования способности предсказывать будущие открытия — например, могла бы модель на данных до 1910 года «открыть» теорию относительности. К проекту приложил руку Alec Radford, создатель первой GPT. Летом планируется выпуск модели уровня GPT-3. Пообщаться с моделью, блогпост и веса на HuggingFace уже доступны.

Источники: ai_newz
Open-weight модель Mimo v2.5 Pro обошла Opus 4.5 в рейтинге Arena

Модель Xiami Mimo v2.5 Pro с лицензией MIT заняла 9 место в лидерборде Arena, опередив Opus 4.5 на 10 позиции. Это вызывает интерес как пример открытой модели, превосходящей закрытые аналоги в задачах кодирования. Однако в обсуждении предупреждают о малом количестве голосов — на порядок меньше, чем у лидеров. Участники вспоминают похожий случай с GLM 5.1, который потерял позиции после обновления данных, и советуют подождать неделю перед выводами. Детали

Источники: LocalLLaMA
Вышла версия Qwen3.6-27B Uncensored Heretic v2

Вышла вторая версия файн-тюнинга Qwen3.6-27B Uncensored Heretic. Автор сообщает показатель KLD 0.0021 и уровень отказов 6/100. Модель доступна в форматах Safetensors и GGUF на странице разработчика. В комментариях пользователи обсуждают сохранение мультимодальности и рассуждений при снятии цензурных ограничений, а также интеграцию с LM Studio. Релиз

Источники: LocalLLM
DeepSeek начал тестирование версии с Vision

DeepSeek запустила grayscale-тестирование функции Vision для своей модели. В комментариях отмечают, что это поэтапный релиз, и некоторые пользователи уже получили доступ к возможностям работы с изображениями. Скриншоты в обсуждении подтверждают появление Vision-функционала у части аккаунтов. Тред

Источники: LocalLLaMA
Poolside AI анонсирует первые модели Laguna

Лаборатория Poolside AI объявила о выпуске своих первых моделей, получивших названия Laguna XS2 и Laguna M1. Это событие знаменует переход компании от закрытой разработки к публичным релизам в сфере искусственного интеллекта. Сообщество сейчас активно изучает заявленные возможности и место новых моделей на рынке. Релиз позиционируется как начальный шаг лаборатории в предоставлении доступных AI-решений. Технические детали и обсуждение характеристик ведутся в исходной теме.

Источники: singularity
NVIDIA Nemotron 3 Nano Omni для мультимодальных задач

Модель NVIDIA Nemotron 3 Nano Omni объединяет понимание видео, аудио, изображений и текста для корпоративных сценариев. Она поддерживает транскрибацию встреч, анализ документов и Q&A, доступна для коммерческого использования. В обучении использовались Qwen3-VL, Qwen3.5 и gpt-oss. Страница модели на HuggingFace и обсуждение поддержки на Reddit.

Источники: LocalLLaMA
Дистилляция reasoning-треков с Gemini для Mistral 7B

Пользователь экспериментирует с дистилляцией Mistral 7B для улучшения reasoning способностей, используя Gemini 3.1 Pro Preview как учитель. Модель возвращает суммаризированные треки без полного процесса мышления, что вызывает вопросы о качестве данных для обучения. Обсуждается возможность тренировки на таких данных без полного блока , как у R1 и Qwen, и риски галлюцинаций при вытягивании скрытых частей процесса. Подробнее о методах оценки качества треков в обсуждении.

Источники: LocalLLM
Поддержка MiMo V2.5 в llama.cpp

Автор подготовил пул-реквест для добавления текстового инференса MiMo V2.5 в llama.cpp. Уже доступны кванты на Hugging Face, включая оптимизированные для MoE-архитектуры версии Q8_0 и Q6_K. Проблема с NAN в формате Q4_K_M устранена, обновленные файлы загружаются. Ожидается, что другие авторы квантов вскоре также выпустят свои сборки. Обсуждение

Источники: LocalLLaMA
NVIDIA выпустила мультимодальную модель Nemotron 3 Nano Omni

Новая модель объединяет обработку зрения, аудио и текста в одной системе с контекстом 256K. Архитектура на базе гибридного MoE обеспечивает до 9 раз более высокую пропускную способность по сравнению с раздельными моделями. Модель открыта и доступна для развертывания в локальных и облачных средах. Эффективность особенно заметна в задачах анализа документов и видео. Пост, Модель

Источники: LocalLLM

Локальный инференс: бенчмарки и железо

Тестирование локального Qwen Coder на M3 Max

Автор тестирует локальный Qwen Coder через Ollama в связке с Claude Code на M3 Max. Основная цель — построить безопасный воркфлоу для агентских задач с использованием небольших моделей. Подробности эксперимента описаны в посте. Источник

Источники: LocalLLM
OpenAI Whisper на старом ноутбуке: транскрибация студенческих видео для проверки работ

Преподаватель использовал OpenAI Whisper для автоматической генерации субтитров к видео-демонстрациям студенческих проектов. Модель small (244M параметров, ~2 ГБ VRAM) комфортно работает на GTX 1650 Ti с 4 ГБ памяти. Обработка 20-минутного видео занимает около 5 минут, точность транскрибации — 80-90% даже при сильных акцентах и плохом качестве записи. Установка через pip, запуск в WSL без дополнительной настройки GPU. Субтитры значительно упростили проверку работ — можно читать текст параллельно с просмотром. Пост

Источники: LocalLLM
Бенчмарк KV cache для Qwen 3.6-35B-A3B на M5 Max с контекстом до 1M токенов

Автор протестировал TurboQuant fork llama.cpp на MacBook Pro M5 Max с 128 ГБ памяти, сравнив типы кэша f16, q8_0, turbo3 и turbo4. На глубине 128K 3-битный кэш догоняет 8-битный по префиллу (253 против 245 tok/s), а на 256K turbo3 выигрывает префилл +27%, но turbo4 лучше на декодировании +11%. Практические рекомендации: turbo4 для кодинга с глубоким контекстом, turbo3 для RAG и батч-задач, f16 для коротких интерактивных сессий до 32K. На 1M токенов turbo3 выдаёт 6.5 tok/s декодирования, занимая ~89 ГБ памяти. Полный отчёт и fork llama.cpp доступны для изучения.

Источники: LocalLLaMA
Локальный Qwen 3.6 35B обошёл Opus 4.7 в задаче анализа старого PHP-репозитория

В одном тесте локальная модель Qwen 3.6 35B A3B Int4 на RTX 5090 превзошла Claude Opus 4.7 при суммаризации legacy-кода (~200k строк). Qwen обработал ~40k токенов контекста за 37 секунд против 26k токенов за 67 секунд у Opus, выдав более конкретную сводку. Автор отмечает скорость 115 tok/s на Qwen 27B и до 205 tok/s на 35B A3B Int4 — для него это изменило DevEx в лучшую сторону. Opus оставался осторожнее в утверждениях, но Qwen точнее описал детали кода, что автор мог проверить как бывший контрибьютор. Конфигурация vllm выложена в открытом доступе.

Источники: LocalLLM
В llama.cpp добавили нативную поддержку NVFP4 для карт серии SM120

В репозиторий llama.cpp добавили пул-реквест с предварительной поддержкой нативного NVFP4 MMQ. Формат позволяет весам модели работать напрямую с тензорными ядрами Blackwell без шага трансляции, что снижает накладные расходы. Уже появились конвертации в GGUF для Gemma и Qwen. В комментариях отмечают, что на текущем этапе бенчмарки показывают результаты идентичные квантованию Q4_XL на картах уровня 5060 Ti. Также пользователи уточняют возможность работы с MoE моделями и CPU оффлоудингом. Пост, PR

Источники: LocalLLaMA
Бюджетный апгрейд до M1 Max 64GB для локальных моделей

Пользователь собрал бюджетную станцию для локальных моделей на базе логики M1 Max с 64 ГБ памяти. Вместо дорогого готового решения была куплена плата за $200 и корпус за $30, что позволило перейти с моделей 0.8b на 35b при общих затратах около $230. В обсуждении отмечают, что для селф-хостинга иногда достаточно собрать систему из доступных компонентов, используя headless-режим через SSH. Некоторые энтузиасты делятся опытом крепления плат нестандартными винтами для экономии. Обсуждение

Источники: LocalLLM
Опыт кодирования с Gemma4 26b на Mac Mini M4 Pro

Опыт использования Gemma4 26b для задач программирования на Mac Mini M4 Pro (64 ГБ) оказался неоднозначным: модель справилась с планом, но столкнулась с проблемами при обработке вложений и ограничениями контекста. Участники обсуждения советуют разделять сложные задачи на отдельные сессии и обращают внимание, что Gemma4 — это MOE-модель с 4 млрд активных параметров. Для агентной разработки комьюнити рекомендует пробовать Qwen 3.6 27b dense вместо Gemma. Также есть успешные кейсы поддержки проектов локальными моделями после начальной разработки в облаке. Подробности

Источники: LocalLLM
Возможности AMD Strix Halo для локального ИИ

В ответ на саркастичный заголовок об «изобретении компьютера» пользователи уточнили возможности AMD Strix Halo для локального ИИ. Платформа позиционируется как энергоэффективное решение для автономных агентов: 10–20 токенов в секунду на моделях 27–35b при потреблении менее 100 Вт. Сейчас цены на устройства выросли из-за дефицита памяти, но архитектура остается интересной для селф-хостинга. Комментаторы сравнивают решение с другими вариантами вроде DGX Spark, отмечая важность наличия CUDA или альтернатив. Тред

Источники: LocalLLaMA
llama.cpp добавил нативную поддержку NVFP4 на Blackwell

В релизе b8967 llama.cpp появилась нативная поддержка NVFP4 для архитектуры Blackwell. Тесты на RTX 5090 с моделью Qwen3.6 27B NVFP4 показывают около 5500 токенов/сек при префилле и 66-73 токена/сек при генерации в зависимости от длины контекста (до 32k). В комментариях отмечают, что на Blackwell 96GB достигается около 61 токена/сек при потреблении ~300W вместо 600W. Релиз на GitHub

Источники: LocalLLaMA
Qwen3.6 27B на двух RTX 5060 Ti 16GB через vLLM

Пользователь протестировал Qwen3.6 27B NVFP4 на связке из двух RTX 5060 Ti 16GB (32GB VRAM суммарно) с vLLM nightly. При 8K контексте достигается 50-66 токенов/сек в зависимости от количества спекулятивных токенов MTP, при 32K — 59-66 токенов/сек. Контекст 204k работает, но находится на пределе: после префилла 168k токенов VRAM занимает ~15.65GiB на GPU. В комментариях уточняют, что NVFP4-вариант модели использует нативную поддержку карт 5060 Ti. Обсуждение

Источники: LocalLLaMA
Практический опыт запуска Qwen 3.6 на потребительском железе

Автор использует локальные модели для выполнения экспертных задач, оцениваемых в $200 в час, акцентируя внимание на построении системы вокруг ограничений ИИ. На одном GPU 3090 удалось развернуть 27B версию, хотя в комментариях уточняют, что реальная скорость генерации может варьироваться от 35 до 60 токенов в секунду. Участники обсуждения также отмечают успехи Gemma4 в переводах и способность Qwen3.6 генерировать браузерные игры. Для специфических задач рекомендуют присмотреться к маленьким fine-tuned моделям вроде Granites и Nemotrons, которые показывают высокую эффективность при низких затратах. Подробнее в обсуждении.

Источники: LocalLLaMA
Эффективность новых TPU 8t и 8i от Google

Google опубликовала данные об эффективности новых чипов TPU 8t для обучения и 8i для инференса. Показатели эффективности затрат выросли на 170–180% для обучения и на 80% для инференса, при этом энергоэффективность улучшилась на 124% и 117% соответственно. Пропускная способность сети увеличилась с 100 до 400 Гб/с, а задержки сократились на 56% благодаря оптимизации маршрутизации. Обновление памяти включает рост ёмкости HBM до 288 ГБ для инференса, что напрямую влияет на скорость API Gemini 3.1 Pro. Ожидается снижение затрат на использование моделей примерно на 50% и возможность обучения триллионных систем в будущем, что подробно разобрано в обсуждении.

Источники: singularity
Проблемы производительности Claude Code с Qwen 3.6 35B на M1 Max

Пользователь поделился опытом запуска Claude Code через LM Studio на M1 Max MacBook Pro с 64GB RAM, используя Qwen 3.6 35B A3B с контекстом 100k токенов и GPU offload 40. Система работает медленно и выдаёт ошибки при генерации сниппетов. В комментариях советуют перейти на oMLX и mlx-модели для Mac, попробовать плотную 27B-версию для качества или 35B A3B для скорости. Часть комментаторов отмечает, что 35B на M1 Max будет тормозить в любом случае, и рекомендуют уменьшить размер модели до 7B–14B и сократить контекст. Также звучат замечания о низком качестве кода от таких моделей — они создают приложения, которые сложно поддерживать и масштабировать. Обсуждение

Источники: LocalLLM
Локальные модели для кодинга на MacBook Pro с 48GB RAM

Вопрос о том, могут ли локальные модели конкурировать с GPT-4.1 и Sonnet 4.5 при генерации PHP-кода на MBP с 48GB RAM. Сообщество рекомендует Qwen 3 Coder или Qwen 3.6 35B A3B как бесплатные варианты, отмечая, что 27B-версия ещё полгода назад считалась передовой для кодинга. Для 48GB MBP запуск локальных моделей вполне реален — MoE-модели дадут лучшую производительность, тогда как плотные модели будут работать в 5-10 раз медленнее (5-15 токенов/сек) с большим временем до первого токена. Тема

Источники: LocalLLM
5 открытых моделей для 32GB VRAM через Ollama

Автор поделился списком из пяти открытых моделей, которые помещаются в 32GB памяти при квантовании Q4 и работают через Ollama или llmstudio. Тестирование проводилось на NVIDIA RTX 5090 и Apple M4 Max, где для чипов Apple рекомендуется путь MLX для ускорения инференса. В линейку вошли qwen3:32b для общих задач, qwen2.5-coder:32b для кода, deepseek-r1:32b для рассуждений, gemma3:27b для зрения и mistral-small:24b для скорости. Все модели стабильно работают даже при одновременном использовании других приложений. Список моделей

Источники: ollama
Обновление драйвера AMDXDNA для планировщика Ryzen AI

Драйвер AMDXDNA получает обновление планировщика оборудования для процессоров Ryzen AI, касающееся квантов времени. Изменения направлены на обеспечение справедливости при работе нескольких пользователей и стабильности задач на нейроядрах. Детали подготовки патча обсуждаются в треде.

Источники: LocalLLM
local-llm-autotune для оптимизации TTFT и памяти

Инструмент local-llm-autotune оптимизирует работу локальных LLM: TTFT снижается на 40%, потребление RAM падает, время выполнения агентных задач сокращается на 46%. Среди функций — динамический размер KV-кэша, сжатие контекста при нехватке памяти и кэширование системных промптов. Утилита доступна через pip и поддерживает OpenAI-совместимый API, но не ускоряет генерацию токенов. Репозиторий на GitHub и подробности в треде.

Источники: LocalLLM
Исправление бага HAMi vGPU для Blackwell 5090 Mobile

При портировании Lucebox DFlash на RTX 5090 Mobile под Kubernetes обнаружилась критическая ошибка в HAMi vGPU. Неинициализированная переменная устройства вызывала краши подов, что затрагивает также llama-server и vLLM при определенных сценариях. Автор подготовил исправление в upstream (PR #188) и выложил Docker-образы для тестирования на Blackwell. Отчет

Источники: LocalLLM
Как часто обновлять железо для локальных LLM: опыт комьюнити

Обсуждение частоты апгрейда железа для селф-хостинга LLM выявило несколько практических ориентиров. Пользователи отмечают, что RTX 3090 2020 года до сих пор справляется с инференсом — для него важнее объём и скорость VRAM, а не сырая вычислительная мощность. Для больших моделей предлагают связку 4×R9700 с суммарными 128 ГБ VRAM по цене около 3090. Mac Studio M5 показывает производительность близкую к 3090 на моделях 10k+ параметров, но мини-ПК будут в 4 раза медленнее на декодировании и в 8-10 раз на обработке промптов. В комментариях добавляют, что GPU хорошо держат цену — один пользователь продал RTX 4090 дороже покупки. Обсуждение

Источники: LocalLLM
Native NVFP4 support in llama.cpp speeds up prompt processing by up to 68%

Тестирование llama.cpp на RTX 5090 показало, что нативная поддержка NVFP4 в сборке b8967 ускоряет обработку промптов на 43–68% по сравнению со сборкой без этой опции. При этом скорость генерации токенов осталась практически неизменной. Обновление особенно полезно для задач с длинным контекстом, RAG и анализа документов, сокращая время до первого токена. В обсуждении отмечают, что следующая большая прибавка к скорости генерации ожидается от поддержки MTP, а также упоминают возможную потерю точности NVFP4 по сравнению с другими методами квантования. Подробности теста

Источники: LocalLLaMA

Агентные системы: архитектура и надёжность

Рабочий процесс Claude Code с тремя этапами контроля

Разработчик поделился минимальным рабочим процессом с агентом Claude Code, который ведет задачу из GitHub до принятого PR с тремя этапами контроля человеком. Агент исследует код, составляет план и реализует его, останавливаясь на согласование архитектуры, ревью изменений и финальной проверке перед отправкой. Такой подход позволил корректно решить инженерные вопросы, например, выбор стратегии ограничения запросов, без участия человека на каждом шаге. Для интеграции используется MCP-сервер для получения задач из репозитория. Описание процесса

Источники: AgentsOfAI
Диагностический чеклист для архитектуры AI-агентов

Автор создал бесплатный диагностический инструмент для выявления типичных ошибок в архитектуре AI-агентов на основе анализа частых сбоев. Чеклист включает 20 вопросов по 6 категориям, охватывая риски галлюцинаций, бесконечные циклы, безопасность и наблюдаемость системы. Инструмент помогает структурировать аудит проекта до релиза и доступен без скрытых рекламных материалов. Инструмент

Источники: AgentsOfAI
Конфигурация агентов привела к отказу VPS-сервера

Пользователь описал случай, когда конфигурация AI-агентов привела к отказу VPS-сервера из-за рекурсии и запуска 642 процессов. Проблема возникла из-за четырех строк в YAML-файле для настройки MCP-серверов, что вызвало цепную реакцию нагрузок. Инцидент подчеркивает важность ограничений на уровне инфраструктуры при автоматизации задач. История сбоя

Источники: AgentsOfAI
Почему агенты теряют надежность со временем

Пользователи отмечают, что агентские системы часто работают стабильно несколько дней, а затем начинают деградировать. Проблема чаще не в рассуждениях модели, а в накоплении шума во входных данных: изменения в API, истечение сессий или некорректная верстка страниц. Автор заметил, что использование контролируемых браузерных слоев, например Browser Use или hyperbrowser, снижает количество случайных ошибок. В обсуждении добавляют, что загрязнение контекстного окна противоречивыми инструкциями и памятью также ведет к странному поведению. Обсуждение

Источники: AgentsOfAI
Подборка фреймворков для агентных систем на малых моделях

Обсуждение инструментов для запуска агентных систем на локальном железе, например в конфигурациях с GPU уровня 3060 12GB. Автор делится находками из исследования инфраструктуры для селф-хостинга, а сообщество дополняет список конкретными реализациями. Среди упомянутых решений — BAML для описания промтов через схему, RouterGym для бенчмаркинга задач и effGen как поддержка исследования автономных агентов. Также отмечают npcpy и npcpy/sh как варианты для интеграции. Тред

Источники: LocalLLM
Как построить код-агента для 8k контекста: токено-бюджетирование и параллельное выполнение

Автор разработал CLI-агент для локальных LLM с ограничением 8k токенов (Ollama, LM Studio, Groq, OpenRouter), разделив работу на planner, executor и orchestrator. Planner видит только карту проекта (~300-500 токенов), executor работает с одним файлом за вызов, orchestrator строит граф зависимостей без LLM. Бюджетирование enforced в коде: из 8192 токенов ~4800 остаётся на код после вычета системного промпта, резерва на ответ и памяти. Параллельное выполнение независимых правок ускоряет рефакторинг — 5 файлов обрабатываются за время longest single edit. Репозиторий litecode открыт для изучения.

Источники: ollama
Исследование: производительность кодирования 7B модели выросла в 2 раза без изменений агента

Обсуждают исследование, где производительность кодирования у 7B модели выросла более чем в два раза. Использовали 4 версии LoRA для Qwen2.5-7B с увеличением параметров на 3%. Ключевой момент: тесты прошли с 3 до 10 случаев благодаря настройке агентов поиска и планирования, при этом агент кодирования и отладки не меняли. В комментариях отмечают возвращение интереса к LoRA и возможность их динамического объединения под задачу. Обсуждение, исследование

Источники: LocalLLaMA
Сравнение фреймворков для AI-агентов в 2026 году

В 2026 году AI-агенты перешли из стадии экспериментов в производство, и выбор фреймворка оркестрации стал архитектурным решением. Статья сравнивает шесть ведущих вариантов по восьми критериям, включая управление данными — аспект, который часто упускают. LangChain подходит инженерам, нуждающимся в гибкости, CrewAI — для OSS-оркестрации нескольких агентов, n8n — для визуальных рабочих процессов с возможностью селф-хостинга. AutoGen ориентирован на исследовательские event-driven системы, StackAI — для регулируемых отраслей с соответствием SOC 2 и HIPAA, DataGOL — для предприятий с строгими требованиями к управлению данными. Ключевой вопрос при выборе: логируется ли доступ агента к базам данных, CRM и хранилищам, контролируется ли он и остаётся ли аудируемым. Гайд

Источники: AgentsOfAI
Разница в управлении контекстом для людей и автономных агентов

Разработчик отмечает фундаментальное различие между инструментами для людей и автономными агентами. В режиме с участием человека пользователь быстро замечает устаревший контекст и корректирует модель, тогда как агент может совершить несколько ошибочных действий на основе неактуальных данных до обнаружения проблемы. Инструменты для людей не масштабируются на агентов из-за необходимости инвалидации состояния и отслеживания изменений мира. Обсуждается, какие стратегии инвалидации используют разработчики агентной инфраструктуры. Подробнее

Источники: AgentsOfAI
Структурированная память для персональных агентов на примере Thoth

Простого набора .md файлов недостаточно для полноценной памяти агента, требуется гибридный подход с графом знаний. Система Thoth хранит сущности и связи между ними локально, позволяя делать точные запросы по смыслу вместо ключевого поиска по чату. Ночью происходит цикл очистки и обогащения данных, а также генерация совместимой с Obsidian вики для просмотра пользователем. Такой подход дает ассистенту долговременный контекст под контролем владельца без отправки данных в облако. Описание системы

Источники: ollama
Проблема контроля агентов: отсутствие границ исполнения

Инцидент с PocketOS показал риск архитектуры агентов: скрипт удалил боевую базу и бэкапы за девять секунд. Проблема не в «сбое» модели, а в отсутствии жестких границ исполнения — промты и валидации работают лишь как рекомендации, если агент имеет прямой доступ к системе. Необходим механизм, где каждое действие проверяется системой до запуска, а не постфактум. Обсуждение

Источники: AgentsOfAI
Как тренировать AI-агента: многослойная архитектура персонализированной системы

Автор описывает подход к созданию «обучаемой агентной экосистемы» вместо ожидания, что агент сам поймёт пользователя после подключения к Gmail. Базовый слой включает identity-файлы (кто агент, какие ценности), профиль личности с паттернами о пользователе, миссию и файл уроков из ошибок. Далее добавляются SQLite для саммари разговоров, векторные эмбеддинги для семантического поиска и облачные бэкапы. Ключевой момент — агент должен реально меняться, развивать предпочтения и замечать паттерны о себе. Стек включает Smart Router для выбора модели по сложности задачи, бесплатные BYOK-провайдеры (Groq, Cerebras, OpenRouter, Gemini), локальный Ollama для приватного инференса и Zo credits для критических задач. Слой персистентности хранит хронологический changelog, операционное состояние, личность, журнал мыслей и файл уроков. Пост

Источники: AgentsOfAI
Аутаж Claude и почему простой fallback на GPT не работает

Вчерашний крупный аутаж Claude (третий за месяц после 16 и 20 апреля) длился около часа и затронул Claude.ai, Claude Code и API одновременно — Downdetector зафиксировал 12 000+ жалоб. Интереснее реакция команд: многие с настроенным «fallback to GPT» всё равно упали, потому что их evals были заточены под стиль вывода Claude. Валидация структурированного вывода отклоняла ответы GPT из-за дрейфа схем, различий в JSON mode и форматах tool calls. Команды, которые справились лучше, имели: а) версионированные промпты на провайдера, б) eval-харнесс,-running против обоих провайдеров еженедельно, в) circuit breaker, срабатывающий после 3 последовательных 529 ошибок вместо ожидания полного аутажа. Вывод: fallback — свойство системы, а не просто try/except в коде. Пост

Источники: AgentsOfAI
Ollama Cloud Kimi k2.6 зацикливается в бесконечном thinking loop

Пользователи сообщают о критической проблеме с Ollama Cloud и моделью Kimi k2.6 — модель попадает в бесконечный цикл мышления и становится практически неработоспособной. Пока не ясно, связана ли проблема с самой моделью или с конфигурацией окружения. Скриншоты и детали бага в обсуждении.

Источники: ollama
Инцидент PocketOS: проблема архитектуры, а не промптов

Агент ИИ удалил всю продакшен-базу данных и бэкапы за 9 секунд — это произошло не из-за плохих промптов, а из-за отсутствия архитектурных защитных механизмов. Промпты вроде «не выполняй деструктивные команды» работают как рекомендации, а не реальные ограничения. Надёжная защита требует жёсткой блокировки команд на уровне исполнения (rm -rf, DROP DATABASE), независимого мониторинга через отдельный LLM-арбитр, многопользовательских границ и эскалирующих остановок при нарушениях. Индустрия массово выпускает агентов в продакшен без необходимой инфраструктуры безопасности. Обсуждение

Источники: AgentsOfAI
Как объективно тестировать кастомные инструменты для агентов

Пользователь запускает Qwen3.6-35B-A3B локально и столкнулся с проблемой: агент игнорирует инструмент чтения и многократно использует cat для одних и тех же файлов. После написания кастомного инструмента задача выполняется быстрее, но без объективных метрик сложно подтвердить улучшение. В комментариях рекомендуют собирать тестовый бенчмарк-сьют: копировать репозиторий и промпт до интересной задачи, затем измерять количество токенов, вызовов инструментов и попыток до успешного завершения. Один из участников использовал другого агента для создания похожей UX-системы тестирования на основе SQL-бенчмарка. Тред

Источники: LocalLLaMA

Инфраструктура и инструменты

Рекомендации по инструментам для локальных LLM

Пользователь ищет инструмент для запуска локальных LLM, в частности Qwen 3.6 27B и 35B для кодинга, а также модели Nemotron для работы с PDF. В комментариях советуют Pi Agent за чистоту и гибкость настроек. Также упоминают Cline как удобный вариант для локальных моделей, поддерживающий headless-режим. OpenCode хвалят за функционал, но критикуют интерфейс. Обсуждение

Источники: LocalLLM
Исправление гонки потоков в RPC-бэкенде llama.cpp для работы через интернет

Разработчик добился стабильной работы RPC-бэкенда llama.cpp через публичный интернет с помощью патча из трёх строк. Проблема возникала из-за гонки потоков: при WAN-задержках конкурентные вызовы SET_TENSOR отправляли данные через один сокет, что приводило к повреждению протокола. Решение — рекурсивный мьютекс вокруг send_rpc_cmd в ggml-rpc.cpp. После исправления 1,2 ГБ весов Phi-3 передаются за 122 секунды через Cloudflare WebSocket relay. Главное ограничение — RTT: при 30-80 мс скорость падает до ~0,2 токена/секунду, поэтому реальное применение — объединение памяти нескольких машин для запуска моделей, которые не помещаются на одном устройстве. Пост

Источники: LocalLLM
Lemonade OmniRouter: единый интерфейс для локальных AI-инструментов

Lemonade OmniRouter объединяет локальные AI-движки через OpenAI-совместимые вызовы инструментов. Поддерживает генерацию изображений через sd.cpp, текст-в-речь через kokoros, транскрибацию через whisper.cpp и visión через llama.cpp. Рабочий процесс обращается к одному эндпоинту — маршрутизация происходит автоматически. Доступен 181-строчный Python-пример полной интеграции. Референсный веб-интерфейс доступен как Tauri-приложение. Решение устраняет необходимость в кастомном слое оркестрации для мультимодальных локальных рабочих процессов. Пост

Источники: LocalLLaMA
Сравнение шлюзов безопасности для AI-агентов: AWS, Azure, Kong и Gravitee

Автор тестировал популярные шлюзы для внедрения контроля безопасности трафика AI-агентов, включая идентичность, лимиты и аудит. AWS Agentcore требует сборки из нескольких сервисов, что усложняет управление политиками. Azure APIM работает со подписками, но не учитывает контекст задач агента. Kong требует написания кастомных плагинов на Lua для специфичных политик. Выбор пал на Gravitee, так как он нативно поддерживает политики на уровне агента без дополнительного кода. В обсуждении уточняют детали реализации на Azure и актуальность подхода при разном масштабе системы. Сравнение

Источники: AgentsOfAI
Исправлен баг шаблона чата Gemma 4 для работы с инструментами

Автор поста обнаружил и исправил ошибку в шаблоне чата Gemma 4, которая мешала корректному вызову инструментов. Проблема возникала при использовании схемы JSON `anyOf: [$ref, null]`: шаблон удалял полезную структуру и рендерил пустое поле `type`. После правки Jinja-шаблона модель теперь корректно обрабатывает `$ref`, `anyOf`, `oneOf` и другие элементы схемы. Это решило проблемы с вызовом custom MCP инструментов, которые ранее не работали на нескольких движках инференса. Обсуждение

Источники: LocalLLaMA
Обновление лаборатории Hipfire для валидации архитектуры AMD

Разработчики Hipfire расширяют локальную лабораторию для тестирования локальных LLM на различных GPU AMD. В парк вошли MS-S1 MAX (Strix Halo), R9700, 9070 XT, 6950 XT, 5700 XT и 7900 XTX. Это покрытие позволяет тестировать все уровни возможностей dp4a и WMMA, выпущенные AMD. Цель проекта — обеспечить валидацию пул-реквестов против любого целевого устройства RDNA. Пост

Источники: LocalLLaMA
Тест веб-поиска через MCP серверы на Gemma-4-E4B-it

Опыт использования веб-поиска с моделью Gemma-4-E4B-it (4B эффективных параметров) через MCP серверы. Модель справляется с вызовом инструментов, но склонна к излишней краткости: изначально выдает summary без ссылок. Требуется явный промпт для получения URL и форматирования их в markdown. Для подключения использовался Brave Search MCP server, требующий регистрации API ключа. Детали теста

Источники: LocalLLM
AMD сократила размер Lemonade SDK 10.3 в 10 раз

AMD выпустила обновление Lemonade SDK 10.3, которое стало в 10 раз меньше благодаря отказу от Electron. Это существенное улучшение для разработчиков, работающих с локальными LLM на AMD-железе. Меньший размер упрощает установку и снижает требования к дисковому пространству. Пост

Источники: LocalLLM
Проблема совместимости Qwen3.6-27B-GGUF и llama.cpp

В сообществе зафиксирован отчет о проблеме при использовании модели Qwen3.6-27B в квантовании UD-Q8_K_XL вместе с llama.cpp. Инцидент связан с запуском на оборудовании DGX SPARK, детали ошибки обсуждаются в треде. Пользователям, планирующим развертывание этой версии, стоит ознакомиться с текущим статусом совместимости. Тред

Источники: LocalLLM
Исправление ошибок 400 и 401 при работе с Ollama Cloud и Pi Agent

Пользователь создал middleware-скрипт на Python для решения проблем с Ollama Cloud API, который не поддерживает роль `developer` в сообщениях. Прокси-сервер перехватывает запросы, заменяет `role: developer` на `role: system` и маршрутизирует трафик через локальный Ollama daemon для сохранения сессии `ollama login`. Скрипт работает на Flask, запускается на порту 5005 и может быть настроен как systemd-сервис для автоматического старта. Решение устраняет задержки и самоцензуру на уровне протокола, а не через промпты. Инструкция с кодом

Источники: ollama
Опыт использования Ollama Cloud для продакшена

Пользователь спрашивает о реальном опыте работы с Ollama Cloud для регулярной inference-нагрузки, сравнивая с OpenRouter за $50+ в месяц. В комментариях отмечают, что Ollama менее производителен чем OpenRouter, но дешевле. Некоторые пользователи сообщают о частых rate limit ошибках и таймаутах на Deepseek flash v4, Pro-версия сейчас практически неработоспособна. Другие отмечают проблемы с консистентностью кода и способностью моделей применять планы, при этом некоторые облачные модели ошибочно идентифицируют себя как Claude. Обсуждение

Источники: ollama
Проблемы со скоростью облачных моделей Ollama

Пользователи жалуются на значительное замедление облачных моделей Ollama даже на Pro-плане. В комментариях объясняют это проблемами с мощностью серверов — месяц назад kimi2.5 выдавал около 70 tps, сейчас максимум 20-30 tps. Производительность нестабильна и не сравнима с Tier 1 облачными провайдерами. Бесплатные включённые модели практически бесполезны из-за троттлинга. Тред

Источники: ollama
Текстовый полировщик в меню-баре на Ollama

Пользователь поделился инструментом для улучшения текста, который работает прямо в меню-баре системы. Главное преимущество — полная локальность: все запросы обрабатываются через Ollama без отправки данных в облако. Пост

Источники: ollama
Агрегация бесплатных токенов LLM от разных провайдеров

Разработчик объединил бесплатные квоты API от 13 провайдеров в единый эндпоинт с автоматическим переключением при исчерпании лимитов. Инструмент решает проблему фрагментации ключей, позволяя использовать ежемесячные квоты Groq, Mistral, Google и Cerebras без ручной настройки. Это снижает затраты на тестирование и разработку, убирая необходимость платить за кредиты при наличии свободных ресурсов. Детали

Источники: AgentsOfAI
Декодер форматов RisuAI (.risup и .risum)

Утилита декодирует обфусцированные файлы пресетов и модулей RisuAI в читаемый JSON. Это позволяет анализировать инструкции и промпты, используемые в SillyTavern, включая потенциальные джейлбрейки. Скрипты на Node.js занимают около 100 строк и помогают импортировать найденные в сети форматы в локальное окружение. Исходный код и инструкции по запуску доступны в репозитории. Пост, GitHub

Источники: LocalLLM
Улучшение точности веб-поиска для Qwen: инструменты и промпт

Для повышения точности фактов при веб-поиске на Qwen 9B/27B/35B рекомендуют использовать searXNG (поиск по нескольким движкам) и инструменты чтения: firecrawl для сложных страниц, jina для повседневных задач. Даже с этим ИИ может выдавать неверные факты, поэтому нужен специальный промпт-инструктаж: искать минимум два независимых источника после 2024 года, цитировать точный текст с URL и датой, избегать внутренней модели знаний и сложных вычислений. Автор приводит пример сравнения DeepSeek V4 Flash и MiniMax M2.7 — после добавления инструкций агент стабильно выдаёт корректные данные по контексту и VRAM. Гайд

Источники: LocalLLaMA

Безопасность и инциденты

Сравнение abliteration-методов на GLM-4.7-Flash: Heretic против HauhauCS, Huihui и Abliterix

Детальный анализ четырёх техник abliteration на MoE-модели GLM-4.7-Flash с 64 экспертами на слой. Все методы достигают 100% ASR на HarmBench, но различаются по эффективности рассуждений. Heretic показывает лучший результат на GSM8K с минимальным процентом пустых ответов (4.9%), тогда как Abliterix теряет почти половину ответов из-за истощения токенового бюджета. HauhauCS использует четыре наложенных метода поверх ядра Heretic, что снижает эффективность рассуждений на 6.75% по raw-метрике. KL-дивергенция у всех вариантов в допустимых пределах, но техники не образуют универсального подпространства — каждая находит ортогональное решение для удаления безопасности. Полные бенчмарки и тензорный анализ в посте.

Источники: LocalLLM
Гонка за защиту от AI-агентов с доступом к платежным данным

Индустрия разрабатывает механизмы контроля для AI-агентов, способных совершать финансовые операции. Основная проблема — предотвратить несанкционированные траты при сохранении полезности агентных систем для автоматизации покупок и платежей. Детали инициатив и предлагаемых решений в материале.

Источники: AgentsOfAI
DeepSeek V4 preview против GLM-5.1: сравнение для задач кодинга

Пользователи обсуждают, стоит ли переходить на DeepSeek V4 preview вместо проверенного GLM-5.1 для написания кода. Новая модель DeepSeek имеет 1.6 трлн параметров, контекст 1M и результат 80.6% на SWE-bench Verified, распространяется под лицензией MIT. API стоит дороже ($1.74/$3.48 за млн токенов), тогда как GLM-5.1 дешевле и известен стабильностью в длинных сессиях. Некоторые участники дискуссии характеризуют DeepSeek как более креативный, а GLM — как более аналитичный, также есть сообщения о проблемах с доступностью Flash-версии через сторонние сервисы. Обсуждение

Источники: LocalLLM