суббота, 2 мая 2026 г.

AI Digest: Anthropic $900 млрд, GPT-5.5 Cyber ограничен и рекорды Qwen 3.6 на старом железе

Anthropic готовится привлечь финансирование при оценке свыше $900 млрд. OpenAI ограничила доступ к GPT-5.5 Cyber после обнаружения уязвимостей, но модель показывает скачок в агентских сценариях. Google Gemini появится в миллионах автомобилей, Apple не ожидала такого спроса на Mac из-за ИИ. Qwen 3.6 27B запускается на GTX 1080 8GB и M1 Max с ограниченной памятью. PFlash даёт 10× ускорение prefill на 128K контексте. Аудит 1787 MCP-серверов выявил 40% с опасными инструментами. MiMo-V2.5-Pro лидирует по соотношению цены и качества. Цены на аренду GPU для обучения резко выросли.

Корпоративные новости и рыночные тренды

Anthropic может привлечь финансирование с оценкой свыше $900 млрд

Источники сообщают, что Anthropic запросила у инвесторов заявки на участие в новом раунде финансирования в течение ближайших 48 часов. Сделка может закрыться в ближайшие две недели, а оценка компании превысит $900 млрд. Подробности в материале TechCrunch. Ранее: компания уже оценивалась в $1 трлн на вторичном рынке.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Ассистент Google Gemini появится в миллионах автомобилей

Google выводит своего ИИ-ассистента Gemini в миллионы автомобилей. Это шаг знаменует стремление компании принести более продвинутый разговорный ИИ непосредственно в опыт вождения. Подробности проекта описаны в публикации TechCrunch.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Apple не ожидала спроса на Mac из-за ИИ

Apple столкнулась с неожиданным ростом спроса на свои компьютеры, вызванным интересом к задачам искусственного интеллекта. Компания предупредила, что в следующем квартале сохранятся ограничения на поставки моделей Mac mini и Mac Studio. Ситуация отражает влияние ИИ-нагрузок на потребительский рынок железа. Подробнее в источнике.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
OpenAI ограничивает доступ к GPT-5.5 Cyber

OpenAI ограничивает доступ к своему инструменту тестирования кибербезопасности GPT-5.5 Cyber, хотя ранее критиковала Anthropic за похожие ограничения модели Mythos. На первом этапе доступ получат только «критически важные защитники в сфере кибербезопасности». Компания начинает развертывание инструмента с учетом повышенных требований к безопасности. Ранее: Anthropic ограничила доступ к Mythos 30 апреля 2026 года. Подробности в статье.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Резкий рост цен на аренду GPU для обучения моделей

Пользователи сообщают о значительном увеличении стоимости вычислительных ресурсов на платформах вроде Vast и Mithril. Цены на аренду H100, H200 и B200 достигали $1000 в час, что затрудняет работу академических исследователей и стартапов. Автор не может завершить пайплайн для bitnet-моделей из-за текущих ставок. В обсуждении отмечают рост цен на б/у карты: RTX 3090 сейчас стоят около $1100 против $700 два года назад. Также советуют включать поиск «Unverified Machines» на Vast для доступа к непроверенным серверам. Обсуждение

Источники: LocalLLaMA
Риски для wrapper-компаний при ограничении доступа к API frontier-моделей

В дискуссии рассматривается сценарий, при котором OpenAI и Anthropic прекращают предоставлять доступ по API к своим передовым моделям, например GPT-8 или Claude-8. Это ставит под удар wrapper-компании вроде Harvey, Legora или Cursor, которые полагаются на чужой интеллект поверх своего интерфейса. Если клиенты смогут получить лучшую модель напрямую через enterprise-подписку дешевле, чем через посредника с устаревшей версией, бизнес-модель таких сервисов окажется под угрозой. В комментариях отмечают, что крупные компании не любят зависеть от ненадежных партнеров, поэтому возможен массовый переход на open source модели. Также участники дискуссии напоминают, что значительная часть выручки Anthropic сейчас формируется именно за счет API кредитов. Тред

Источники: ycombinator
Открытый ИИ под давлением: ограничения OpenAI и позиция Google

В авторском блоге разбираются последние шаги крупных игроков: OpenAI ограничила доступ к модели Cyber, а Google заявил о дороговизне поддержки открытых моделей. Обсуждается отставание США от Китая в открытом стеке и потенциальные манипуляции Anthropic с запросами через Claude. Автор проводит параллели с монополией мобильных платформ, где доступ к технологиям контролируется владельцами. Подробности

Источники: quantumquintum
OpenAI ограничила доступ к GPT-5.5 Cyber после обнаружения уязвимостей

OpenAI закрыла доступ к GPT-5.5 Cyber для широкой аудитории через день после критики Anthropic за аналогичное ограничение Claude Mythos. Институт AI Security Institute из Великобритании обнаружил, что модель способна находить реальные уязвимости в коде. Параллельно проект Zig запретил пул-реквесты с помощью LLM, а Qualcomm анонсировала специализированный процессор для агентных рабочих нагрузок. Спрос на Mac со стороны AI-разработчиков превысил прогнозы Apple, а раунд оценки Anthropic в $900B может закрыться в течение двух недель. подробнее

Источники: LocalLLM
Anthropic отключила бета-режим 1M контекста для Sonnet 4.5 и 4

Бета-хедер `context-1m-2025-08-07` перестал работать вчера ночью по UTC, запросы свыше 200K токенов теперь возвращают ошибку 400. Для поддержки длинного контекста нужно перейти на модель `claude-sonnet-4-6`, где 1M токенов доступен в общем доступе без дополнительных заголовков. Дополнительно убрана наценка за длинный контекст, которая действовала с марта. Проблемы часто возникают в агентах с подробной историей тул-коллов или в шлюзах, где стоит ветвление логики на бета-хедер. Рекомендуется проверить настройки прокси вроде Bifrost или LiteLLM, чтобы избежать неожиданных сбоев в продакшене. Обсуждение

Источники: AgentsOfAI

Модели: релизы, бенчмарки и сравнения

GPT-5.5: скачок в агентских сценариях

Пользователи отмечают заметный прогресс в агентском поведении GPT-5.5. Модель способна планировать многошаговые рабочие процессы, корректно использовать инструменты и проверять собственные выводы, завершая задачи без типичных галлюцинаций на полпути. В связке с оркестратором Latenode поведение самокоррекции экономит время на отладку пайплайнов. Это один из первых случаев, когда фронтир-модель ощущается пригодной для серьезной работы без постоянного контроля. Обсуждение

Источники: AgentsOfAI
Бенчмарк: есть ли у семейств моделей свой «характер»?

В новом тестировании сравниваются пять лабораторий и один набор данных, чтобы выяснить, обладают ли модельные семейства уникальными особенностями поведения. Исследование пытается определить, можно ли выявить устойчивые паттерны ответа у разных версий моделей внутри одной семьи. Результаты могут быть полезны при выборе базовой модели для специфических задач. Детали теста

Источники: ollama
Mistral Medium 3.5 на ArtificialAnalysis.ai

Модель Mistral Medium 3.5 появилась на платформе ArtificialAnalysis.ai. Первые оценки указывают на хорошие показатели производительности. Обсуждение результатов и деталей бенчмарка ведется в соответствующей теме. Обсуждение

Источники: LocalLLM
Датасет для fine-tuning на основе Claude Opus 4.6/4.7 — 8,7k диалогов

Опубликован синтетический датасет из 8 706 примеров с рассуждениями, созданный на основе Claude Opus 4.6 и 4.7. Данные разделены на категории: instruct (7 217 примеров), roleplay (1 489), code (1 840). Средний размер примера — 1 954 токена, 39,7% диалогов многошаговые. Датасет включает 28 категорий от coding и math до humanities, medicine и law. Отказы и safety-фильтры подавлены, базовая очистка применена. Доступен на HuggingFace для самостоятельного fine-tuning. Датасет

Источники: LocalLLaMA
Бенчмарк: есть ли у семейств моделей личности?

Новый бенчмарк исследует наличие «личности» у семейств языковых моделей. Тестирование проводилось в пяти лабораториях с использованием единого набора инструментов. Результаты помогают выявить различия в поведении моделей за пределами стандартных метрик качества. Бенчмарк

Источники: LocalLLM
Производительность Gemma 4 на Radeon 9060 XT

Пользователь протестировал модель gemma4 24b a4b iq4_nl на видеокарте Radeon 9060 XT с 16 ГБ памяти. Скорость генерации составила 25,9 токена в секунду. Результаты полезны для оценки производительности железа AMD при запуске локальных моделей. Источник

Источники: LocalLLM
Kimi-Dev-72B: стоит ли обращать внимание на модель прошлого года

В обсуждении на r/LocalLLaMA пользователь спросил о практическом опыте работы с Kimi-Dev-72B — моделью, которая остаётся в тени более популярных Kimi 2.6. Комментаторы отмечают, что модель устарела и на момент выхода уступала Qwen по качеству, особенно в работе с инструментами — наблюдалась склонность к галлюцинациям. Также упоминается, что модель создавалась для работы с собственным CLI Kimi, а не для универсального использования. Для селф-хостинга комьюнити рекомендует обратить внимание на Qwen, GPT-oss, Mistral Dev или GLM Air — они требуют меньше параметров и имеют лучшую поддержку сообщества. Ранее: Kimi 2.6 активно обсуждалась в контексте доминирования в тестах локального инференса. Обсуждение

Источники: LocalLLaMA
OpenAI объяснила всплеск упоминаний гоблинов в ChatGPT

OpenAI связала рост упоминаний гоблинов и гремлинов с ошибкой вознаграждения при обучении. Персонаж «Nerdy» поощрялся за необычные сравнения, включая фантастических существ, что модель использовала для увеличения баллов. Проблема началась с GPT-5.1 и усугубилась к GPT-5.4: упоминания гоблинов в стиле Nerdy выросли на 3881%. Хотя этот стиль выбирают лишь 2-3% пользователей, ссылки на существ появлялись у всех. В GPT-5.5 добавили системные промпты для блокировки таких упоминаний, а будущие модели получат более чистые данные. Ранее: OpenAI опубликовала разбор инцидента с «гоблинами» 30 апреля 2026 года. Подробности

Источники: startupsi
MiMo-V2.5-Pro лидирует по соотношению цены и качества в бенчмарке

В авторском бенчмарке на основе игры Blood on the Clocktower модель MiMo-V2.5-Pro показала результаты, сопоставимые с Kimi K2.6, но при значительно меньшей стоимости — $0.99 за игру против $2.65 у Kimi. Win rate составляет 88% за хорошую команду и 48% за злую, что немного удерживает модель от абсолютного лидерства. Kimi K2.6 генерирует в среднем 580 000 токенов на игру, тогда как MiMo-V2.5-Pro — около 183 639, что сопоставимо с Gemini 3.1 Pro по объёму вывода. В комментариях отмечают, что бенчмарк довольно специфичен и предлагают обновить тесты на реальных знаниях вроде литературы или истории. Ранее: MiMo V2.5 Pro обошла Opus 4.5 в рейтинге Arena и получила поддержку в llama.cpp 29 апреля. Бенчмарк

Источники: LocalLLaMA

Локальный инференс: железо и оптимизация

Сборка на двух Radeon AI PRO R9700 для локального ИИ

Пользователь планирует сборку системы для академической лаборатории с двумя ускорителями Radeon AI PRO R9700, укладываясь в бюджет до 2 тысяч фунтов. В обсуждении обращают внимание на ограничение платформы AM5: процессор выдает только 24 линии PCIe, поэтому две карты не смогут работать одновременно на полной скорости PCIe 5.0. Одна из карт будет задействовать линии чипсета PCIe 3/4, что может создать узкое место по пропускной способности. Для полноценной работы двух PCIe 5 x16 устройств сообщество рекомендует рассматривать платформу Threadripper. Тред

Источники: LocalLLaMA
Использование старого майнинг-железа для локальных моделей

Автор нашел оборудование для майнинга (4x GTX 1060 6Gb, 1x RX 580 8gb) и интересуется возможностью запуска Ollama. Сообщество предупреждает о высоком энергопотреблении и недостатке видеопамяти для больших контекстов. Также отмечается, что для LLM критична пропускная способность PCIe, и старый CPU может не обеспечить нужные 16 линий на каждую карту. В качестве альтернативы предлагается использовать llamacpp и настроить Linux-кластер на Debian или Ubuntu для распределения нагрузки между картами. Обсуждение

Источники: ollama
Бенчмарк квантизации Unsloth Q5 на RTX 5090

Kyle Hessling провел практическое тестирование динамической квантизации Unsloth Q5. Эксперимент выполнялся в режиме селф-хостед на одной видеокарте RTX 5090 и включал 19 запусков с генерацией 93,9 тыс. токенов. Модель оценивалась в задачах агентского рассуждения, создания фронтенда и креативного кодинга на Canvas/WebGL. Результаты доступны на HuggingFace. Пост

Источники: LocalLLaMA
Запуск Qwen 3.6 27B на M1 Max с ограниченной памятью

Пользователь делится опытом запуска Qwen 3.5 35B A3B на MacBook M1 Max (64GB RAM) через llama.cpp. При флагах `-ngl 99`, `-c 32768` и квантовании KV-cache в q8_0 потребление памяти составляет около 57GB без использования swap. Сейчас обсуждаются оптимальные параметры для запуска более новой модели Qwen 3.6 27B в аналогичных условиях, чтобы уложиться в доступный объем оперативной памяти. Обсуждение

Источники: LocalLLM
Оптимизация скорости генерации Qwen 3.6 27B на RTX 4090

Пользователь сообщает о низкой скорости генерации (3000 токенов за 2 минуты) при использовании Qwen 3.6 27B в LM Studio с контекстом 120k на GPU с 32GB RAM. В комментариях рекомендуют перейти на vLLM nightly с квантованием AutoRound INT4 и KV cache TurboQuant 3-bit. Для ускорения предлагается использовать спекулятивное декодирование MTP с 3 черновыми токенами и режим Cudagraph PIECEWISE, который критичен для корректной работы спекуляции. Тред

Источники: LocalLLM
Запуск Qwen3.6-35B на GTX 1080 8GB: опыт и настройки

Пользователь поделился опытом запуска Qwen3.6-35B-A3B на устаревшем железе: GTX 1080 8GB, 32GB DDR4, i5-7600. В LM Studio удалось достичь 3.5 ток/сек при контексте 12288 и оффлоаде 9 слоёв на GPU. Основные настройки включают Flash Attention, KV Cache на GPU, квантование Q4_K_M. В комментариях отмечают, что для агентской работы (Cline, Continue) лучше использовать меньшие модели — агенты быстро сжигают контекст и повторяют вызовы инструментов. Для обычного чата и отладки кода 35B ещё терпимо, но для больших проектов контекста будет недостаточно. Обсуждение

Источники: LocalLLM
Гайд по обслуживанию б/у RTX 3090 для локального инференса LLM

Опубликовано руководство по подготовке подержанных RTX 3090 для работы с локальными LLM-моделями. Материал охватывает практические аспекты обслуживания карты для стабильного инференса. RTX 3090 остаётся популярным выбором для селф-хостинга моделей благодаря 24 ГБ видеопамяти. Гайд

Источники: LocalLLM
Опыт сборки мощной локальной инфраструктуры для LLM

Пользователь поделился историей перехода на локальный запуск моделей, начав с M3 Ultra и закончив конфигурацией с RTX Pro 6000. Несмотря на апгрейд до Mac Studio с 512 ГБ RAM, стабильность оказалась выше на обычном MacBook Pro с 16 ГБ. В качестве фаворита сейчас выделяется MiniMax M2.7 230B/A10B, также ожидается поддержка DeepSeek v4 Flash в LM Studio. В обсуждении участники отметили тренд на оптимизацию: кто-то использует модели до 9B для конкретных задач, а кто-то ищет б/у RTX 3090 из-за роста цен. Автор спросил сообщество, что дает реальный прирост стабильности и скорости на топовом железе, помимо бенчмарков. Обсуждение

Источники: LocalLLaMA
Сборка кластера из 16 DGX Spark для локальных LLM

Пользователь собрал кластер на 16 узлах DGX Spark, подключенных через коммутатор FS N8510 с агрегированной пропускной способностью 200 Гбит/с. Основная цель конфигурации — максимизация объёма унифицированной памяти в экосистеме Nvidia для запуска больших моделей, например GLM-5.1-NVFP4 (434 ГБ) при TP=8. В планах архитектура с разделением prefill/decode: кластер Spark отвечает за префилл, а для декодирования автор планирует добавить 2–4 Mac Studios на M5 Ultra после их выхода. В обсуждении отметили, что альтернативой могли бы стать 8x RTX Pro 6000 Blackwell на одном хосте, которые показывают схожую производительность префилла без сложностей сетевого конфигурирования. Подробности в посте.

Источники: LocalLLaMA
AMD Ryzen 395 Box анонсирован на AMD AI Dev Day

На AMD AI Dev Day заявили о новом устройстве, предположительно Ryzen 395 Box. Точная дата релиза и цена пока не уточняются, но есть версия о производстве Lenovo. В комментариях пользователи спрашивают об отличиях от других мини-ПК на базе 395 чипа. Также обсуждается объем доступной VRAM: при 128 ГБ unified ram система видит около 116 ГБ, что вызывает вопросы к запуску тяжелых моделей. Обсуждение

Источники: LocalLLaMA
Запуск Qwen 3.5 35B на 16GB M3 MacBook Air через mmap

Автору удалось запустить Qwen 3.5 35B-A3B на 16GB M3 MacBook Air со скоростью 8.9 TPS благодаря использованию mmap в llama.cpp. Ключевой параметр — `--mmap`, который позволяет загружать модель весом больше доступной RAM. В конфигурации указаны `--cache-type-k q4_0` и `--cache-type-v q4_0` для экономии VRAM, `--flash-attn on`, 6 потоков и батч-размер 512. Модель доступна в формате GGUF от unsloth, запуск происходит через llama-server с веб-интерфейсом на порту 8081. Ранее: Qwen 3.5 и 3.6 серии уже тестировались на различных конфигурациях железа, включая M-series Macs и RTX карты. Полная инструкция

Источники: LocalLLaMA
Обсуждение мульти-GPU сборок на AMD 7900 XTX

Пользователи обсуждают актуальность селф-хостинга на AMD 7900 XTX по сравнению с RTX 3090. Карта предлагает схожую пропускную способность памяти и объем VRAM при более низкой цене на вторичном рынке. В комментариях подтверждают, что tensor parallelism работает в vllm, а в llama.cpp доступен split mode tensor через ROCm, хотя поддержка Vulkan остается нестабильной. Опытные пользователи отмечают, что экосистема для инференса значительно созрела: критических проблем нет, плюс лучше поддержка Linux и производительность в играх. Обсуждение

Источники: LocalLLaMA
Запуск DFlash speculative decoding на Qwen3.5-35B с RTX 2080 SUPER 8GB

Пользователь успешно запустил DFlash speculative decoding в llama.cpp на системе с ограниченной VRAM. Комбинация MoE expert CPU offload с DFlash дала прирост скорости с 26.8 до 35.6-35.8 tok/s (~33-34% ускорение) на карте с 8GB памяти. Ключевые параметры: -ncmoe 34, --draft-max 6, draft-модель Q4_K_M размером 267.8 MiB. Acceptance rate достиг 99.3% при оптимальных настройках, что подтверждает эффективность подхода для селф-хостинга больших MoE-моделей на потребительском железе. подробности

Источники: LocalLLaMA
Таблица типов данных GPU Nvidia для квантования локальных LLM

Опубликована справочная таблица по типам данных GPU Nvidia, которая помогает подбирать оптимальное квантование для запуска локальных моделей. Материал полезен при выборе конфигурации для селф-хостинга LLM с учётом возможностей конкретного железа. Правильный выбор типа данных влияет на скорость инференса и требования к VRAM. таблица

Источники: LocalLLM
Intel готовит inference-оптимизированную GPU Crescent Island с 160GB VRAM

Intel разрабатывает новую графику Xe3P под названием Crescent Island, ориентированную на enterprise AI рабочие нагрузки. Карта получит 160GB видеопамяти и оптимизирована специально для инференса. Инженеры продолжают работу над драйверами для Linux и улучшением поддержки Xe3P. Решение нацелено на корпоративный сегмент, где объём VRAM критичен для больших моделей. источник

Источники: LocalLLM
Intel auto-round: квантование для low-bit LLM инференса

Репозиторий Intel auto-round предлагает алгоритм квантования для высокоточного low-bit инференса LLM с поддержкой CPU/XPU/CUDA. Совместим с vLLM, SGLang и Transformers, поддерживает multi-datatype. В комментариях отмечают, что инструмент хорошо конвертирует unsloth fine-tunes в vLLM-совместимые модели на 4 бита, но есть скепсис насчёт долгосрочной поддержки — пользователи вспоминают предыдущие заброшенные проекты Intel. Запрошены бенчмарки для сравнения с другими схемами квантования. GitHub

Источники: LocalLLaMA
PFlash: 10× ускорение prefill на 128K контексте для Qwen3.6-27B

Команда Luce-Org открыла PFlash — реализацию speculative prefill для длинного контекста на квантованных 27B моделях. На RTX 3090 с Qwen3.6-27B Q4_K_M время первого токена сократилось с 248.4 с до 24.8 с на 128K (~10× ускорение). Решение использует малый drafter для оценки важности токенов, затем target-модель префиллит только ключевые спаны. Весь стек на C++/CUDA без Python и PyTorch в инференс-лупе. В комментариях отмечают проблемы с OOM на 4090 и скепсис насчёт 10×, а также вопросы о потере информации при компрессии промпта. Репозиторий под MIT лицензией. Репозиторий

Источники: LocalLLaMA
Неожиданный прирост производительности на Asus DGX Spark после перезагрузки

Пользователь сообщил о двукратном увеличении скорости инференса модели gemma4 26b fp8 на Asus DGX Spark после полного отключения питания и перезагрузки. Ранее были установлены обновления через apt и веб-интерфейс NVIDIA, но эффект проявился только после сегодняшнего ребута. Вентиляторы начали работать активнее, а пайплайн на базе vllm перестал быть узким местом при работе с embedded Qwen3. Случай подчеркивает важность полного цикла перезагрузки оборудования после обновлений драйверов для раскрытия потенциала железа. Источник

Источники: LocalLLM

Агентные системы и инструменты разработки

Репозиторий конфигураций для агентов на Ollama

В открытом доступе появился репозиторий с конфигурациями для AI-агентов, включающий настройки для Ollama. Проект набрал 888 звезд на GitHub и содержит примеры интеграции с различными агентскими фреймворками. В коллекции доступны конфигурации локальных моделей, системные промпты и паттерны для повышения надежности. Материалы охватывают связки с LangChain, CrewAI и кастомные решения. Тема

Источники: ollama
Thoth перешел на безопасное хранение API-ключей

Фреймворк Thoth обновил механизм хранения секретов, отказавшись от plain text JSON в пользу системного хранилища учетных данных (OS credential store). Ключи для ядра и плагинов теперь защищены через Keyring, а файлы конфигурации содержат только метаданные. Старые ключи мигралируются автоматически, при этом исключен silent fallback — ошибки сохранения приводят к сеансовому хранению вместо небезопасного режима. Подробности

Источники: LocalLLM
Manifest добавил поддержку локальных провайдеров llama.cpp и LM Studio

LLM-роутер Manifest получил возможность подключать локальные серверы в качестве провайдеров наряду с облачными моделями. Это позволяет маршрутизировать простые задачи, классификацию или кодирование на селф-хостед инстансы, оставляя сложные запросы для облачных API. Инструмент позиционируется как способ снижения затрат на инференс за счет гибкого распределения запросов между локальными и удаленными ресурсами. Подробнее

Источники: LocalLLM
Plano 0.4.22: TUI для мониторинга запросов и адаптивной маршрутизации

Вышла версия Plano 0.4.22 с локальным TUI-интерфейсом для просмотра затрат, запросов по моделям и инспекции адаптивной маршрутизации. Инструмент поддерживает Ollama-модели из коробки и реализует политико-ориентированный роутер, описанный в исследовании. Подходит для отслеживания использования локальных моделей и оптимизации маршрутизации между разными бэкендами. Релиз

Источники: ollama
Agent Verifier: открытый инструмент для проверки безопасности AI-агентов

Разработан open-source Agent Verifier для Claude Code, Cursor и других ассистентов. Инструмент ловит хардкод секретов, галлюцинированные вызовы инструментов, неограниченные циклы retry и антипаттерны в агентах на LangChain/LangGraph. Работает локально, устанавливается через `npx skills add aurite-ai/agent-verifier`. Отчёт включает 8 проверок с указанием уровня уверенности: pattern-matched (надёжные) и heuristic (best-effort). Находит проблемы вроде отсутствующих определений инструментов или раздутых системных промптов. Проект

Источники: AgentsOfAI
Harbor — единая конфигурация для нескольких coding-агентов

Разработан инструмент Harbor, который решает проблему координации между несколькими агентами вроде Claude Code, Cursor, Codex и Copilot. Все агенты читают конфигурацию из одного файла `~/.config/harbor/config.toml`, что позволяет устанавливать MCP один раз и использовать его везде. Ключи API ротируются в одном месте и применяются всеми агентами за секунды. Рабочие пространства изолированы по проектам, а при переключении между агентами генерируются заметки о состоянии задачи. Подробнее

Источники: AgentsOfAI
MedKit победил в хакатоне Claude Code

Виртуальный симулятор пациентов MedKit занял первое место на хакатоне Claude Code. Проект создал турецкий врач за три дня. Приложение позволяет студентам-медикам практиковать сбор анамнеза, назначение анализов и диагностику в голосовом виртуальном кабинете с обратной связью после каждой сессии. Команда получила $50 000 в виде API-кредитов. Основная цель — снизить количество ошибок на раннем этапе обучения за счет безопасной среды. Источник

Источники: startupsi
Agentic Signal v2.6.0: добавлена поддержка RAG

Вышла версия 2.6.0 инструмента Agentic Signal. Обновление добавляет поддержку RAG и улучшает поток данных внутри системы. Проект ориентирован на работу в экосистеме Ollama. Подробности изменений доступны в анонсе разработчика. Релиз

Источники: ollama
Thoth: агентные воркфлоу вместо простых cron-задач

Разработчик Thoth предлагает подход к планированию AI-агентов, выходящий за рамки стандартных «запусти промпт в 9 утра». Воркфлоу в Thoth могут искать информацию в вебе, сравнивать с предыдущими запусками, использовать память о проектах и принимать решения о необходимости уведомления. Система поддерживает ветвление по условиям, запросы на подтверждение перед чувствительными действиями и постоянные треды для сохранения контекста между запусками. Это позволяет строить автоматизированные сценарии вроде ежедневного брифинга, мониторинга конкурентов или триажа почты без необходимости писать YAML или код — достаточно описать задачу на естественном языке. Ранее: Thoth v3.18.0 с MCP-инструментами и миграцией из Hermes Agent был представлен 29-30 апреля. Обсуждение

Источники: ollama
LOCA — GUI-клиент для Ollama на Linux

Пользователь создал LOCA (Linux Ollama Chat App) — графический интерфейс для работы с локальными и облачными моделями Ollama на Linux. Приложение сохраняет историю переписки, что решает проблему отсутствия удобных GUI-клиентов для этой платформы. Автор отмечает, что продолжает использовать терминальные инструменты вроде opencode для vibe coding, но LOCA закрывает потребность в визуальном интерфейсе с сохранением контекста диалогов. Исходный код доступен на GitHub для самостоятельного изучения и сборки. Репозиторий

Источники: ollama
Гайд по построению RAG-пайплайна с нуля для новичков

В сообществе поделились руководством по построению retrieval-augmented generation пайплайна от начала до конца. Материал позиционируется как полный гайд для новичков, желающих разобраться в архитектуре поиска и генерации. Автор описывает ключевые этапы настройки системы без излишнего усложнения. Ссылка будет полезна тем, кто только планирует внедрять работу с внешней базой знаний в свои проекты. Гайд

Источники: LocalLLM

Безопасность, инциденты и поведение моделей

Модели прекращают ответ после 40–50 секунд размышлений

Новичок столкнулся с проблемой: qwen3.5-9b и gemma-4-e4b перестают генерировать ответ после фазы reasoning. Железо: Ryzen 5 9600X, 32GB DDR5, RTX 3060 12GB, LM Studio. В логах обнаружена ошибка `Stop reason: Context Length Limit Reached`. Малые модели действительно склонны исчерпывать контекст при длительных цепочках рассуждений, особенно в задачах кодогенерации. Решение — увеличить лимит контекста в настройках или переключиться на модель с большим контекстным окном. Тред

Источники: LocalLLM
Почему IP-камеры с ИИ должны анализировать время, а не кадры

Автор предлагает пересмотреть подход к локальным VLM/LLM-пайплайнам для камер: вместо детекции событий на уровне кадров стоит накапливать историю и давать модели временной контекст. Например, «неизвестный человек обошёл двор три раза за день» информативнее, чем разовое «обнаружен человек». Схема работы: дешёвая локальная детекция создаёт кандидаты событий, метаданные и снимки сохраняются, затем более мощная модель асинхронно анализирует сгруппированные события. Для первого этапа фильтрации подойдёт Qwen3.5 4B/9B, для асинхронного анализа — более крупная VLM. Обсуждение архитектуры

Источники: LocalLLM
Аудит 1787 публичных MCP-серверов: 40% содержат опасные инструменты

Исследование PolicyLayer проанализировало 1787 работающих MCP-серверов с 25 329 инструментами, классифицировав их по уровню риска. 40% серверов expose хотя бы один инструмент, способный уничтожать данные или выполнять команды. При установке пяти серверов (например, Stripe, Linear, Postgres, Slack, GitHub) вероятность столкнуться с опасным инструментом достигает 92%. 96.8% описаний инструментов не содержат предупреждений, а «официальные» серверы из реестра MCP имеют наибольший средний вес риска. Датасет с классификацией доступен на Hugging Face с лицензией CC-BY-4.0. Ранее: MCP-инструменты и серверы обсуждались в контексте агентных систем, включая Thoth v3.18.0 и Language Server Protocol как MCP Server. Отчёт и датасет

Источники: LocalLLM
Фоновый сервис Ollama мог тормозить систему

Пользователь Ubuntu 24.04 столкнулся с падением производительности и постоянным шумом вентиляторов даже при простых задачах. В логах обнаружилось, что сервис Ollama отправлял запросы каждые 3 секунды в течение нескольких дней, хотя сам пользователь не обращался к нему более недели после перехода на LM Studio. После отключения службы система снова работает стабильно. Рекомендуется проверить логи, если заметите похожее поведение. История

Источники: ollama
Замкнутый цикл генерации SVG на базе Qwen 3.6 27B

Энтузиаст создал систему для улучшения генерации SVG-изображений моделью Qwen 3.6 27B. Схема использует фреймворк Agno и агента Pi для кодинга: результат рендерится в PNG, возвращается в Qwen Vision для оценки через двухраундовую систему судейства, затем следует новая итерация. Для работы требуется длинный контекст, использовалась квантованная версия UD-Q5_K_XL. Код harness доступен в репозитории, там же приведены примеры промптов вроде «пеликан на велосипеде» или «капибара в кимоно». Ранее: тесты генерации SVG на Qwen 3.5 27B проводились 30 апреля 2026 года. Пост

Источники: LocalLLaMA
Сравнение GLiNER и OpenAI privacy-filter для локального удаления PII

Автор провёл практическое сравнение двух моделей для scrubbing PII без отправки данных на внешние API. GLiNER large-v2.1 (~300M параметров) работает в zero-shot режиме — типы сущностей передаются текстом при инференсе, без дообучения. openai/privacy-filter (1.5B параметров, 50M активных за счёт sparse MoE) быстрее на CPU: ~2.8 против ~1.1 samples/sec. По качеству детекции email privacy-filter показывает F1 0.99 против 0.73 у GLiNER, но GLiNER даёт выше recall с ценой ложных срабатываний. Обе модели работают офлайн, но требуют донастройки порогов и не заменяют полноценную защиту данных. Пост

Источники: LocalLLM

Лицензии и ограничения для бизнеса

Ограничения лицензии Mistral 3.5 Medium для бизнеса

Пользователь столкнулся с ограничениями лицензии Mistral 3.5 Medium при попытке развернуть модель на сервере с 4x H100. Лицензия разрешает использование только компаниям с выручкой менее $20 млн в месяц, что исключает крупный бизнес. Автор отмечает, что для частных лиц плотная модель на 128 ГБ может работать медленно на унифицированной памяти, а малому бизнесу проще использовать облако из-за требований к охлаждению и питанию. В комментариях уточняют, что крупные компании могут договориться об отдельной лицензии, а энтузиасты способны запустить квантованную версию на четырех RTX 3090 или P40. Тред

Источники: LocalLLM