среда, 15 апреля 2026 г.

AI Digest: Приобретение OpenAI, лицензия MiniMax и прорыв в квантовании

OpenAI приобрела стартап Hiro для развития финансового планирования в ChatGPT. Meta создаёт ИИ-двойника Цукерберга для общения с сотрудниками. MiniMax M2.7 уточнила лицензию — продажа продуктов разрешена. Gemma 4 31B в 4-битной квантизации превзошла 8-битную версию на M5 Max. Система общей памяти для агентов снизила расход токенов на 65%. Венчурное финансирование в Европе выросло на 30% благодаря ИИ.

Сделки и индустрия

OpenAI приобрела стартап Hiro для развития финансового планирования в ChatGPT

OpenAI приобрела стартап Hiro, который занимается персональными финансами на базе искусственного интеллекта. Это приобретение указывает на новую возможность, которую компания строит внутри ChatGPT — финансовое планирование. Таким образом, функционал ассистента дополнится инструментами для работы с личными финансами. Покупка подтверждает расширение функционала модели за счет специализированных решений. Подробности доступны в статье.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Meta создаёт ИИ-двойника Цукерберга для общения с сотрудниками

Meta разрабатывает фотореалистичный аватар Марка Цукерберга для внутренней коммуникации с сотрудниками. Цифровая копия обучается на голосе, фотографиях, манере общения и публичных выступлениях основателя, а также на его текущем видении стратегии компании. Параллельно создаётся «CEO-агент» для помощи в управлении корпорацией. Сам Цукерберг лично участвует в проекте — по 5–10 часов в неделю пишет код и проводит технические ревью. Подробнее

Источники: hiaimedia
Венчурное финансирование в Европе выросло на 30% благодаря ИИ

В первом квартале 2026 года венчурное финансирование в Европе достигло $17,6 млрд, что почти на 30% больше показателя год назад. Это уже второй квартал роста подряд, хотя общее количество сделок значительно сократилось. Основным драйвером стал искусственный интеллект, который впервые занял более 50% от всего объема финансирования за квартал. Подробности в отчете Crunchbase.

Источники: https://news.crunchbase.com/feed/
Кризис публичного SaaS: рост выручки замедлился до минимума за 10 лет

Индекс публичных SaaS-компаний упал на 37% с конца третьего квартала 2025 года, а медианная оценка снизилась до 3,5x выручки. Средний рост выручки в секторе составил 16% — это минимальное значение за последнее десятилетие. Даже такие игроки, как ServiceNow с AI-продуктом на $600 млн, не избежали падения акций, поскольку рынок ждет реального ускорения доходов от внедрения ИИ. Алекс Клейтон из Meritech Capital отмечает, что данные в legacy-системах теряют статус конкурентного преимущества, уступая место агентам, а маржинальность AI-native компаний оказывается ниже традиционной софтверной. Подробный разбор ситуации в канале proVenture.

Источники: proventure

Модели и лицензирование

Открытые модели догоняют GPT-4 с возможностью локального запуска

В материале утверждается, что современные open-source решения уже достигают уровня GPT-4 по качеству генерации. Ключевое преимущество заключается в возможности запускать их приватно и бесплатно на собственном оборудовании. Это открывает доступ к мощным инструментам без зависимости от облачных API и ограничений провайдеров. Подробности и аргументация приведены в обсуждении.

Источники: ollama
NEO-unify: мультимодальная модель на 2B параметров без vision-энкодера

SenseTime опубликовала детали архитектуры NEO-unify — модели, которая обрабатывает сырые пиксели на вход и выход без отдельного vision-энкодера или VAE. Единый Transformer-бэкбон (MoT) отвечает и за понимание, и за генерацию, используя flow matching для изображений и авторегрессию для текста. Качество реконструкции (PSNR 31.56) уже близко к VAE модели Flux, при этом модель показывает высокую эффективность по данным. Релиза пока нет, команда готовит открытый исходный код и технический отчет. Обсуждение потенциала для локального запуска ведется в треде, детали на блоге Hugging Face.

Источники: LocalLLaMA
Обучение 125M модели с нуля вместо файн-тюнинга GPT-2

Автор обучил языковую модель на 125M параметров с нуля, используя кастомный токенизатор, вместо файн-тюнинга GPT-2. Архитектура включает 12 слоев, обучение прошло на WikiText-103 и TinyStories (~92k шагов), достигнув перплексии 6.19. Также доступна инструктивная версия, дообученная через LoRA на датасете DailyDialog, с объединенными весами адаптера. Цель проекта — предоставить чистый базовый стек для экспериментов с токенизацией или адаптацией доменов без необходимости в мощной инфраструктуре. Framework SFT для самостоятельного файн-тюнинга выложен на GitHub, веса моделей и планы масштабирования — в обсуждении.

Источники: LocalLLaMA
TranslateGemma-12b обошёл фронтальные модели в переводе субтитров, но с оговоркой

Alconost протестировали TranslateGemma-12b против 5 фронтальных LLM на задаче перевода субтитров в 6 языковых парах. 12B специализированная модель заняла первое место по среднему TQI (0.6335), обогнав gemini-3.1-flash-lite-preview, deepseek-v3.2, claude-sonnet-4-6 и обе версии gpt-5.4. Однако выявилась критическая проблема: модель выдавала упрощённый китайский вместо традиционного для zh-TW (76% сегментов), несмотря на корректные теги локали. Автоматические метрики COMETKiwi и MetricX-24 не обнаружили проблему. Причина — смещение в fine-tuning корпусе. Рабочее решение: постобработка через OpenCC s2twp. В комментариях отмечают, что Gemma4 26B/31B показывает лучшие результаты для пар арабский↔английский и корейский→английский. Отчёт

Источники: LocalLLaMA
Дистилляция моделей от 100B+ до менее 4B

Обсуждается методика дистилляции больших языковых моделей в компактные версии размером до 4B параметров. В комментариях упоминается новый trainer в TRL от HuggingFace, который позволяет эффективно проводить дистилляцию — в блоге команды есть детали реализации. Для быстрого старта доступен пример скрипта и документация. Пользователи интересуются оценками по железу и времени обучения для разных сценариев, например дистилляции Gemma4-3B в Gemma4-E2B или Qwen 3-30B/235B в Qwen 3-4B. Пост

Источники: LocalLLaMA
I-DLM: Интроспективные диффузионные языковые модели

Обсуждение новой архитектуры I-DLM, сочетающей диффузионные процессы с языковым моделированием. Подход предполагает интроспективные способности модели, что может улучшить качество генерации и контроль вывода. Детали и дискуссия доступны в треде.

Источники: LocalLLaMA
Лицензия MiniMax M2.7: продажа продуктов разрешена

Несмотря на ограничения в лицензии MiniMax M2.7, Райан Ли подтвердил, что продажа продуктов, созданных с помощью модели, разрешена. Команда продолжает работу над лицензионным соглашением. Это снимает часть опасений сообщества относительно коммерческого использования модели. Обсуждение Ранее: 12 апреля лицензия DOA запрещала коммерческое использование, 13 апреля Райан Ли пояснял ограничения для API-провайдеров.

Источники: LocalLLaMA
Опыт селф-хостинга MiniMax M2.7 на двух Asus Ascent GX10

Пользователь поделился опытом запуска MiniMax M2.7 AWQ на двух Asus Ascent GX10 (общая стоимость ~5360€). После тестирования Qwen 3.5 397B и других моделей, M2.7 оказался лучшим для агентской разработки кода. Квантованная версия на 130GB оставляет место для KV-cache, модель эффективна в планировании и отладке. Для верификации работы используется playwright-cli и тесты. В комментариях отметили, что стекирование устройств ухудшает термоконтроль — лучше размещать их горизонтально. Пост

Источники: LocalLLaMA
Исследование NaN-ошибок в GGUF-версиях MiniMax M2.7

Команда Unsloth исследовала проблему NaN при вычислении перплексии в GGUF-версиях MiniMax M2.7. Ошибка затрагивает 21%-38% всех GGUF на Hugging Face, причина — переполнение в llama.cpp на блоках 32 и 311. Интересно, что кванты IQ4_XS и IQ3_XXS не вызывают NaN, а средние (Q4_K_XL) — вызывают. Unsloth обновила свои файлы, но точная причина остаётся неизвестной. Отдельная проблема — CUDA 13.2 вызывает артефакты, откат до 13.1 решает вопрос. Детали Ранее: 13 апреля сообщалось о сломанном кванте UD-Q4_K_XL от Unsloth с NaN в перплексии.

Источники: LocalLLaMA

Локальный инференс и железо

Конфигурация железа для MiniMax-M2.7 230B

В теме обсуждается оптимальная сборка для запуска модели MiniMax-M2.7 размером 230 миллиардов параметров. Предложенная конфигурация включает три видеокарты RTX 5090, процессор Threadripper 9975 и 512 ГБ оперативной памяти. Такая сборка демонстрирует масштаб ресурсов, необходимых для работы с крупнейшими современными весами в локальной среде. Обсуждение деталей сборки и совместимости ведется в треде. Ранее: MiniMax-M2.7 уже тестировалась на M3 Ultra, 2x RTX PRO 6000 Blackwell и Mac с квантованными версиями 63/89 ГБ.

Источники: LocalLLM
Разбор реальных возможностей TurboQuant без маркетинга

Разработчик из KAIST подробно объяснил инженерные компромиссы технологии TurboQuant в интервью. Выяснилось, что сжатие в 6 раз касается только KV cache, а не всей памяти модели, что дает реальные 2x экономии на длинном контексте. Заявления об отсутствии потери точности действительны только при сжатии около 4.6x, а не 6x. Ускорение в 8 раз относится лишь к шагу attention logit, тогда как end-to-end прирост составляет 1.5-2x. Подробный разбор технических деталей доступен в обсуждении. Ранее: TurboQuant уже упоминался как CLI-инструмент для запуска моделей в один клик.

Источники: LocalLLM
Реализация DFlash для спекулятивного декодирования на MLX

Опубликована реализация DFlash для спекулятивного декодирования на Apple Silicon с использованием нативного MLX. На M5 Max с 64 ГБ памяти удалось достичь ускорения в 4.1 раза для модели Qwen3.5-4B и 1.9 раза для квантованной 27B версии. Каждый токен верифицируется целевой моделью перед коммитом, что обеспечивает lossless-генерацию. Основной прирост производительности получен за счет работы с численной точностью, так как на unified memory система ограничена пропускной способностью. Пост Ранее: DFlash уже демонстрировал 3x ускорение на MLX для Apple Silicon.

Источники: LocalLLaMA
Flow LLM — шлюз для локальных моделей на Apple Silicon

Разработчик представил Flow LLM, локальный шлюз для macOS, который объединяет управление GGUF (llama.cpp) и MLX-моделями в одном инструменте. Приложение проксирует запросы через OpenAI- и Anthropic-совместимые API, позволяя инструментам вроде OpenClaw, Hermes и Claude Code работать с локальными моделями без обходных скриптов. Встроенный монитор показывает обработку запросов в реальном времени: prefill → генерация → завершение, с подсчётом токенов и активностью слотов. Поддерживается контекст до 100K, flash attention и q4_0 KV cache, оптимизированные под Apple Silicon. Установка в одну команду, бинарник включает фронтенд без отдельных процессов. GitHub проекта

Источники: LocalLLM
Бенчмарк Qwen3.5 и Gemma4 на дуал-GPU (RTX 4070 + 3060)

Энтузиаст протестировал связку RTX 4070 (12 GB) и RTX 3060 (12 GB) для запуска локальных LLM через LMStudio. Qwen3.5 35B-A3B показал лучшую скорость генерации токенов — до 79 tok/s на длинных выводах, тогда как Gemma4 26B-A4B оказался на 15,6% быстрее в обработке промптов. Добавление второй карты ускорило обработку промптов в 1,5 раза и повысило throughput на 44% по сравнению с конфигурацией 4070 + CPU offload. В комментариях отмечают, что LMStudio распределяет VRAM менее эффективно, чем Ollama, и могут возникать неравномерные сплиты между картами. Для селф-хостинга дуал-GPU остаётся рабочим вариантом, особенно для MoE-моделей. Обсуждение

Источники: LocalLLaMA
Необычная сборка для инференса на 4x3090

Пользователь поделился фото своей домашней системы для запуска моделей. Конфигурация включает 4 видеокарты RTX 3090, 128 ГБ DDR4 и процессор с 18/36 ядрами. Для охлаждения и корпуса были использованы нестандартные решения: решетка от духовки и упаковка для яиц. Владелец сборки придерживается принципа «работает — не трогай», хотя планирует разработать новый кейс в будущем. Обсуждение

Источники: LocalLLaMA
Гид по RAM: какие комбинации моделей помещаются на Mac

Автор измерил реальное потребление памяти на M2 Max 32GB при Q4-квантовании — не размер файлов, а resident memory загруженных моделей. Llama 3.2 3B занимает ~2GB, 7B — ~4.5GB, 13B — ~9.5GB, 70B — 35-40GB. На 8GB Mac практический лимит — одна модель до 3B, на 16GB комфортно работают две 7B или одна 13B, 32GB позволяет комбинировать 13B + 7B + STT + TTS. Контекст умножает потребление: 16K заметнее 4K. При нехватке памяти переход с Q8 на Q4 экономит примерно половину RAM с минимальной потерей качества. Полная таблица

Источники: ollama
MiniMax M2.7 для Mac с 64 ГБ ОЗУ и меньше

Владельцы Mac с 64 ГБ ОЗУ или меньше получили возможность запускать модели уровня SOTA локально. Доступна версия MiniMax M2.7 от JANGQ-AI, показывающая 91 балл на MMLU. Для запуска требуется mlx.studio, runtime выложен на GitHub. Репозиторий модели доступен на HuggingFace. Обсуждение, Модель

Источники: LocalLLM
Квантованная MiniMax-M2.7 для Mac с памятью до 64 ГБ

Пользователь JANGQ-AI опубликовал квантованную версию модели MiniMax-M2.7 с использованием метода TQ. Решение ориентировано на владельцев Mac с объемом памяти до 64 ГБ, позволяя запускать локально модель уровня облачных SOTA даже на базовых чипах M5. Для демонстрации работы упоминается инструмент mlx.studio. В комментариях подвергают сомнению заявленную близость к облачным аналогам и указывают на насыщение бенчмарка MMLU. Участники обсуждения предлагают оценивать модель через сравнение с API на сложных вопросах HLE для более объективной картины. Обсуждение

Источники: LocalLLaMA
Вопросы о speculative decoding: сохраняет ли качество генерации

Пользователь r/LocalLLaMA задаёт вопросы о механике speculative decoding. Основная дилемма: если меньшая модель генерирует 1–4 токена вместо большой, не теряется ли качество, поскольку не используется self-attention и FFN целевой модели? Особенно concern вызывает генерация специфичных, информационно-плотных последовательностей, выходящих за пределы параметрического пространства малой модели. Также обсуждается вопрос совместимости embedding spaces между быстрой и целевой моделью. Обсуждение Ранее: сообщество уже тестировало speculative decoding в llama.cpp для Gemma 4 и Qwen 3.5 с ускорением ~2x

Источники: LocalLLaMA
i-Quants и imatrix: когда квантование работает хуже ожидаемого

Пользователи заметили, что «умное» квантование с imatrix действительно улучшает качество Q4_K_XL моделей до уровня Q6_K, но в основном для английских задач. Для других языков или нишевых сценариев эффект может быть обратным — в imatrix-файлах около 80% английского с базовыми задачами и немного кода. Автор вернулся к классическому Q4_K_M, за исключением случаев Q1/Q2, где даже слабый imatrix лучше полной отсутствия калибровки. В комментариях уточняют, что IQ-кванты и imatrix — разные вещи, и IQ4_NL примерно соответствует Q5_0, а не Q6_0. Обсуждение

Источники: LocalLLaMA
DDTree: ещё один слой ускорения поверх dflash

Опубликована статья о DDTree — методе ускорения инференса, который работает поверх dflash. Исследование доступно в открытом доступе. В комментариях отмечают, что метод стоило бы протестировать на qwen3.5, а не qwen3. Также обсуждают потенциальную реализацию dflash для llama-cpp и вопросы работы метода при температуре выше 0, поскольку большинство моделей не рекомендуют использовать temp=0 для сохранения креативности. Статья

Источники: LocalLLaMA
Speculative decoding в llama.cpp: практические настройки для Gemma4

Пользователь поделился опытом использования speculative decoding в llama.cpp при генерации кода. На задаче создания аркадной игры на canvas удалось достичь ускорения 15-30%. Рабочие настройки для llama-server: `--spec-type ngram-mod --spec-ngram-size-n 18 --draft-min 6 --draft-max 48`. Модель: Gemma4 26B A4B (unsloth quant). Статистика показала draft acceptance rate 0.76429 (2727 принято из 3568 сгенерированных). Автор не использует draft-модель из-за ограничений VRAM. В комментариях рекомендуют попробовать self speculative decoding или draft-модель вроде tiny Gemma, а также скрипт для автоподбора параметров. Пост Ранее: 2026-04-12, Speculative decoding в llama.cpp: Gemma 4 и Qwen 3.5

Источники: LocalLLaMA
Сравнение квантований Qwen3.5-9B по метрике KLD

Опубликована оценка сообщества GGUF-квантов Qwen3.5-9B через KL Divergence — метрику «верности», показывающую отклонение распределения вероятностей квантованной модели от BF16-базы. Чем ниже KLD, тем меньше потерь информации. Лидеры по точности (KLD <0.01): eaddario/Q8_0 (0.001198), unsloth/UD-Q8_K_XL (0.001243), bartowski/Q8_0 (0.001405). Для баланса размера и качества в топ-5 по efficiency score вошли mradermacher.i1-IQ4_XS, Mungert/iq4_xs и byteshape/IQ4_XS-4.20bpw. Данные полезны при выборе файла для селф-хостинга. Пост

Источники: LocalLLaMA
LLM сама настраивает флаги llama.cpp — прирост до 326% tok/s

Вышла вторая версия llm-server с функцией --ai-tune: модель в цикле подбирает оптимальные флаги запуска и кэширует лучшую конфигурацию. На связке 3090 Ti + 4070 + 3060 + 128GB RAM автор получил серьёзный прирост: Qwen3.5-122B ускорился с 4.1 до 17.47 tok/s, Qwen3.5-27B Q4_K_M — с 18.5 до 40.05 tok/s. Преимущество подхода в автоматической адаптации к новым версиям llama.cpp — тюнер читает --help и сразу использует свежие флаги. В комплекте также идёт TUI через llm-server-gui. Проект на GitHub

Источники: LocalLLaMA
Q8-кэш в llama.cpp: стоит ли использовать

В llama.cpp добавили поддержку Q8-квантования для кэша через PR #21038. Ранее Q8 считался стабильным для V-cache, теперь это распространяется и на K-cache. По опыту пользователей, на Q8 с hadamards получается лучшая перплексия, но результаты зависят от модели — например, gpt-oss/qwen показывают ухудшение из-за нестандартной архитектуры. Рекомендуют запускать llama.cpp eval script и тесты PPL для конкретной модели, чтобы оценить деградацию. Некоторые ждут внедрения RotorQuant, который обещает сделать контекст Q4-диапазона практически без потерь. Тред

Источники: LocalLLaMA
OpenMed добавил нативную поддержку MLX для Apple Silicon

Новая версия OpenMed объединяет базовый рантайм на Python с поддержкой Apple Silicon через MLX. Проект также опубликовал пакет Swift и улучшил документацию для платформы Apple. Это упрощает запуск медицинских моделей на локальных устройствах Mac. Обновление делает работу с проектом более стабильной на соответствующем железе. Обсуждение

Источники: LocalLLM
Почему бенчмарки через inference-провайдеров дают неточные результаты

Nathan из HuggingFace, поддерживавший Open LLM Leaderboard и оценивший около 10k моделей, указывает на распространённую ошибку: при бенчмаркинге через провайдеров вроде OpenRouter вы часто тестируете не саму модель, а провайдера. Квантизация, скрытые системные промпты, роутинг и тихие замены моделей искажают результаты. Решение — запускать модели через transformers serve с OpenAI-совместимым сервером, использовать inspect-ai как eval harness и масштабировать через HF Jobs на on-demand GPU. Такой подход даёт воспроизводимые результаты и полный контроль над тем, какая модель фактически выполняется. пост

Источники: LocalLLaMA
Gemma 4 31B в 4-битной квантизации превзошла 8-битную версию на M5 Max

Тестирование Gemma 4 на MacBook Pro M5 Max с 128GB памяти показало неожиданный результат: 4-битная квантизация набрала 91.3% против 88.4% у 8-битной версии. Скорость составила 21 токен/секунду, что приемлемо для фоновых задач, не требующих быстрого ответа. Версия 26B-A4B столкнулась с проблемой регрессионных циклов и достигала лимита в 16,384 токенов ответа даже в full precision (bf16). После обновлений шаблонов от Hugging Face производительность улучшилась. Для дневной работы на MacBook автор рекомендует Qwen 122B A10B 4bit как более быстрый вариант. пост Ранее: в предыдущих выпусках сообщалось о системном сбое внимания в Gemma 4 26B A4B.

Источники: LocalLLaMA
LLM самостоятельно настраивает флаги llama.cpp

Автор продемонстрировал подход, при котором модель сама подбирает оптимальные флаги для llama.cpp. На примере Qwen3.5-27B удалось добиться прироста скорости генерации на 54% токенов в секунду. Это решение позволяет автоматизировать оптимизацию инференса без ручного перебора параметров. Подобная автоматизация упрощает работу с тяжелыми моделями на локальном железе. Подробности эксперимента доступны в обсуждении.

Источники: ollama

Агентские системы и инфраструктура

Локальный триаж инцидентов безопасности через Ollama

Предложен сценарий использования локального ИИ для анализа инцидентов в системах безопасности. Схема подразумевает подключение к SIEM и направление данных на локальную модель Ollama для мгновенной классификации оповещений. Важный аспект решения — полная конфиденциальность, так как данные не покидают периметр машины. Такой подход позволяет автоматизировать рутинные задачи SOC без риска утечки информации. Описание реализации доступно в посте. Ранее: на базе Ollama также был представлен локальный сканер уязвимостей OpenSec Intelligence.

Источники: ollama
ParseBench: бенчмарк для оценки парсеров документов в AI-агентах

Вышел ParseBench — бенчмарк от LlamaIndex для оценки парсеров документов и OCR при работе с AI-агентами. Датасет содержит около 2000 страниц enterprise-документов с ручной верификацией и более 167 000 правил тестирования. Оценка проходит по пяти направлениям: таблицы, графики, достоверность контента, семантическое форматирование и визуальное заземление. Данные и фреймворк оценки полностью открыты, что позволяет тестировать любые системы парсинга. Обсуждение

Источники: LocalLLaMA
MiniMax открыла код MMX-CLI для мультимодальных AI-агентов

MiniMax открыла код MMX-CLI — инструмента командной строки для AI-агентов с поддержкой текста, изображений, видео, речи и веб-поиска. Интеграция возможна напрямую в Claude Code, Cursor и OpenClaw без необходимости запускать MCP-сервер. Инструмент выдает структурированный JSON в stdout для удобного парсинга и использует семантические коды выхода для обработки ошибок. Доступны функции асинхронной генерации видео и поддержания визуальной консистентности через subject-ref. Подробнее

Источники: LocalLLaMA
Локальный дашборд для управления агентами в Ollama

Разработан открытый дашборд для управления AI-агентами в Ollama с полным сохранением локальности. Интерфейс позволяет создавать кастомных агентов с системными промптами и вести чаты с историей переписки без отправки данных в облако. Решение построено на FastAPI и plain HTML, что делает его легковесным и простым в развертывании. Поддерживаются все локальные модели Ollama, установка не требует API-ключей. Обсуждение

Источники: ollama
Проблемы локальных ассистентов на больших репозиториях

Разработчик тестирует локальные модели (Gemma 4, llama.cpp) на реальных проектах и отмечает, что качество падает при работе с крупными репозиториями. Основная проблема — контекст: если модель загружает неверные файлы или пропускает зависимости, ответы быстро деградируют, особенно в multi-step агентах. В комментариях рекомендуют Qwen3.5 вместо Gemma4 для длинного контекста — задачи Cline часто превышают 200K токенов, где Gemma4 начинает «буксовать». Также советуют расширить набор инструментов: поиск по символам, дерево файлов, lookup определений, история git, логи. Пост

Источники: LocalLLM
Протокол координации агентов Cephalopod (CCP)

Разработчики показали проект для координации AI-агентов через централизованный сервер. Агенты регистрируются в системе, получают идентификаторы и обмениваются данными по mTLS, используя архитектуру MCP Server. Проект написан на Rust, авторы запросили мнение сообщества о целесообразности такого подхода к управлению агентами. Тема

Источники: AgentsOfAI
Готовность AI-агентов к продакшену: опыт команды из 5 человек

Обсуждение надежности AI-агентов в реальных задачах разделило сообщество: от трансформации бизнеса до необходимости постоянного контроля. По словам автора, команда использует инструмент accio work для поиска поставщиков, создания сайтов и генерации контента, что снизило рутинную нагрузку. Однако надежность падает при изменении внешней среды, поэтому вопрос о полной автономности агентов остается открытым. Дискуссия

Источники: AgentsOfAI
Система общей памяти для агентов снизила расход токенов на 65%

Автор создал проект, где несколько AI-агентов работают с общей идентичностью, памятью и целями — чтобы они не действовали как незнакомцы. После добавления слоя компрессии Caveman агенты начали меньше повторять контекст, переиспользовать уже известную информацию и продолжать работу друг за другом. В результате расход токенов сократился примерно на 65%. Эксперимент начался как развлечение, но превратился в работающую систему с «офисом» из AI-сотрудников. Подробности

Источники: AgentsOfAI
Настройка Ollama + Mistral + Mempalace через MCP

Пользователь успешно подключил Ollama с Mistral 7B к Mempalace через mcphost на Linux с NVIDIA RTX 4060. Mistral 7B выбран как одна из самых маленьких моделей с поддержкой инструментов. Дополнительно добавлен DuckDuckGo MCP-сервер для поиска, хотя он иногда генерирует несуществующие URL. В посте приведён подробный конфиг .mcphost.json с переменными окружения для Ollama и путями к venv. Конфигурация может сэкономить время тем, кто хочет повторить setup. Инструкция

Источники: ollama
ontomics: локальный индекс поведения кода и семантики для агентом

Разработан инструмент ontomics, который парсит кодовую базу через tree-sitter и строит запросный индекс поведения, семантики и терминологии проекта. Система exposes MCP-инструменты для любых локальных агентов, позволяя выяснять значение терминов в контексте репозитория без телеметрии и API-ключей. На примере FastAPI использование индекса сократило запрос о значении «dependency» с 27 вызовов инструментов и 83k токенов до 4 вызовов и 3.7k токенов. Инструмент выявляет несоответствия в именованиях и дублирование логики, используя PageRank и эмбеддинги. Исходный код доступен на GitHub, подробности эффективности — в посте.

Источники: LocalLLM
Плагин OpenCode для автообнаружения моделей через API gateways

Появился плагин OpenCode, предназначенный для автоматического обнаружения моделей из файлов конфигурации API gateways. Инструмент упрощает интеграцию локальных сервисов с существующей инфраструктурой шлюзов. Технические детали реализации и варианты использования обсуждаются в треде.

Источники: LocalLLM
Шлюз авторизации перед выполнением действий для AI-агентов

Разработчик создал_security_слой для AI-агентов, предотвращающий действия вне заданного_scope_. Ключевой элемент — Delegation Receipt: пользователь подписывает границы и инструкции до выполнения, запись попадает в лог. В версии 1.6.0 добавили Pre-Execution Verifier и Model State Attestation, которые блокируют запуск при подмене модели после подписания. Проект прошел 771 тест без ошибок, лицензия MIT, доступны обертки для LangChain и Express. Обсуждение

Источники: LocalLLM
Локальный плавающий ассистент Thuki для macOS

Разработчик создал плавающего ассистента Thuki (вьетнамское «секретарь») для macOS, вызываемого двойным нажатием Control. Выделенный текст автоматически передается в контекст, работа идет локально через Ollama на базе Gemma 4. Проект не требует API-ключей и облачных сервисов, находится в разработке. Подробнее

Источники: ollama
Manifest добавил поддержку Ollama Cloud с маршрутизацией по задачам

Инструмент Manifest теперь поддерживает подписки Ollama Cloud и позволяет распределять 40+ моделей по уровням сложности запросов. Пользователь настроил пять тиров: Simple (gemma3:4b с fallback на ministral-3:8b), Standard (gemma4:31b), Complex (deepseek-v3.1:671b), Reasoning (kimi-k2-thinking) и Coding (qwen3-coder-next). Для каждого уровня можно задать до 5 fallback-моделей, установить лимиты и отслеживать стоимость по агентам и сообщениям в дашборде. Подробнее

Источники: ollama
Стратегии работы с контекстом при локальном кодировании

Обсуждают подходы к управлению контекстом при использовании локальных моделей для работы с большими кодобазами. Автор экспериментирует с graph-first подходом: парсит код через Tree-sitter в структуру узлов и рёбер, затем запрашивает только релевантные файлы — это сокращает контекст с ~100K до ~5K токенов на среднем TypeScript-проекте. В комментариях упоминают локальные AI-кластеры Exo как альтернативу и спрашивают о рабочих сетапах на 32-64GB RAM с iGPU, поскольку не у всех есть мощные GPU. Обсуждение

Источники: ollama
Локальные агентные циклы для веб-задач на базе Accio

Пользователь тестирует локальный агентный подход для веб-задач через Accio, который работает напрямую с сессией Chrome вместо облачных сервисов. Система task_list позволяет отслеживать, где агент застревает — иногда на тяжёлых React-сайтах, но возможность запускать суб-агентов для поиска параллельно с основной работой улучшает результат. Решение потребляет много RAM, но код остаётся локальным и не отправляется в SaaS. Автор спрашивает, кто ещё пробовал локальный трекинг задач вместо чистых векторных баз. Пост

Источники: AgentsOfAI
Динамические списки инструментов и KV-кэш в LLM-агентах

Разбирают компромисс между динамическим выбором инструментов и переиспользованием KV-кэша в агентных системах. Полные определения инструментов (JSON-схемы) вставляются в системный промпт, но при динамической смене списка инструментов кэш сбрасывается, что ведёт к повторному prefill и росту задержки. Автор спрашивает, как другие решают эту проблему в продакшене: фиксированный список инструментов, двухэтапный подход с роутингом или вынос схем наружу. Тема

Источники: AgentsOfAI
Поиск подхода к production-ready агентному фреймворку

Разработчик делится опытом работы с Langchain, CrewAI, AutoGen и Claude Code — существующие решения дают быстрый результат, но вызывают сомнения при демонстрации клиентам. Предлагается фокус на code-act подходе для эффективного управления данными и аудита в песочнице, чёткой системе allow/confirm для ограничений действий агента, и гранулярных инструментах с авто-компиляцией API в нативную Python-библиотеку. Также упоминается техника auto-healing, использующая предыдущие ответы для улучшения документации агента со временем. Тред

Источники: AgentsOfAI
Agent Harness: инфраструктура вокруг LLM

Термин «Agent Harness» описывает всю инфраструктуру вокруг LLM: оркестрационный цикл, инструменты, память, управление контекстом и обработку ошибок. Выделяют три уровня работы: prompt engineering (инструкции для модели), context engineering (управление тем, что модель видит) и harness engineering (включает оба предыдущих плюс оркестрацию инструментов, персистентность состояния, восстановление после ошибок и безопасность). Пример: LangChain изменили только харнесс, не трогая модель и веса, и поднялись с 30-го на 5-е место в TerminalBench 2.0. Статья на Хабре Ранее: LangChain упоминался в обзорах агентских фреймворков

Источники: ai_for_devs
Проблемы тестирования безопасности агентов перед релизом

Автор поднимает вопрос недостаточности одиночных промпт-тестов на джейлбрейк. Эффективнее оказываются многоходовые атаки в рамках длинного диалога, где модель постепенно раскрывает информацию из-за накопленного контекста. Для автоматизации проверки было создано открытое решение, которое ведет адверсариальные диалоги и очищает память между попытками. Обсуждение методологий тестирования и инструментов продолжается в посте.

Источники: AgentsOfAI
Опыт использования мультиагентных команд для управления проектами

Пользователь поделился опытом автоматизации рутины в проектном менеджменте с помощью связки acciowork и Claude. Агентная система анализирует логи чатов и почту, выделяет задачи и настраивает напоминания, что сокращает время на поиск информации. При этом остаются вопросы доверия к агентам в вопросах тональности и приоритетов. Примеры внедрения и ограничения обсуждаются в треде.

Источники: AgentsOfAI
Lanes: управление параллельными сессиями Claude Code и Codex CLI

Инструмент создан для решения проблемы потери контекста при работе с несколькими параллельными сессиями CLI-ассистентов. Lanes предоставляет рабочее пространство для запуска множества процессов одновременно с сохранением общего обзора задач. Установка доступна через Homebrew, автор запрашивает обратную связь по удобству управления сессиями. Подробнее о функционале и идее проекта в сообщении.

Источники: AgentsOfAI
Локальное RAG-приложение Indexa для зашифрованных баз знаний

Разработчик представил Open Source проект Indexa для macOS, позволяющий создавать зашифрованные базы знаний на основе локальных моделей через Ollama. Пользователи могут экспортировать коллекции в `.indexa` и передавать их другим: получатели смогут задавать вопросы и получать ответы с цитатами, но не увидят исходные документы. Приложение поддерживает парольную защиту, автоматическое обновление данных через краулинг и локальный HTTP REST API. Исходный код проекта доступен для изучения и модификации. Подробнее на Reddit

Источники: LocalLLM
Переход от LLM к LAM: агенты на рабочем столе

Обсуждают переход от чат-ботов к Large Action Models, которые самостоятельно управляют браузером и файловой системой. Автор экспериментирует с acciowork и openclaw — пока много галлюцинаций, но циклы коррекции задач уже работают. Основной вопрос к комьюнити: что сейчас сдерживает локальных агентов, вычисления или способность к рассуждению? Обсуждение

Источники: LocalLLM
CDRAG: улучшение RAG через кластеризацию документов

Разработан метод CDRAG, который добавляет к стандартному поиску этап кластеризации и маршрутизации запросов. Система сначала выбирает релевантные группы документов, а затем ищет внутри них, что повышает точность. На тесте из 100 юридических вопросов метрика Faithfulness выросла на 12%, общее качество — на 8%. Код и подробное описание доступны в посте.

Источники: AgentsOfAI
Conquera: битвы AI-агентов за территорию стран

Запущена игра, где модели сражаются 1 на 1 за контроль над 193 странами. Агенты делают ход каждые 15 минут, требуется свой API ключ — если модель ошибается, ход пропускается и XP падает. Уже заметны паттерны поведения: Haiku выбирает партизанскую тактику в горах, а GPT-4o идет в полную атаку независимо от местности. Подробности и логи дуэлей в источнике.

Источники: AgentsOfAI
Устаревшие схемы инструментов — главная проблема долгоживущих агентов

Для агентов, работающих дольше месяца, основная проблема не память, а устаревание схем инструментов. Кэшированная в контексте схема инструмента устаревает быстрее, чем любой слой памяти может её обновить. Пример: API биржи silently переименовал параметр, и агент продолжал использовать старое название несколько дней. Решение — перезагружать схемы инструментов при каждом запуске сессии, делать проверочные read-only вызовы перед действием и не полагаться на «работало в прошлый раз». пост

Источники: AgentsOfAI
LiteCode v0.3: CLI-агент для моделей с контекстом 8k

Вышло обновление LiteCode, открытого CLI-агента для работы с кодом в условиях ограниченного контекста. Версия 0.3 улучшает совместимость с Ollama и увеличивает скорость до 2 раз за счет последовательного выполнения задач через флаг `--sequential`. Инструмент работает с любыми OpenAI-совместимыми API, включая бесплатные тарифы Groq и локальные модели. Вместо полной загрузки проекта используется чанкинг файлов и построение легких карт контекста. Исходный код и детали релиза опубликованы в посте. Ранее: LiteCode v0.2 был представлен в апреле с поддержкой 8k-контекста и предпросмотром изменений.

Источники: ollama
Диагностика сбоев RAG через трейсы

Обсуждаются методы выявления ошибок в системах Retrieval-Augmented Generation с помощью анализа трейсов. Подход позволяет локализовать проблемы на этапах поиска и генерации, не полагаясь только на финальный ответ модели. Материал полезен для разработчиков, сталкивающихся с нестабильностью работы RAG-пайплайнов. Анализ логов помогает быстрее находить узкие места в архитектуре. Подробнее о методике можно узнать в теме.

Источники: LocalLLM
Оптимизация промптов в браузере через WASM

Разработано расширение Prompt Enhancer, которое запускает локальный инференс прямо в браузере с помощью WebAssembly. Модель Flan-T5 используется для оценки качества промптов по шкале от 0 до 100 и советов по улучшению без отправки данных в облако. Инструмент решает проблему утечек через сторонние маркетплейсы промптов и не расходует лимиты токенов API. Вся обработка происходит оффлайн внутри пакета расширения. Описание проекта и ссылка на установку есть в посте.

Источники: LocalLLM
CloudCLI добавил Docker Sandbox для AI-агентов

Разработчик CloudCLI представил поддержку Docker Sandbox для запуска AI-кодинг агентов в изолированной среде. Инструмент позволяет работать с Claude Code, Codex и Gemini через веб-интерфейс вместо терминала. Проект синхронизируется в реальном времени, а учётные данные остаются за пределами песочницы. Запуск через `npx @cloudcli-ai/cloudcli@latest sandbox ~/my-project`, решение пока экспериментальное из-за новизны Docker sbx. Подробнее

Источники: AgentsOfAI

Технические исправления и оптимизация

Решение проблемы «overthinking» у Qwen3.5

Пользователи продолжают сталкиваться с избыточными рассуждениями Qwen3.5, когда модель генерирует развёрнутые bullet-list вместо кратких ответов. Решение состоит из двух шагов: установить presence_penalty на 1,0–1,5 и включить инструменты (tools) даже если они не используются фактически. С активными tools модель переключается на более короткий, Claude-подобный стиль рассуждений вместо длинных трассировок. В комментариях подтверждают, что переключение на native function calling в OpenWebUI убирает thought loops полностью. Модель начинает думать несколько секунд вместо затяжных циклов. Тред

Источники: LocalLLaMA
Файн-тюнинг Qwen3.5-0.8B для OCR превзошел 2B версию

Автор выложил обновленную модель для оптического распознавания текста на базе Qwen3.5-0.8B. Несмотря на меньший размер, она показывает лучшие результаты на английских документах благодаря улучшенным данным для обучения. Модель поддерживает вывод в markdown, HTML-таблицы, LaTeX для формул и корректно сохраняет порядок чтения. В комментариях пользователи интересуются, как модель обрабатывает иностранные символы в английских текстах, и просят ресурсы для начала fine-tuning VLM. Пост

Источники: LocalLLaMA
Сохранение состояния сессии локальной LLM: отрицательный и положительный результат

Исследователь тестировал ускорение воспроизведения сессий на Apple Silicon (M2 Ultra, Gemma 4 и Qwen 3.5). Тезис о whole-session replay не подтвердился — пересборка из транскрипта оказалась быстрее. Однако обнаружено важное ограничение: длинная сессия, построенная за множество ходов, не воспроизводима из истории, потому что KV-состояние зависит от пути. Рабочее решение — чекпоинт живой сессии с последующим восстановлением в новом процессе, что даёт идентичные выводы. Автор ищет практические кейсы: код-сессии перед рискованными изменениями, исследовательские воркфлоу, ветвление как в git. Обсуждение

Источники: LocalLLM
Анализ AMD: производительность Claude Code ухудшилась после изменений в марте

Stella Lorenz, старший директор по ИИ в AMD, опубликовала анализ логов Claude Code, указывающий на падение эффективности после обновлений в марте. Длина рассуждений модели сократилась на 73%, соотношение чтения к редактированию упало с 6.6:1 до 2:1, а количество противоречий выросло втрое. Ежедневные затраты на использование выросли в 122 раза, что совпадает с релизом скрытия рассуждений. Создатель Claude Code Борис Черни отметил, что могли повлиять изменения настроек по умолчанию, включая adaptive thinking. Источник

Источники: startupsi
Исправление проблем с Tool Calling в Qwen 3.5

В обсуждении разбираются причины сбоев при вызове инструментов в моделях Qwen 3.5. Автор анализирует проблемы в версиях 27B и других вариациях модели. Предлагается конкретное решение для восстановления работоспособности функций. Материал будет полезен тем, кто сталкивается с ошибками при интеграции tool calling. Тред

Источники: LocalLLM
Code-Mixed Chain-of-Thought сократил токены мышления у Gemma 4 31B на 40%

Новый подход Code-Mixed Chain-of-Thought позволяет обучить Gemma 4 31B рассуждать на двух языках одновременно. Метод сокращает количество thinking tokens на 40%, что снижает стоимость инференса и ускоряет генерацию ответов. Техника может быть полезна для мультиязычных задач, где модель переключается между языками в процессе рассуждения. пост

Источники: LocalLLM