вторник, 14 апреля 2026 г.

AI Digest: Мини-кластер на орбите, проблемы Gemma 4 и запуск 397B на M5 Max

Kepler Communications запустила орбитальный кластер на 40 GPU. Gemma 4 26B A4B выявила системный сбой внимания. Qwen3.5-397B достигла 29 токенов/с на M5 Max. MiniMax пояснила ограничения лицензии для API-провайдеров. Vercel готовится к IPO на фоне роста доходов от AI-агентов. Автономный агент увеличил выручку SaaS на 4.3%. Stanford HAI опубликовал ежегодный отчёт о состоянии ИИ.

Локальный инференс и железо

Запуск 120B моделей на 8 ГБ ОЗУ без GPU

Студент из Германии разработал систему LazyMoE для запуска больших MoE-моделей на слабом железе. Комбинация ленивой загрузки экспертов, сжатия KV-кэша через TurboQuant и потоковой передачи с SSD позволяет работать на ноутбуке с Intel UHD 620 и 8 ГБ памяти. Исходный код проекта уже доступен для изучения и тестирования. Пост, GitHub

Источники: LocalLLaMA
Запуск больших моделей на серверном железе с одной GPU

Пользователь запустил большую модель на списанном сервере Dell Precision 7820 с двумя процессорами Xeon и 128 ГБ оперативной памяти. Сборка с одной GPU 3060 Ti работает преимущественно на процессорах, выдавая около 2 токенов в секунду. Это решение позволяет использовать доступное серверное оборудование для локальных экспериментов без дорогостоящих сборок. Пост

Источники: ollama
Опыт запуска локальных LLM на Intel Arc Pro B70: обход проблем с Docker через llama.cpp Vulkan

Пользователь с двумя Intel Arc Pro B70 (64 ГБ VRAM суммарно) столкнулся с проблемами официального Docker-стека llm-scaler от Intel: бинарные логи, CCL-ошибки, требование Ubuntu 25.04. Решение нашлось в сборке llama.cpp из исходников с включённым Vulkan — обе карты определились сразу без дополнительной конфигурации. Производительность: 897 t/s при обработке промпта (pp512), 41.8 t/s генерации токенов (tg128), контекст 128K с KV-кэшем 2.5 ГБ.Prefix caching особенно полезен для агентных workload'ов с большими системными промптами — после первого запроса последующие обрабатываются за 3-4 секунды. Драйвер xe на ядре 6.17 уже поддерживает KHR_coopmat, что обещает дальнейший прирост производительности. История Ранее: Intel Arc Pro B70 32GB тестировалась с Qwen3.5-27B.

Источники: LocalLLaMA
Запуск Gemma 4 31B на 16 ГБ VRAM с многослойной памятью

Автор развернул Gemma 4 31B на RTX 4080 (16 ГБ VRAM) используя квантование IQ3_XXS и ветку llama.cpp turboquant, достигнув скорости 40 токенов в секунду. Система включает шестислойную архитектуру памяти на PostgreSQL + pgvector, где факты хранятся атомарно для избежания галлюцинаций саммари. Реализованы три субличности: Reflection для мониторинга состояния, Stream of Thoughts для фоновых идей и ShadowService для анализа сцен. Проект создан за два месяца системным администратором без опыта в ML, код написан преимущественно при помощи AI. Полный гайд

Источники: LocalLLM
Бенчмарки MiniMax-M2.7 NVFP4 на 2x RTX PRO 6000 Blackwell

Опубликованы результаты тестирования MiniMax-M2.7 NVFP4 на системе с двумя RTX PRO 6000 Blackwell (96GB каждая). При конкатегории C=1 достигнута скорость 127.7 tok/s, при C=128 — 2800.2 tok/s агрегированно. Конфигурация включает AsRock Rack B650D4U-2L2T, EPYC 4564P, 128GB DDR5 ECC и PLX Gen5 switch. Использовался SGLang через docker с modelopt_fp4, bf16 KV, TP=2. Prefill на 8K контексте показывает 17,286 tok/s с TTFT 0.50s, на 128K — 9,908 tok/s с TTFT 13.25s. Спекулятивное декодирование пока недоступно для M2.7. Полная методология и данные в документации. Ранее: MiniMax M2.7 уже тестировалась на Apple Silicon с GGUF-квантами и запуском на M3 Ultra.

Источники: LocalLLaMA
llama.cpp на Chromebook с 4 ГБ ОЗУ: Qwen 3.5 0.8B работает

Пользователь сообщил, что на Chromebook с 4 ГБ оперативной памяти удаётся собрать llama.cpp и запустить Qwen 3.5 0.8B в 4-битном квантовании. Средняя скорость генерации составляет 3-4 токена в секунду. Это показывает, что даже на слабом железе можно запускать современные локальные модели для базовых задач. Пост

Источники: LocalLLaMA
Запуск Qwen3.5-397B на M5 Max с производительностью 29 токенов/с

Пользователь cupel поделился результатами запуска модели Qwen3.5-397B в квантовании IQ2 на компьютере с чипом M5 Max и 128 ГБ памяти. Скорость генерации достигает 29 токенов в секунду, что демонстрирует потенциал современного железа для работы с тяжелыми моделями локально. Подробности конфигурации и тестов обсуждаются в треде. Ранее: модель Qwen3.5-397B уже запускалась на 8x R0700 с MXFP4 квантованием через vLLM.

Источники: LocalLLM
Бенчмарк Gemma 4 и Gemma 3 на Mac Mini M4 Pro

Автор сравнил производительность Gemma4:e4b, Gemma3:27B, GPT-4o-mini и Gemini 2.5 Flash на железе Mac Mini M4 Pro с 24 ГБ памяти. Тестирование охватывает скорость генерации и качество ответов в локальном окружении через Ollama. Полные результаты показывают различия в эффективности моделей на потребительском hardware. Детали бенчмарка и метрики опубликованы в отчете.

Источники: ollama
Бенчмарк Gemma 4 E2B на Apple Silicon

Модель Gemma 4 E2B протестирована локально на Apple Silicon в сравнении с версиями 2B, 4B и 12B. В общем рейтинге она заняла четвертое место с результатом 80.4%, но превзошла старшие версии семьи в многоходовых диалогах (70%) и безопасности. По сравнению с Gemma 2 2B зафиксирован значительный прирост качества в multi-turn сценариях и function calling. Комментаторы дополняют, что фактическая производительность E2B ближе к 4B моделям, и отмечают случаи неудач со структурированным выводом. Детали тестирования включают статистику по 10 наборам задач.

Источники: LocalLLaMA
Охлаждение мощной AI-системы через оконную вентиляцию

Пользователь поделился решением проблемы перегрева офиса при работе с мощным железом. Сборка использует RAM air setup и вентиляцию через окно, отводя около 90% тепла наружу. Эффективность сравнима с открытым корпусом, при этом система способна обслуживать конфигурации мощностью до 1100 Вт. Такое решение может пригодиться тем, кто собирает селф-хостед системы дома. Подробнее в посте.

Источники: LocalLLaMA
Сборка рабочей станции с двумя RTX PRO 6000 Blackwell для локальных LLM

Пользователь объединил две отдельные системы с RTX 6000 в одну рабочую станцию на базе AMD Threadripper PRO 7965WX и материнской платы ASUS Pro WS WRX90E-SAGE SE с 128 линиями PCIe 5.0. В системе установлены 2× NVIDIA RTX PRO 6000 Blackwell по 96GB GDDR7 ECC каждая, что даёт 192GB суммарного VRAM с поддержкой x16/x16 PCIe 5.0. Охлаждение построено на Noctua NH-U14S TR5-SP6 для CPU и шести вентиляторах iCUE LINK RX140 MAX, блок питания — MSI MEG Ai1600T на 1600W с выделенной линией 20A. Для хранения используются Samsung 9100 PRO 8TB PCIe 5.0 под ОС и модели, плюс 2TB SSD для Qdrant и датасетов. Подробнее

Источники: LocalLLaMA
Поиск оптимальной локальной LLM для одной видеокарты

В сообществе LocalLLM обсуждают вопрос выбора лучшей локальной LLM для систем с одной видеокартой. Автор соответствующей темы утверждает, что нашел оптимальный вариант для селф-хостинга в таких условиях. Такие инсайты помогают пользователям ориентироваться в разнообразии доступных весов и архитектур. Обсуждение касается баланса между производительностью и требованиями к памяти при локальном запуске. Подробнее с позицией автора можно ознакомиться в исходном посте.

Источники: LocalLLM
Запуск Kimi K2.5 на MacBook Pro M4 48GB и аудит системы

Автор поделился опытом запуска Kimi K2.5 на MacBook Pro с чипом M4 и 48 ГБ памяти. Проект находится на ранней стадии, сейчас автор ищет экспертов для обсуждения архитектуры, особенно в части governance и аудита системы. Несмотря на отсутствие финальной версии, обсуждение уже открыто для критики и предложений в треде.

Источники: LocalLLM

Модели, обновления и лицензирование

GGUF-модели Qwen3-Omni и Qwen3-ASR доступны для локального запуска

В репозитории ggml-org на HuggingFace появились GGUF-версии мультимодальных моделей Qwen3. Qwen3-Omni-30B-A3B поддерживает vision и audio input в режимах Thinking и Instruct. Отдельно выпущены модели распознавания речи Qwen3-ASR в вариантах 1.7B и 0.6B. Все модели готовы к запуску через llama.cpp и совместимые рантаймы. Модели

Источники: LocalLLaMA
Сравнение MiniMax-M2.7 и Qwen3.5-122B для полного оффлоада на 96 ГБ VRAM

На конфигурации с 96 ГБ VRAM (2x A6000) протестированы MiniMax-M2.7 IQ2_KS (69.8 ГБ, 2.622 BPW) и Qwen3.5-122B-A10B IQ5_KS (77.3 ГБ, 5.441 BPW). На бенчмарке HumanEval Qwen3.5 показал pass@1 0.494 против 0.220 у MiniMax при схожем времени оценки (~31-33 минуты). Qwen3.5 поддерживает полный 256K unquantized kv-cache с загруженным mmproj для обработки изображений, тогда как MiniMax требует сильно квантованный kv-cache для размещения 160K. Для задач кодогенерации и общего качества Qwen3.5 остаётся предпочтительным выбором на данном объёме VRAM. Сравнение Ранее: MiniMax M2.7 вышла с открытыми весами (коммерческое использование запрещено), Qwen3.5-397B запускалась на 8x R0700 с MXFP4 квантованием.

Источники: LocalLLaMA
Проблема с квантом Unsloth MiniMax-M2.7: NaN в перплексии

Квант UD-Q4_K_XL от Unsloth для MiniMax-M2.7-GGUF оказался сломанным — измерение перплексии выдаёт NaN, что указывает на численные ошибки в бэкенде или самом кванте. Для сравнения, кванты от aessedai и ubergarm работают без таких проблем. Автор призывает Unsloth соблюдать стандарты GGUF-сообщества и публиковать данные PPL и KLD перед релизом. В комментариях пользователи отмечают, что переходят на кванты от bartowski, который проверяет качество перед загрузкой, хотя и выпускает их медленнее. Обсуждение Ранее: Unsloth выложил квантования MiniMax M2.7 12 апреля, включая форматы от 1-бит до BF16.

Источники: LocalLLaMA
Системный сбой внимания в Gemma 4 26B A4B

Пользователь разработал метод диагностики больших языковых моделей, выявляющий распределительный коллапс внутри тензоров. Анализ показал, что версия Gemma 4 26B A4B содержит 29 тензоров с дрейфом распределения, 21 из которых относится к слоям внимания. Для сравнения, Qwen 3.5 35B A3B прошел тест успешно, а старшая версия Gemma 4 31B оказалась здоровой. Автор заключает, что у Google возникают сложности с большими MoE-моделями, несмотря на успехи в плотных архитектурах. Подробный лог и результаты проверки доступны в обсуждении.

Источники: LocalLLaMA
MiniMax пояснила ограничения лицензии для API-провайдеров и пользователей

Райан Ли из MiniMax пояснил, что ограничения лицензии направлены в первую очередь на API-провайдеров с низким качеством обслуживания моделей M2.1/M2.5. Допускается обновление условий для обычных пользователей. В обсуждении указывают на противоречия с предыдущими твитами, где запрещалось коммерческое использование для написания кода. Комментаторы также обеспокоены тем, как текущие формулировки повлияют на запуск моделей в селф-хостед режиме. Обсуждение Ранее: MiniMax M2.7 получила лицензию DOA, запрещающую коммерческое использование без письменного разрешения.

Источники: LocalLLaMA
Ускорение инференса через цепочку моделей Gemma

В сообществе обсуждают подход, где меньшая модель (Gemma 4 4B) генерирует черновик ответа, который затем обрабатывает большая модель (Gemma 4 31B) для ускорения работы. В комментариях отмечают, что технически это похоже на speculative decoding. Есть мнение, что если большая модель используется только для суммаризации, эффективнее оставить всю задачу на меньшей модели. Также советуют ждать вариант dflash для экономии ресурсов. Обсуждение Ранее: speculative decoding для Gemma 4 и Qwen 3.5 в llama.cpp уже обсуждался 11 апреля, а DFlash на Apple Silicon показывал 3x ускорение.

Источники: LocalLLaMA
Оптимизация контекста в Step 3.5 Flash для llama.cpp

Поддержка Step 3.5 Flash в llama.cpp получила оптимизацию: потребление памяти под контекст снизилось в 4 раза. На связке RTX 5090 и RTX PRO 6000 скорость при заполнении контекста до 170k токенов составляет 75 ток/сек против предыдущих 45 ток/сек на 96k. Это позволяет запускать квантование Q4_K_L с контекстом до 220k токенов или обрабатывать параллельные запросы, что полезно для агентов и оркестраторов. В обсуждении добавляют, что PR с включением MTP-1 дополнительно ускоряет работу с кодом. Источник

Источники: LocalLLaMA
Сравнение Qwen3.5 27B и Gemma 4 31B в агентских задачах

Пользователь сравнил Qwen3.5 27B и Gemma 4 31B в сценариях с агентами, используя флаги --flash-attn и --reasoning on. Qwen3.5 проявила себя надежнее: проверяет переменные окружения, исправляет ошибки и доводит задачи до конца, например, корректно отправляет сообщения в Telegram. Gemma 4 работает быстрее на начальных этапах поиска, но чаще не достигает финальной цели или обрезает вывод. Участники обсуждения подтверждают, что модели Google хуже справляются с длинным контекстом, тогда как Qwen стабильнее в многошаговых цепочках. Тесты

Источники: LocalLLaMA
Fine-tuning Qwen2.5-0.5B для саммаризации через GRPO

Автор обучил модель Qwen2.5-0.5B-Instruct на задачу саммаризации постов Reddit используя GRPO. В предыдущей попытке модель «накручивала» reward, генерируя набор символов, но добавление quality_reward на основе ROUGE-L решило проблему деградации. Изначально возникла путаница между символами и токенами при лимите длины, что видно на графиках сходимости. После исправления модель выдает стабильные результаты без попыток обхода системы вознаграждений. Далее планируется тестирование других метрик и настройка LLM-as-a-judge для оценки качества. Детали эксперимента и графики доступны в посте.

Источники: LocalLLaMA
Сравнение open-weight моделей с GPT и Claude на реальных задачах

Автор сравнил frontier open-weight модели с GPT и Claude на задаче аудита кодовой базы. GPT 5.4 оказался наиболее точным в поиске конфликтов, тогда как Claude Opus лучше синтезирует информацию между файлами. Среди open-weight решений надежным назван GLM 5.1, несмотря на низкую скорость работы. Minimax M2.7 демонстрирует хорошую структуру рассуждений, но часто ошибается в фактах, а Kimi K2.5 склонен необоснованно хвалить код. В комментариях уточняют, что GLM 5.1 требует существенных ресурсов из-за размера в 700+ млрд параметров. Итоги тестирования показывают, что модели, допускающие критику, полезнее тех, что всегда соглашаются. Ранее: GLM 5.1 показывал конкурентные результаты в бенчмарке Blood on the Clocktower, MiniMax M2.7 открыла веса с запретом коммерческого использования.

Источники: LocalLLaMA

Агентские системы и инструменты

Библиотека для локальных агентских инструментов через named pipes

Разработчик stefanwebb выпустил библиотеку для коммуникации с локально запущенными агентскими инструментами через именованные каналы Unix. Named pipes пропускают данные через память ядра, что даёт меньшую задержку по сравнению с локальным HTTP и меньше сложности, чем shared memory. Решение подходит для real-time приложений вроде голосовых агентов, где сервер запускается один раз и остаётся резидентным между вызовами. В отличие от MCP, архитектура не требует JSON-RPC фрейминга и промежуточного фреймворка между моделью и инструментом. Репозиторий открыт для фидбека от сообщества.

Источники: LocalLLaMA
Advisor Strategy для локальных LLM: открытая реализация Coagent

Anthropic представила Advisor Strategy — паттерн, где меньшая модель-исполнитель (Sonnet или Haiku) ведёт агентский цикл и обращается к мощной модели (Opus) только при необходимости. В бенчмарках Anthropic Haiku с Opus как советником улучшил результат на BrowseComp с 19.7% до 41.2%, сократив стоимость задачи на 12%. Проект Coagent реализует ту же архитектуру для локальных селф-хостед установок с Ollama, LM Studio, MLX, llama.cpp или любым OpenAI-совместимым эндпоинтом. Лёгкая локальная модель обрабатывает вызовы инструментов и генерацию, консультируясь с более сильной моделью для стратегических решений. Репозиторий доступен для тестирования.

Источники: ollama
Малые локальные модели для браузерных агентов в финансах

Автор протестировал связку qwen3:8b и gemma4:e4b для задач accounts payable без обращения к внешним API. Основная проблема обычных стеков — загрузка модели сырым HTML и скриншотами, что слишком сложно для малых весов. Решение через predicate-runtime превращает страницу в структурированный снимок элементов с ID, ролями и важностью. Это сокращает задачу модели до выбора действия по структурированным данным вместо понимания всей страницы. В демо из 4 этапов система корректно обработала блокировку платежа и маршрутизацию, потратив 8374 токена. Подход делает селф-хостинг агентов реалистичнее для чувствительных данных. Пост, runtime.

Источники: LocalLLM
Nous Research выпустили Autoreason — агент для ресечинга по методике Карпати

Nous Research опубликовали проект Autoreason для автоматического улучшения текста через агентский турнир. Вместо стандартного цикла «критика-исправление» три варианта соревнуются на каждой итерации: оригинал, агрессивная ревизия и их синтез. Судьи — пачка слепых агентов, которые не знают, какой вариант какой. Если оригинал побеждает дважды подряд, цикл останавливается. Интересно, что дешёвая Haiku 3.5 в тестах стабильно набирает идеальный результат. Подробнее

Источники: prompt_design
Minimax M2.7 в действии: 3D GTA-подобный опыт в браузере

Пользователь протестировал Minimax M2.7 на задачу создания 3D GTA-подобного опыта в одной веб-странице. GLM 5 выигрывает по эстетике и добавлению деталей без запроса, но Minimax справился с добавлением деревьев и стаи птиц с алгоритмом boids. Модель запускалась в квантовании IQ2_XXS для максимальной скорости и оставалась когерентной. В комментариях отмечают, что птицы получились удачным дополнением, и просят сравнение с GLM 5. Тред

Источники: LocalLLaMA
Контроль расходов при запуске LLM-агентов

Разработка агентов на LLM может привести к неожиданным расходам, особенно если цикл выполнения зацикливается. Автор столкнулся с ситуацией, когда стоимость сессии выросла без предварительных сигналов, так как биллинг приходит постфактум. В качестве решения была внедрена простая проверка перед запуском — оценка затрат на основе токенов и выбранной модели. Это позволяет заранее отсеивать потенциально дорогие запросы. В сообществе обсуждают, кто как мониторит расходы: оценивают ли до запуска или анализируют постфактум. Подробности в обсуждении.

Источники: LocalLLM
Автоматическая компиляция заметок в вики через LLM

Автор поделился опытом организации рабочих заметок с помощью репозитория llm-wiki-compiler. Инструмент автоматически компилирует разрозненные документы, PDF и файлы в единую вики-структуру без ручной сортировки. Основной цикл работы включает загрузку источников, компиляцию, запросы и сохранение результатов для обогащения базы. Такой подход позволяет вернуться к материалам позже без необходимости поддерживать порядок вручную. Подробности реализации и примеры работы описаны в посте.

Источники: LocalLLaMA
Автоматизация защиты кода через LLM-цикл аудит-исправление

Пользователь сообщил об автоматизации защиты кодовой базы с помощью цикла аудит-исправление на базе LLM. Система выполнила 160 исправлений за одну ночь без какого-либо вмешательства со стороны разработчика. Процесс прошел полностью автономно, что подтверждает возможность масштабирования подобных задач. Автор отмечает отсутствие необходимости в ручной интервенции на протяжении всего цикла. Подробности эксперимента описаны в источнике.

Источники: LocalLLM
Поиск альтернативы ClaudeCode CLI для локальных моделей

Пользователь ищет инструменты для автономной агентской работы с локальными LLM, аналогичные опыту с ClaudeCode CLI на Opus 4.6. Среди рассмотренных вариантов — Cline, Aider и Open Interpreter, причём Cline выглядит наиболее близким к полноценному агентскому опыту «построй мне эту фичу». Обсуждение фокусируется на повседневном использовании и практических результатах различных setups с локальными моделями вроде Qwen3-Coder. Обсуждение

Источники: LocalLLM
Как выбирают AI-агенты: обзор популярных фреймворков

Автор собирает данные о том, какие инструменты предпочитают разработчики для работы с AI-агентами. В списке — OpenClaw, Hermes Agent, Nanobot для персональных задач, OpenHands и OpenCode для кодинга, а также фреймворки вроде LangChain, Google ADK и Anthropic Agent SDK. Исследование помогает понять паттерны выбора: цена, контроль, рекомендации или просто эксперимент. Автор разрабатывает Manifest — open source LLM router для автономных агентов, изначально ориентированный на OpenClaw. Пост

Источники: LocalLLM
Динамический подбор моделей в фреймворке SpawnVerse

SpawnVerse предлагает архитектуру, где оркестратор разбивает задачу и пишет Python-код для каждого агента во время выполнения, запуская их как subprocesses с общей памятью SQLite. Система подбирает tier модели под сложность агента, а после выполнения обновляет репутацию на основе качества ответа через механизм domain-aware bandit. Функция включается флагом model_routing: True, сейчас авторы ищут энтузиастов для прототипирования логики распределения. Подробнее

Источники: AgentsOfAI
Локальный сканер уязвимостей OpenSec Intelligence на базе Ollama

Инструмент OpenSec Intelligence использует 4 AI-агента для сканирования кода и валидации находок через оценку консенсусом: уязвимость считается реальной, если её подтверждают три модели. Система автоматически генерирует патчи, работает полностью локально без отправки данных наружу и не требует API-ключей. Установка доступна через npm, проект позиционируется как бесплатное решение для сообщества. Обсуждение

Источники: ollama
Опыт голосового общения с локальной LLM: Whisper, Kokoro и Gemma 4

Пользователь поделился настройкой голосового взаимодействия с моделью через связку SillyTavern, Koboldcpp, Whisper и Fast-Kokoro для TTS. На оборудовании RTX 4060 Ti с 16 ГБ VRAM и 32 ГБ ОЗУ система работает почти в реальном времени с моделью Gemma 4 small E4B. Автор спрашивает сообщество, насколько распространён такой сценарий использования и какие стеки предпочитают другие для голосового ввода-вывода. Тред

Источники: LocalLLaMA
Интерфейс Text2SQL на базе Llama3 для работы с базами данных

Разработчик выложил в открытый доступ интерфейс для преобразования текста в SQL-запросы через Llama3. Проект предназначен для свободного использования и внедрения в собственные workflows, код доступен для реализации. Пост

Источники: LocalLLM
Python-библиотека для отслеживания затрат на LLM API

Автор разработал библиотеку без внешних зависимостей для мониторинга расходов на API языковых моделей. Инструмент анализирует логи использования и выявляет неэффективные траты, помогая оптимизировать бюджет. Решение написано на Python и не требует установки дополнительных пакетов. Подробности реализации и примеры использования доступны в обсуждении.

Источники: LocalLLM
P2P-сеть агентов Bitterbot достигла 300 узлов

Проект Bitterbot представляет локальную AI-систему с памятью и экономикой обмена навыками между узлами. Агент работает на устройстве пользователя, выполняет задачи в вебе и взаимодействует через мессенджеры, включая WhatsApp. Сеть уже насчитывает 300 активных нод и 76 форков, архитектура прошла аудит безопасности. Исходный код доступен на GitHub, обсуждение проекта ведется в треде.

Источники: LocalLLaMA
Автономный агент увеличил выручку SaaS на 4.3%

Пользователь внедрил агента на базе OpenClaw, который работает круглосуточно на выделенном устройстве и анализирует данные Stripe, HubSpot и Shopify. На прошлой неделе система обнаружила нерабочую ссылку в профиле Twitter, что привело к росту конверсии после исправления. Для тяжелых задач рассуждения использовалась модель Opus 4.6, остальные задачи выполнял Sonnet 4.6. Автор подчеркивает важность человеческого контроля над решениями агента, подробности архитектуры в истории. Ранее: полный гайд по настройке OpenClaw был опубликован 12 апреля.

Источники: AgentsOfAI
Открытый исходный код для локальной LLM-вики

Инструмент oamc реализует схему работы для персонального исследования через локальную вики на базе LLM. Источники попадают в инбокс, затем ингестятся в страницы сущностей и концептов на markdown. Вопросы задаются к этому слою знаний, а полезные ответы сохраняются обратно как синтез. Решение работает локально, использует проверяемые файлы вместо скрытой памяти и легче полноценного RAG-стека. Проект вдохновлен идеей «LLM Wiki» от Андрея Карпати. Исходный код доступен открыто, детали подхода обсуждаются в треде.

Источники: LocalLLaMA
cuba-memorys v0.7.0 — постоянная память для AI-агентов

Вышла версия 0.7.0 библиотеки cuba-memorys, добавляющая поддержку постоянной памяти для AI-агентов. Инструмент позволяет агентам сохранять и восстанавливать контекст между сессиями, что критично для долгосрочных задач и многошаговых сценариев. Библиотека работает с ollama и другими локальными моделями, упрощая создание агентов с долгосрочной памятью. Релиз

Источники: ollama

Индустрия и бизнес

Опрос Writer: саботаж ИИ и утечки данных в компаниях

Writer и Workplace Intelligence опросили 2400 сотрудников в США и Европе о внедрении ИИ. 30% признались в саботаже ИИ-стратегии, среди молодежи этот показатель достигает 44%. Треть сотрудников сливают корпоративные данные в публичные модели, а 44% руководителей уверены, что данные уже доступны внешним сторонам. При этом 30% считают, что ИИ продолжает галлюцинировать, а треть начальников не уверены, что смогут отключить систему в случае проблем. Доверие к ИИ у сотрудников иногда выше, чем к менеджерам. Источник, отчет.

Источники: quantumquintum
Kepler Communications запустила крупнейший орбитальный кластер на 40 GPU

Kepler Communications ввела в эксплуатацию крупнейший орбитальный вычислительный кластер. На орбите Земли развернуто 40 GPU, доступных для коммерческого использования. Первым клиентом платформы стала компания Sophia Space. Инициатива демонстрирует развитие распределенных вычислений в нестандартных условиях. Подробности проекта доступны в публикации TechCrunch.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Китай лидирует по финансированию стартапов в Азии

В первом квартале инвесторы вложили $27,4 млрд в стартапы Азии на стадиях от seed до growth. Рост составил около 20% к предыдущему кварталу и почти удвоился в годовом выражении. Общий объем финансирования достиг трехлетнего максимума, где Китай занял лидирующую позицию. Полные данные доступны в отчете Crunchbase.

Источники: https://news.crunchbase.com/feed/
Stanford HAI опубликовал ежегодный отчет о состоянии ИИ

Эксперты Stanford HAI отмечают ускорение развития возможностей ИИ без признаков плато, при этом разрыв между американскими и китайскими моделями сократился до 3–4 месяцев. Несмотря на рост инвестиций в США, привлечение талантов усложняется, а формальное образование отстает от темпов внедрения технологий в быту. Вопросы безопасности и регулирования остаются на периферии внимания, а доверие к госрегулированию варьируется от высокого в странах Азии до низкого в США и Великобритании. Полный список ключевых тезисов доступен в источнике.

Источники: quantumquintum
Vercel готовится к IPO на фоне роста доходов от AI-агентов

Генеральный директор Vercel Гильермо Раух заявил о готовности компании к выходу на биржу. Выступая на конференции HumanX, он отметил, что рост выручки во многом обусловлен внедрением AI-агентов. Раух подчеркнул, что команда становится готова к IPO с каждым днем. Компания наблюдает существенный прирост доходов благодаря развитию агентных технологий. Подробнее о ситуации в статье TechCrunch.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/

Исследования и методы

Эксперимент: квантование OLMo-3 7B Instruct в 1-битный формат Bonsai

Автор попытался сквантовать OLMo-3 7B Instruct в 1-битный формат Bonsai через quantization aware distillation. Обучение на 4x B200 GPU заняло около 12 часов, но было остановлено раньше из-за ограничений бюджета. Текущая версия способна генерировать английский текст на коротких последовательностях, но быстро попадает в циклы повторений и почти не отслеживает контекст. Для дистилляции использовался форк distilkit с экспортом в GGUF, после чего применён короткий DPO-шаг. Запуск требует Bonsai-форка llama.cpp от PrismML-Eng, так как CUDA-бэкенд ещё не добавлен в основную ветку. Подробнее

Источники: LocalLLaMA
SAE для интерпретируемости: переход от симуляции к наблюдению

Автор описывает переход от «симулированной» интерпретируемости к настоящей через Sparse Autoencoders (SAE). Метод позволяет декомпозировать нейронные активации на значимые признаки, решая проблему политичности нейронов — когда один нейрон реагирует на несвязанные концепты вроде «квантовой физики» и «синего цвета». Обучение займёт 24–48 часов на Apple Silicon M3 Ultra, используя unified memory для обработки residual stream activations в реальном времени. Пост

Источники: AgentsOfAI
Четыре сегмента пользователей ИИ вместо двух

Исследование на основе данных телеграм-канала и 600 ответов анкеты выявило четыре группы пользователей ИИ вместо двух, как предполагал Карпати. Наблюдатели (16%) только читают, Практики (50%) понимают зачем но не знают как, Заблокированные (17%) уперлись в ограничения доступа, Продвинутые (17%) имеют уверенность 4.3 из 5. Главный барьер — не деньги, а нехватка знаний (46%) и времени (32%), при этом 91% готовы платить за обучение. 77% аудитории никогда не проходили никакого обучения по ИИ, а год подписки добавляет всего полбалла к уверенности без практики. Исследование

Источники: prompt_design
Context Rot: как рост количества входных токенов влияет на производительность LLM

Материал исследует феномен context rot — деградацию качества ответов LLM при увеличении длины входного контекста. С ростом числа токенов модели начинают хуже извлекать релевантную информацию, особенно из середины длинных документов. Проблема актуальна для RAG-систем и задач с длинным контекстом, где важно понимать пределы эффективного окна модели. Обсуждение

Источники: LocalLLM

Технические проблемы и безопасность

Проблема с кэшем контекста в Pi при использовании Qwen3.5

Пользователи сталкиваются с частой инвалидацией кэша контекста в Pi при работе с Qwen3.5 через llama-cpp. Система повторно обрабатывает промпты, так как Pi перестает передавать блоки мышления из предыдущих ответов, что видно в логах сервера. В обсуждении указывают на существующие исправления шаблонов и советуют избегать XL-квантований для этой модели. Обсуждение, фикс шаблона

Источники: LocalLLaMA
Проблемы интеграции openclaw на DGX Spark

Пользователь развернул систему на базе DGX Spark (машина GB10) и успешно запустил локальные модели, включая Gemma 4 26B A4B и Qwen 3.5 27B A3B. Однако при подключении openclaw возникли проблемы с выполнением инструментальных вызовов: модель подтверждает задачу, но не совершает действий, логи остаются пустыми. Попытка запустить Gemma 4 31B привела к крашу через несколько минут. Автор ищет советы по настройке аналогичных конфигураций и решению проблем с агентским поведением. Обсуждение Ранее: в апрельских дайджестах публиковался полный гайд по настройке мульти-агентной системы OpenClaw с нуля.

Источники: LocalLLM
Ошибки агентов чаще вызваны проблемами ввода, а не моделью

Автор заметил, что большинство сбоев агентов связано не с галлюцинациями модели, а с нестабильным окружением. Частые причины: частичные ответы API, устаревшие данные или изменяющаяся верстка страниц. Улучшение промтов не помогало, пока не были внедрены контролируемые браузерные слои вроде hyperbrowser или browseruse. Главное правило отладки — сначала стабилизировать то, что видит агент, и только потом менять модель. В комментариях иронично отметили, что это ситуация, где «ИИ жалуется на свои промты». Обсуждение.

Источники: AgentsOfAI
Риск конфликтов переменных окружения при работе с AI-инструментами

В сообществе предупредили о риске использования общих переменных окружения при работе с AI-инструментами. Конфликт конфигурации может скрытно перенаправить запросы к неверному провайдеру без явных уведомлений. Ошибка затрудняет диагностику, так как система продолжает работать, но обращается к другому сервису. Рекомендуется изолировать переменные окружения для каждого инструмента во избежание утечек или ошибок биллинга. Предупреждение опубликовано в треде.

Источники: LocalLLM
Инструмент для удаления водяных знаков Google SynthID

Методом реверс-инжиниринга удалось обойти защиту Google SynthID, которая основана на слое структурированного шума. Скрипт на Python выделяет шаблон шума через спектральный анализ и удаляет водяной знак с точностью до 90%, сохраняя визуальное качество изображения (43 dB PSNR). Поскольку несущие частоты зависят от разрешения, разработчик призывает сообщество пополнять базу словарей через пулл-реквесты на GitHub. Описание метода и ссылка на инструмент опубликованы в источнике.

Источники: ai_newz