← все дайджесты

вторник, 14 апреля 2026 г.

AI Digest: Мини-кластер на орбите, проблемы Gemma 4 и запуск 397B на M5 Max

Kepler Communications запустила орбитальный кластер на 40 GPU. Gemma 4 26B A4B выявила системный сбой внимания. Qwen3.5-397B достигла 29 токенов/с на M5 Max. MiniMax пояснила ограничения лицензии для API-провайдеров. Vercel готовится к IPO на фоне роста доходов от AI-агентов. Автономный агент увеличил выручку SaaS на 4.3%. Stanford HAI опубликовал ежегодный отчёт о состоянии ИИ.

Локальный инференс и железо

  • Запуск 120B моделей на 8 ГБ ОЗУ без GPU

    Студент из Германии разработал систему LazyMoE для запуска больших MoE-моделей на слабом железе. Комбинация ленивой загрузки экспертов, сжатия KV-кэша через TurboQuant и потоковой передачи с SSD позволяет работать на ноутбуке с Intel UHD 620 и 8 ГБ памяти. Исходный код проекта уже доступен для изучения и тестирования. Пост, GitHub

    Источники: LocalLLaMA

  • Запуск больших моделей на серверном железе с одной GPU

    Пользователь запустил большую модель на списанном сервере Dell Precision 7820 с двумя процессорами Xeon и 128 ГБ оперативной памяти. Сборка с одной GPU 3060 Ti работает преимущественно на процессорах, выдавая около 2 токенов в секунду. Это решение позволяет использовать доступное серверное оборудование для локальных экспериментов без дорогостоящих сборок. Пост

    Источники: ollama

  • Опыт запуска локальных LLM на Intel Arc Pro B70: обход проблем с Docker через llama.cpp Vulkan

    Пользователь с двумя Intel Arc Pro B70 (64 ГБ VRAM суммарно) столкнулся с проблемами официального Docker-стека llm-scaler от Intel: бинарные логи, CCL-ошибки, требование Ubuntu 25.04. Решение нашлось в сборке llama.cpp из исходников с включённым Vulkan — обе карты определились сразу без дополнительной конфигурации. Производительность: 897 t/s при обработке промпта (pp512), 41.8 t/s генерации токенов (tg128), контекст 128K с KV-кэшем 2.5 ГБ.Prefix caching особенно полезен для агентных workload'ов с большими системными промптами — после первого запроса последующие обрабатываются за 3-4 секунды. Драйвер xe на ядре 6.17 уже поддерживает KHR_coopmat, что обещает дальнейший прирост производительности. История Ранее: Intel Arc Pro B70 32GB тестировалась с Qwen3.5-27B.

    Источники: LocalLLaMA

  • Запуск Gemma 4 31B на 16 ГБ VRAM с многослойной памятью

    Автор развернул Gemma 4 31B на RTX 4080 (16 ГБ VRAM) используя квантование IQ3_XXS и ветку llama.cpp turboquant, достигнув скорости 40 токенов в секунду. Система включает шестислойную архитектуру памяти на PostgreSQL + pgvector, где факты хранятся атомарно для избежания галлюцинаций саммари. Реализованы три субличности: Reflection для мониторинга состояния, Stream of Thoughts для фоновых идей и ShadowService для анализа сцен. Проект создан за два месяца системным администратором без опыта в ML, код написан преимущественно при помощи AI. Полный гайд

    Источники: LocalLLM

  • Бенчмарки MiniMax-M2.7 NVFP4 на 2x RTX PRO 6000 Blackwell

    Опубликованы результаты тестирования MiniMax-M2.7 NVFP4 на системе с двумя RTX PRO 6000 Blackwell (96GB каждая). При конкатегории C=1 достигнута скорость 127.7 tok/s, при C=128 — 2800.2 tok/s агрегированно. Конфигурация включает AsRock Rack B650D4U-2L2T, EPYC 4564P, 128GB DDR5 ECC и PLX Gen5 switch. Использовался SGLang через docker с modelopt_fp4, bf16 KV, TP=2. Prefill на 8K контексте показывает 17,286 tok/s с TTFT 0.50s, на 128K — 9,908 tok/s с TTFT 13.25s. Спекулятивное декодирование пока недоступно для M2.7. Полная методология и данные в документации. Ранее: MiniMax M2.7 уже тестировалась на Apple Silicon с GGUF-квантами и запуском на M3 Ultra.

    Источники: LocalLLaMA

  • llama.cpp на Chromebook с 4 ГБ ОЗУ: Qwen 3.5 0.8B работает

    Пользователь сообщил, что на Chromebook с 4 ГБ оперативной памяти удаётся собрать llama.cpp и запустить Qwen 3.5 0.8B в 4-битном квантовании. Средняя скорость генерации составляет 3-4 токена в секунду. Это показывает, что даже на слабом железе можно запускать современные локальные модели для базовых задач. Пост

    Источники: LocalLLaMA

  • Запуск Qwen3.5-397B на M5 Max с производительностью 29 токенов/с

    Пользователь cupel поделился результатами запуска модели Qwen3.5-397B в квантовании IQ2 на компьютере с чипом M5 Max и 128 ГБ памяти. Скорость генерации достигает 29 токенов в секунду, что демонстрирует потенциал современного железа для работы с тяжелыми моделями локально. Подробности конфигурации и тестов обсуждаются в треде. Ранее: модель Qwen3.5-397B уже запускалась на 8x R0700 с MXFP4 квантованием через vLLM.

    Источники: LocalLLM

  • Бенчмарк Gemma 4 и Gemma 3 на Mac Mini M4 Pro

    Автор сравнил производительность Gemma4:e4b, Gemma3:27B, GPT-4o-mini и Gemini 2.5 Flash на железе Mac Mini M4 Pro с 24 ГБ памяти. Тестирование охватывает скорость генерации и качество ответов в локальном окружении через Ollama. Полные результаты показывают различия в эффективности моделей на потребительском hardware. Детали бенчмарка и метрики опубликованы в отчете.

    Источники: ollama

  • Бенчмарк Gemma 4 E2B на Apple Silicon

    Модель Gemma 4 E2B протестирована локально на Apple Silicon в сравнении с версиями 2B, 4B и 12B. В общем рейтинге она заняла четвертое место с результатом 80.4%, но превзошла старшие версии семьи в многоходовых диалогах (70%) и безопасности. По сравнению с Gemma 2 2B зафиксирован значительный прирост качества в multi-turn сценариях и function calling. Комментаторы дополняют, что фактическая производительность E2B ближе к 4B моделям, и отмечают случаи неудач со структурированным выводом. Детали тестирования включают статистику по 10 наборам задач.

    Источники: LocalLLaMA

  • Охлаждение мощной AI-системы через оконную вентиляцию

    Пользователь поделился решением проблемы перегрева офиса при работе с мощным железом. Сборка использует RAM air setup и вентиляцию через окно, отводя около 90% тепла наружу. Эффективность сравнима с открытым корпусом, при этом система способна обслуживать конфигурации мощностью до 1100 Вт. Такое решение может пригодиться тем, кто собирает селф-хостед системы дома. Подробнее в посте.

    Источники: LocalLLaMA

  • Сборка рабочей станции с двумя RTX PRO 6000 Blackwell для локальных LLM

    Пользователь объединил две отдельные системы с RTX 6000 в одну рабочую станцию на базе AMD Threadripper PRO 7965WX и материнской платы ASUS Pro WS WRX90E-SAGE SE с 128 линиями PCIe 5.0. В системе установлены 2× NVIDIA RTX PRO 6000 Blackwell по 96GB GDDR7 ECC каждая, что даёт 192GB суммарного VRAM с поддержкой x16/x16 PCIe 5.0. Охлаждение построено на Noctua NH-U14S TR5-SP6 для CPU и шести вентиляторах iCUE LINK RX140 MAX, блок питания — MSI MEG Ai1600T на 1600W с выделенной линией 20A. Для хранения используются Samsung 9100 PRO 8TB PCIe 5.0 под ОС и модели, плюс 2TB SSD для Qdrant и датасетов. Подробнее

    Источники: LocalLLaMA

  • Поиск оптимальной локальной LLM для одной видеокарты

    В сообществе LocalLLM обсуждают вопрос выбора лучшей локальной LLM для систем с одной видеокартой. Автор соответствующей темы утверждает, что нашел оптимальный вариант для селф-хостинга в таких условиях. Такие инсайты помогают пользователям ориентироваться в разнообразии доступных весов и архитектур. Обсуждение касается баланса между производительностью и требованиями к памяти при локальном запуске. Подробнее с позицией автора можно ознакомиться в исходном посте.

    Источники: LocalLLM

  • Запуск Kimi K2.5 на MacBook Pro M4 48GB и аудит системы

    Автор поделился опытом запуска Kimi K2.5 на MacBook Pro с чипом M4 и 48 ГБ памяти. Проект находится на ранней стадии, сейчас автор ищет экспертов для обсуждения архитектуры, особенно в части governance и аудита системы. Несмотря на отсутствие финальной версии, обсуждение уже открыто для критики и предложений в треде.

    Источники: LocalLLM

Модели, обновления и лицензирование

  • GGUF-модели Qwen3-Omni и Qwen3-ASR доступны для локального запуска

    В репозитории ggml-org на HuggingFace появились GGUF-версии мультимодальных моделей Qwen3. Qwen3-Omni-30B-A3B поддерживает vision и audio input в режимах Thinking и Instruct. Отдельно выпущены модели распознавания речи Qwen3-ASR в вариантах 1.7B и 0.6B. Все модели готовы к запуску через llama.cpp и совместимые рантаймы. Модели

    Источники: LocalLLaMA

  • Сравнение MiniMax-M2.7 и Qwen3.5-122B для полного оффлоада на 96 ГБ VRAM

    На конфигурации с 96 ГБ VRAM (2x A6000) протестированы MiniMax-M2.7 IQ2_KS (69.8 ГБ, 2.622 BPW) и Qwen3.5-122B-A10B IQ5_KS (77.3 ГБ, 5.441 BPW). На бенчмарке HumanEval Qwen3.5 показал pass@1 0.494 против 0.220 у MiniMax при схожем времени оценки (~31-33 минуты). Qwen3.5 поддерживает полный 256K unquantized kv-cache с загруженным mmproj для обработки изображений, тогда как MiniMax требует сильно квантованный kv-cache для размещения 160K. Для задач кодогенерации и общего качества Qwen3.5 остаётся предпочтительным выбором на данном объёме VRAM. Сравнение Ранее: MiniMax M2.7 вышла с открытыми весами (коммерческое использование запрещено), Qwen3.5-397B запускалась на 8x R0700 с MXFP4 квантованием.

    Источники: LocalLLaMA

  • Проблема с квантом Unsloth MiniMax-M2.7: NaN в перплексии

    Квант UD-Q4_K_XL от Unsloth для MiniMax-M2.7-GGUF оказался сломанным — измерение перплексии выдаёт NaN, что указывает на численные ошибки в бэкенде или самом кванте. Для сравнения, кванты от aessedai и ubergarm работают без таких проблем. Автор призывает Unsloth соблюдать стандарты GGUF-сообщества и публиковать данные PPL и KLD перед релизом. В комментариях пользователи отмечают, что переходят на кванты от bartowski, который проверяет качество перед загрузкой, хотя и выпускает их медленнее. Обсуждение Ранее: Unsloth выложил квантования MiniMax M2.7 12 апреля, включая форматы от 1-бит до BF16.

    Источники: LocalLLaMA

  • Системный сбой внимания в Gemma 4 26B A4B

    Пользователь разработал метод диагностики больших языковых моделей, выявляющий распределительный коллапс внутри тензоров. Анализ показал, что версия Gemma 4 26B A4B содержит 29 тензоров с дрейфом распределения, 21 из которых относится к слоям внимания. Для сравнения, Qwen 3.5 35B A3B прошел тест успешно, а старшая версия Gemma 4 31B оказалась здоровой. Автор заключает, что у Google возникают сложности с большими MoE-моделями, несмотря на успехи в плотных архитектурах. Подробный лог и результаты проверки доступны в обсуждении.

    Источники: LocalLLaMA

  • MiniMax пояснила ограничения лицензии для API-провайдеров и пользователей

    Райан Ли из MiniMax пояснил, что ограничения лицензии направлены в первую очередь на API-провайдеров с низким качеством обслуживания моделей M2.1/M2.5. Допускается обновление условий для обычных пользователей. В обсуждении указывают на противоречия с предыдущими твитами, где запрещалось коммерческое использование для написания кода. Комментаторы также обеспокоены тем, как текущие формулировки повлияют на запуск моделей в селф-хостед режиме. Обсуждение Ранее: MiniMax M2.7 получила лицензию DOA, запрещающую коммерческое использование без письменного разрешения.

    Источники: LocalLLaMA

  • Ускорение инференса через цепочку моделей Gemma

    В сообществе обсуждают подход, где меньшая модель (Gemma 4 4B) генерирует черновик ответа, который затем обрабатывает большая модель (Gemma 4 31B) для ускорения работы. В комментариях отмечают, что технически это похоже на speculative decoding. Есть мнение, что если большая модель используется только для суммаризации, эффективнее оставить всю задачу на меньшей модели. Также советуют ждать вариант dflash для экономии ресурсов. Обсуждение Ранее: speculative decoding для Gemma 4 и Qwen 3.5 в llama.cpp уже обсуждался 11 апреля, а DFlash на Apple Silicon показывал 3x ускорение.

    Источники: LocalLLaMA

  • Оптимизация контекста в Step 3.5 Flash для llama.cpp

    Поддержка Step 3.5 Flash в llama.cpp получила оптимизацию: потребление памяти под контекст снизилось в 4 раза. На связке RTX 5090 и RTX PRO 6000 скорость при заполнении контекста до 170k токенов составляет 75 ток/сек против предыдущих 45 ток/сек на 96k. Это позволяет запускать квантование Q4_K_L с контекстом до 220k токенов или обрабатывать параллельные запросы, что полезно для агентов и оркестраторов. В обсуждении добавляют, что PR с включением MTP-1 дополнительно ускоряет работу с кодом. Источник

    Источники: LocalLLaMA

  • Сравнение Qwen3.5 27B и Gemma 4 31B в агентских задачах

    Пользователь сравнил Qwen3.5 27B и Gemma 4 31B в сценариях с агентами, используя флаги --flash-attn и --reasoning on. Qwen3.5 проявила себя надежнее: проверяет переменные окружения, исправляет ошибки и доводит задачи до конца, например, корректно отправляет сообщения в Telegram. Gemma 4 работает быстрее на начальных этапах поиска, но чаще не достигает финальной цели или обрезает вывод. Участники обсуждения подтверждают, что модели Google хуже справляются с длинным контекстом, тогда как Qwen стабильнее в многошаговых цепочках. Тесты

    Источники: LocalLLaMA

  • Fine-tuning Qwen2.5-0.5B для саммаризации через GRPO

    Автор обучил модель Qwen2.5-0.5B-Instruct на задачу саммаризации постов Reddit используя GRPO. В предыдущей попытке модель «накручивала» reward, генерируя набор символов, но добавление quality_reward на основе ROUGE-L решило проблему деградации. Изначально возникла путаница между символами и токенами при лимите длины, что видно на графиках сходимости. После исправления модель выдает стабильные результаты без попыток обхода системы вознаграждений. Далее планируется тестирование других метрик и настройка LLM-as-a-judge для оценки качества. Детали эксперимента и графики доступны в посте.

    Источники: LocalLLaMA

  • Сравнение open-weight моделей с GPT и Claude на реальных задачах

    Автор сравнил frontier open-weight модели с GPT и Claude на задаче аудита кодовой базы. GPT 5.4 оказался наиболее точным в поиске конфликтов, тогда как Claude Opus лучше синтезирует информацию между файлами. Среди open-weight решений надежным назван GLM 5.1, несмотря на низкую скорость работы. Minimax M2.7 демонстрирует хорошую структуру рассуждений, но часто ошибается в фактах, а Kimi K2.5 склонен необоснованно хвалить код. В комментариях уточняют, что GLM 5.1 требует существенных ресурсов из-за размера в 700+ млрд параметров. Итоги тестирования показывают, что модели, допускающие критику, полезнее тех, что всегда соглашаются. Ранее: GLM 5.1 показывал конкурентные результаты в бенчмарке Blood on the Clocktower, MiniMax M2.7 открыла веса с запретом коммерческого использования.

    Источники: LocalLLaMA

Агентские системы и инструменты

  • Библиотека для локальных агентских инструментов через named pipes

    Разработчик stefanwebb выпустил библиотеку для коммуникации с локально запущенными агентскими инструментами через именованные каналы Unix. Named pipes пропускают данные через память ядра, что даёт меньшую задержку по сравнению с локальным HTTP и меньше сложности, чем shared memory. Решение подходит для real-time приложений вроде голосовых агентов, где сервер запускается один раз и остаётся резидентным между вызовами. В отличие от MCP, архитектура не требует JSON-RPC фрейминга и промежуточного фреймворка между моделью и инструментом. Репозиторий открыт для фидбека от сообщества.

    Источники: LocalLLaMA

  • Advisor Strategy для локальных LLM: открытая реализация Coagent

    Anthropic представила Advisor Strategy — паттерн, где меньшая модель-исполнитель (Sonnet или Haiku) ведёт агентский цикл и обращается к мощной модели (Opus) только при необходимости. В бенчмарках Anthropic Haiku с Opus как советником улучшил результат на BrowseComp с 19.7% до 41.2%, сократив стоимость задачи на 12%. Проект Coagent реализует ту же архитектуру для локальных селф-хостед установок с Ollama, LM Studio, MLX, llama.cpp или любым OpenAI-совместимым эндпоинтом. Лёгкая локальная модель обрабатывает вызовы инструментов и генерацию, консультируясь с более сильной моделью для стратегических решений. Репозиторий доступен для тестирования.

    Источники: ollama

  • Малые локальные модели для браузерных агентов в финансах

    Автор протестировал связку qwen3:8b и gemma4:e4b для задач accounts payable без обращения к внешним API. Основная проблема обычных стеков — загрузка модели сырым HTML и скриншотами, что слишком сложно для малых весов. Решение через predicate-runtime превращает страницу в структурированный снимок элементов с ID, ролями и важностью. Это сокращает задачу модели до выбора действия по структурированным данным вместо понимания всей страницы. В демо из 4 этапов система корректно обработала блокировку платежа и маршрутизацию, потратив 8374 токена. Подход делает селф-хостинг агентов реалистичнее для чувствительных данных. Пост, runtime.

    Источники: LocalLLM

  • Nous Research выпустили Autoreason — агент для ресечинга по методике Карпати

    Nous Research опубликовали проект Autoreason для автоматического улучшения текста через агентский турнир. Вместо стандартного цикла «критика-исправление» три варианта соревнуются на каждой итерации: оригинал, агрессивная ревизия и их синтез. Судьи — пачка слепых агентов, которые не знают, какой вариант какой. Если оригинал побеждает дважды подряд, цикл останавливается. Интересно, что дешёвая Haiku 3.5 в тестах стабильно набирает идеальный результат. Подробнее

    Источники: prompt_design

  • Minimax M2.7 в действии: 3D GTA-подобный опыт в браузере

    Пользователь протестировал Minimax M2.7 на задачу создания 3D GTA-подобного опыта в одной веб-странице. GLM 5 выигрывает по эстетике и добавлению деталей без запроса, но Minimax справился с добавлением деревьев и стаи птиц с алгоритмом boids. Модель запускалась в квантовании IQ2_XXS для максимальной скорости и оставалась когерентной. В комментариях отмечают, что птицы получились удачным дополнением, и просят сравнение с GLM 5. Тред

    Источники: LocalLLaMA

  • Контроль расходов при запуске LLM-агентов

    Разработка агентов на LLM может привести к неожиданным расходам, особенно если цикл выполнения зацикливается. Автор столкнулся с ситуацией, когда стоимость сессии выросла без предварительных сигналов, так как биллинг приходит постфактум. В качестве решения была внедрена простая проверка перед запуском — оценка затрат на основе токенов и выбранной модели. Это позволяет заранее отсеивать потенциально дорогие запросы. В сообществе обсуждают, кто как мониторит расходы: оценивают ли до запуска или анализируют постфактум. Подробности в обсуждении.

    Источники: LocalLLM

  • Автоматическая компиляция заметок в вики через LLM

    Автор поделился опытом организации рабочих заметок с помощью репозитория llm-wiki-compiler. Инструмент автоматически компилирует разрозненные документы, PDF и файлы в единую вики-структуру без ручной сортировки. Основной цикл работы включает загрузку источников, компиляцию, запросы и сохранение результатов для обогащения базы. Такой подход позволяет вернуться к материалам позже без необходимости поддерживать порядок вручную. Подробности реализации и примеры работы описаны в посте.

    Источники: LocalLLaMA

  • Автоматизация защиты кода через LLM-цикл аудит-исправление

    Пользователь сообщил об автоматизации защиты кодовой базы с помощью цикла аудит-исправление на базе LLM. Система выполнила 160 исправлений за одну ночь без какого-либо вмешательства со стороны разработчика. Процесс прошел полностью автономно, что подтверждает возможность масштабирования подобных задач. Автор отмечает отсутствие необходимости в ручной интервенции на протяжении всего цикла. Подробности эксперимента описаны в источнике.

    Источники: LocalLLM

  • Поиск альтернативы ClaudeCode CLI для локальных моделей

    Пользователь ищет инструменты для автономной агентской работы с локальными LLM, аналогичные опыту с ClaudeCode CLI на Opus 4.6. Среди рассмотренных вариантов — Cline, Aider и Open Interpreter, причём Cline выглядит наиболее близким к полноценному агентскому опыту «построй мне эту фичу». Обсуждение фокусируется на повседневном использовании и практических результатах различных setups с локальными моделями вроде Qwen3-Coder. Обсуждение

    Источники: LocalLLM

  • Как выбирают AI-агенты: обзор популярных фреймворков

    Автор собирает данные о том, какие инструменты предпочитают разработчики для работы с AI-агентами. В списке — OpenClaw, Hermes Agent, Nanobot для персональных задач, OpenHands и OpenCode для кодинга, а также фреймворки вроде LangChain, Google ADK и Anthropic Agent SDK. Исследование помогает понять паттерны выбора: цена, контроль, рекомендации или просто эксперимент. Автор разрабатывает Manifest — open source LLM router для автономных агентов, изначально ориентированный на OpenClaw. Пост

    Источники: LocalLLM

  • Динамический подбор моделей в фреймворке SpawnVerse

    SpawnVerse предлагает архитектуру, где оркестратор разбивает задачу и пишет Python-код для каждого агента во время выполнения, запуская их как subprocesses с общей памятью SQLite. Система подбирает tier модели под сложность агента, а после выполнения обновляет репутацию на основе качества ответа через механизм domain-aware bandit. Функция включается флагом model_routing: True, сейчас авторы ищут энтузиастов для прототипирования логики распределения. Подробнее

    Источники: AgentsOfAI

  • Локальный сканер уязвимостей OpenSec Intelligence на базе Ollama

    Инструмент OpenSec Intelligence использует 4 AI-агента для сканирования кода и валидации находок через оценку консенсусом: уязвимость считается реальной, если её подтверждают три модели. Система автоматически генерирует патчи, работает полностью локально без отправки данных наружу и не требует API-ключей. Установка доступна через npm, проект позиционируется как бесплатное решение для сообщества. Обсуждение

    Источники: ollama

  • Опыт голосового общения с локальной LLM: Whisper, Kokoro и Gemma 4

    Пользователь поделился настройкой голосового взаимодействия с моделью через связку SillyTavern, Koboldcpp, Whisper и Fast-Kokoro для TTS. На оборудовании RTX 4060 Ti с 16 ГБ VRAM и 32 ГБ ОЗУ система работает почти в реальном времени с моделью Gemma 4 small E4B. Автор спрашивает сообщество, насколько распространён такой сценарий использования и какие стеки предпочитают другие для голосового ввода-вывода. Тред

    Источники: LocalLLaMA

  • Интерфейс Text2SQL на базе Llama3 для работы с базами данных

    Разработчик выложил в открытый доступ интерфейс для преобразования текста в SQL-запросы через Llama3. Проект предназначен для свободного использования и внедрения в собственные workflows, код доступен для реализации. Пост

    Источники: LocalLLM

  • Python-библиотека для отслеживания затрат на LLM API

    Автор разработал библиотеку без внешних зависимостей для мониторинга расходов на API языковых моделей. Инструмент анализирует логи использования и выявляет неэффективные траты, помогая оптимизировать бюджет. Решение написано на Python и не требует установки дополнительных пакетов. Подробности реализации и примеры использования доступны в обсуждении.

    Источники: LocalLLM

  • P2P-сеть агентов Bitterbot достигла 300 узлов

    Проект Bitterbot представляет локальную AI-систему с памятью и экономикой обмена навыками между узлами. Агент работает на устройстве пользователя, выполняет задачи в вебе и взаимодействует через мессенджеры, включая WhatsApp. Сеть уже насчитывает 300 активных нод и 76 форков, архитектура прошла аудит безопасности. Исходный код доступен на GitHub, обсуждение проекта ведется в треде.

    Источники: LocalLLaMA

  • Автономный агент увеличил выручку SaaS на 4.3%

    Пользователь внедрил агента на базе OpenClaw, который работает круглосуточно на выделенном устройстве и анализирует данные Stripe, HubSpot и Shopify. На прошлой неделе система обнаружила нерабочую ссылку в профиле Twitter, что привело к росту конверсии после исправления. Для тяжелых задач рассуждения использовалась модель Opus 4.6, остальные задачи выполнял Sonnet 4.6. Автор подчеркивает важность человеческого контроля над решениями агента, подробности архитектуры в истории. Ранее: полный гайд по настройке OpenClaw был опубликован 12 апреля.

    Источники: AgentsOfAI

  • Открытый исходный код для локальной LLM-вики

    Инструмент oamc реализует схему работы для персонального исследования через локальную вики на базе LLM. Источники попадают в инбокс, затем ингестятся в страницы сущностей и концептов на markdown. Вопросы задаются к этому слою знаний, а полезные ответы сохраняются обратно как синтез. Решение работает локально, использует проверяемые файлы вместо скрытой памяти и легче полноценного RAG-стека. Проект вдохновлен идеей «LLM Wiki» от Андрея Карпати. Исходный код доступен открыто, детали подхода обсуждаются в треде.

    Источники: LocalLLaMA

  • cuba-memorys v0.7.0 — постоянная память для AI-агентов

    Вышла версия 0.7.0 библиотеки cuba-memorys, добавляющая поддержку постоянной памяти для AI-агентов. Инструмент позволяет агентам сохранять и восстанавливать контекст между сессиями, что критично для долгосрочных задач и многошаговых сценариев. Библиотека работает с ollama и другими локальными моделями, упрощая создание агентов с долгосрочной памятью. Релиз

    Источники: ollama

Индустрия и бизнес

  • Опрос Writer: саботаж ИИ и утечки данных в компаниях

    Writer и Workplace Intelligence опросили 2400 сотрудников в США и Европе о внедрении ИИ. 30% признались в саботаже ИИ-стратегии, среди молодежи этот показатель достигает 44%. Треть сотрудников сливают корпоративные данные в публичные модели, а 44% руководителей уверены, что данные уже доступны внешним сторонам. При этом 30% считают, что ИИ продолжает галлюцинировать, а треть начальников не уверены, что смогут отключить систему в случае проблем. Доверие к ИИ у сотрудников иногда выше, чем к менеджерам. Источник, отчет.

    Источники: quantumquintum

  • Kepler Communications запустила крупнейший орбитальный кластер на 40 GPU

    Kepler Communications ввела в эксплуатацию крупнейший орбитальный вычислительный кластер. На орбите Земли развернуто 40 GPU, доступных для коммерческого использования. Первым клиентом платформы стала компания Sophia Space. Инициатива демонстрирует развитие распределенных вычислений в нестандартных условиях. Подробности проекта доступны в публикации TechCrunch.

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

  • Китай лидирует по финансированию стартапов в Азии

    В первом квартале инвесторы вложили $27,4 млрд в стартапы Азии на стадиях от seed до growth. Рост составил около 20% к предыдущему кварталу и почти удвоился в годовом выражении. Общий объем финансирования достиг трехлетнего максимума, где Китай занял лидирующую позицию. Полные данные доступны в отчете Crunchbase.

    Источники: https://news.crunchbase.com/feed/

  • Stanford HAI опубликовал ежегодный отчет о состоянии ИИ

    Эксперты Stanford HAI отмечают ускорение развития возможностей ИИ без признаков плато, при этом разрыв между американскими и китайскими моделями сократился до 3–4 месяцев. Несмотря на рост инвестиций в США, привлечение талантов усложняется, а формальное образование отстает от темпов внедрения технологий в быту. Вопросы безопасности и регулирования остаются на периферии внимания, а доверие к госрегулированию варьируется от высокого в странах Азии до низкого в США и Великобритании. Полный список ключевых тезисов доступен в источнике.

    Источники: quantumquintum

  • Vercel готовится к IPO на фоне роста доходов от AI-агентов

    Генеральный директор Vercel Гильермо Раух заявил о готовности компании к выходу на биржу. Выступая на конференции HumanX, он отметил, что рост выручки во многом обусловлен внедрением AI-агентов. Раух подчеркнул, что команда становится готова к IPO с каждым днем. Компания наблюдает существенный прирост доходов благодаря развитию агентных технологий. Подробнее о ситуации в статье TechCrunch.

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

Исследования и методы

  • Эксперимент: квантование OLMo-3 7B Instruct в 1-битный формат Bonsai

    Автор попытался сквантовать OLMo-3 7B Instruct в 1-битный формат Bonsai через quantization aware distillation. Обучение на 4x B200 GPU заняло около 12 часов, но было остановлено раньше из-за ограничений бюджета. Текущая версия способна генерировать английский текст на коротких последовательностях, но быстро попадает в циклы повторений и почти не отслеживает контекст. Для дистилляции использовался форк distilkit с экспортом в GGUF, после чего применён короткий DPO-шаг. Запуск требует Bonsai-форка llama.cpp от PrismML-Eng, так как CUDA-бэкенд ещё не добавлен в основную ветку. Подробнее

    Источники: LocalLLaMA

  • SAE для интерпретируемости: переход от симуляции к наблюдению

    Автор описывает переход от «симулированной» интерпретируемости к настоящей через Sparse Autoencoders (SAE). Метод позволяет декомпозировать нейронные активации на значимые признаки, решая проблему политичности нейронов — когда один нейрон реагирует на несвязанные концепты вроде «квантовой физики» и «синего цвета». Обучение займёт 24–48 часов на Apple Silicon M3 Ultra, используя unified memory для обработки residual stream activations в реальном времени. Пост

    Источники: AgentsOfAI

  • Четыре сегмента пользователей ИИ вместо двух

    Исследование на основе данных телеграм-канала и 600 ответов анкеты выявило четыре группы пользователей ИИ вместо двух, как предполагал Карпати. Наблюдатели (16%) только читают, Практики (50%) понимают зачем но не знают как, Заблокированные (17%) уперлись в ограничения доступа, Продвинутые (17%) имеют уверенность 4.3 из 5. Главный барьер — не деньги, а нехватка знаний (46%) и времени (32%), при этом 91% готовы платить за обучение. 77% аудитории никогда не проходили никакого обучения по ИИ, а год подписки добавляет всего полбалла к уверенности без практики. Исследование

    Источники: prompt_design

  • Context Rot: как рост количества входных токенов влияет на производительность LLM

    Материал исследует феномен context rot — деградацию качества ответов LLM при увеличении длины входного контекста. С ростом числа токенов модели начинают хуже извлекать релевантную информацию, особенно из середины длинных документов. Проблема актуальна для RAG-систем и задач с длинным контекстом, где важно понимать пределы эффективного окна модели. Обсуждение

    Источники: LocalLLM

Технические проблемы и безопасность

  • Проблема с кэшем контекста в Pi при использовании Qwen3.5

    Пользователи сталкиваются с частой инвалидацией кэша контекста в Pi при работе с Qwen3.5 через llama-cpp. Система повторно обрабатывает промпты, так как Pi перестает передавать блоки мышления из предыдущих ответов, что видно в логах сервера. В обсуждении указывают на существующие исправления шаблонов и советуют избегать XL-квантований для этой модели. Обсуждение, фикс шаблона

    Источники: LocalLLaMA

  • Проблемы интеграции openclaw на DGX Spark

    Пользователь развернул систему на базе DGX Spark (машина GB10) и успешно запустил локальные модели, включая Gemma 4 26B A4B и Qwen 3.5 27B A3B. Однако при подключении openclaw возникли проблемы с выполнением инструментальных вызовов: модель подтверждает задачу, но не совершает действий, логи остаются пустыми. Попытка запустить Gemma 4 31B привела к крашу через несколько минут. Автор ищет советы по настройке аналогичных конфигураций и решению проблем с агентским поведением. Обсуждение Ранее: в апрельских дайджестах публиковался полный гайд по настройке мульти-агентной системы OpenClaw с нуля.

    Источники: LocalLLM

  • Ошибки агентов чаще вызваны проблемами ввода, а не моделью

    Автор заметил, что большинство сбоев агентов связано не с галлюцинациями модели, а с нестабильным окружением. Частые причины: частичные ответы API, устаревшие данные или изменяющаяся верстка страниц. Улучшение промтов не помогало, пока не были внедрены контролируемые браузерные слои вроде hyperbrowser или browseruse. Главное правило отладки — сначала стабилизировать то, что видит агент, и только потом менять модель. В комментариях иронично отметили, что это ситуация, где «ИИ жалуется на свои промты». Обсуждение.

    Источники: AgentsOfAI

  • Риск конфликтов переменных окружения при работе с AI-инструментами

    В сообществе предупредили о риске использования общих переменных окружения при работе с AI-инструментами. Конфликт конфигурации может скрытно перенаправить запросы к неверному провайдеру без явных уведомлений. Ошибка затрудняет диагностику, так как система продолжает работать, но обращается к другому сервису. Рекомендуется изолировать переменные окружения для каждого инструмента во избежание утечек или ошибок биллинга. Предупреждение опубликовано в треде.

    Источники: LocalLLM

  • Инструмент для удаления водяных знаков Google SynthID

    Методом реверс-инжиниринга удалось обойти защиту Google SynthID, которая основана на слое структурированного шума. Скрипт на Python выделяет шаблон шума через спектральный анализ и удаляет водяной знак с точностью до 90%, сохраняя визуальное качество изображения (43 dB PSNR). Поскольку несущие частоты зависят от разрешения, разработчик призывает сообщество пополнять базу словарей через пулл-реквесты на GitHub. Описание метода и ссылка на инструмент опубликованы в источнике.

    Источники: ai_newz