воскресенье, 5 апреля 2026 г.

AI Digest: Ограничения Claude Pro, проблемы Gemma 4 и инциденты с агентами

Anthropic ввела ограничения на использование Claude Pro сторонними агентами, а YC-Bench показал, как 12 моделей управляют стартапом в течение года. Gemma 4 столкнулась с проблемами в llama.cpp, которые были решены, но остаются вопросы по поддержке DGX Spark. В инцидентах с ИИ-агентами Cursor удалил системные папки Windows, а исследование Apple подтвердило улучшение генерации кода через само-дистилляцию.

Модели и ограничения

Anthropic ограничила использование Claude Pro для сторонних агентов

С 4 апреля подписки Claude Pro и Max больше не работают через сторонние сервисы — первым под блокировку попал OpenClaw с 247k звёзд на GitHub. Схема была проста: пользователи покупали доступ к Claude Max за $100–200 в месяц, подключались через OAuth и потребляли токены в разы активнее среднего. Теперь пользователи, которые использовали Claude через сторонние сервисы, будут платить по API-тарифам. В качестве компенсации Anthropic начислила эквивалент месячной подписки на баланс (можно забрать через Settings → Usage до 17 апреля) и предоставила скидку до 30% на пополнение API-аккаунта. Подробности в канале.

Источники: ai_for_devs , seeallochnaya
YC-Bench: 12 моделей управляют стартапом в течение года

Новый бенчмарк YC-Bench тестирует LLM в роли CEO симулированного стартапа с задержанной обратной связью и 35% клиентов, которые завышают требования. 12 моделей прошли тест с 3 семаплами каждая. Лидер — Claude Opus 4.6 с $1.27M средств, но GLM-5 на 5% отстал при стоимости в 10 раз ниже. Ключевой фактор успеха — использование persistent scratchpad для записи наблюдений. Top модели переписывали заметки ~34 раза за run, bottom — 0–2 раза. Paper

Источники: LocalLLaMA
План закупки мощностей Anthropic оказался не амбициозным

Анонимный сотрудник OpenAI (Roon) отметил иронию в словах Дарио из подкаста, который ранее критиковал другие компании за безответственную закупку вычислительных мощностей. Проблема в том, что количество мощностей в мире ограничено. Если один игрок займёт значительную часть, а другие позже поймут, что нужно докупать — объём может уже отсутствовать. Пост с деталями был написан ещё в декабре.

Источники: seeallochnaya

Gemma 4 и локальные решения

Gemma 4 31B на RTX 3090: как включить 128K контекста с Ollama

Тестирование Gemma 4 31B Dense на RTX 3090 (24GB) показало, что два параметра окружения полностью меняют производительность модели. OLLAMA_FLASH_ATTENTION=1 и OLLAMA_KV_CACHE_TYPE=q4_0 позволяют работать на полной скорости до 128K токенов, не выходя за пределы VRAM. С Q4 кэшем KV скорость остаётся 29.6 tok/s даже при 64K контексте. В комментариях отмечают, что Q4 работает хорошо из-за архитектуры с sliding window: 50 из 60 слоёв используют окна 512-1024 токенов. Benchmark

Источники: ollama
Llama.cpp обновил поддержку Gemma 4: KV cache исправлен

Обновление llama.cpp исправило проблему с KV cache для Gemma 4, которая ранее потребляла избыточный объём VRAM. На тесте с 24GB VRAM и gemma4-31b-q4-k-m+q8 kv cache удалось поднять контекст с 12K до 45K токенов. В комментариях отмечают, что llama.cpp по умолчанию использует min-p 0.05 — для современных моделей стоит указать --min-p 0.0. Также рекомендуют ограничивать число слотов до 1 для экономии VRAM. Пост

Источники: LocalLLaMA
Gemma 4 проблемы с llama.cpp решаются после релиза

Пользователи сообщают, что Gemma 4 имеет проблемы при работе через llama.cpp, особенно в чатах с лупингом. После выхода модели обычно требуется несколько дней на фиксы в llama.cpp — например, PR #21418, PR #21390 и другие. В OpenCode подобных проблем не возникало. По аналогии с GLM Flash, улучшение промпта помогает решить проблему с лупингом и овер-мышлением.

Источники: LocalLLaMA
Gemma-4 честно признаёт, когда не знает ответа

В отличие от Qwen3.5, который склонен к уверенным галлюцинациям, Gemma-4 (тестировалась версия E4b Q8) сразу заявляет, когда не знает конкретного факта. Это важный признак изменения подхода к обучению моделей, где честность в признании незнания ценится выше попыток угадать. Сообщество отмечает, что Gemma-4 31B ощущается первым локальным моделированием, которое действительно выглядит умным по сравнению с бесплатными облачными сервисами.

Источники: LocalLLaMA
Gemma 4 MoE выдаёт 120 TPS на Dual RTX 3090

Пользователь поделился бенчмарками Gemma 4 MoE-архитектуры на двух RTX 3090 — около 120 токенов в секунду при стабильной производительности даже под нагрузкой. Это значительное улучшение по сравнению с плотными моделями, особенно для высокочастотных задач и агентов. Комментарии отмечают, что реальные цифры могут быть ближе к 100-110 TPS, но даже это впечатляюще для локального инференса.

Источники: LocalLLaMA
Триггер режима мышления для Gemma через /think

Для включения режима мышления в Gemma можно добавить '/think' в системный промпт. Тег имеет необычный формат: Start String — '<|channel>thought', End String — ''. Многие LLM не парсят эту секцию корректно из-за расположения pipe. Работает с версиями 26B и 31B. В примере показана Jinja-темплейт-конфигурация. В комментариях отмечают, что можно использовать ту же строку в llama.cpp через N8N или создавать файл model.yaml для включения toggle.

Источники: LocalLLaMA

Агенты и инструменты

Harmonic-9B: двухэтапный fine-tuning Qwen3.5 для агентов

Harmonic-9B — это fine-tuning Qwen3.5-9B с двухэтапным подходом: первый этап для reasoning, второй для tool-calling и агентской работы. Автор открыто опубликовал отфильтрованный датасет Hermes agent traces для второго этапа. После фильтрации self-correction вырос с 6% до 63%, а valid JSON/tool calls достигли 100%. GGUF кванты уже доступны на Hugging Face. В комментариях обсуждают применимость для self-reflection и делятся опытом fine-tuning. Hugging Face

Источники: LocalLLaMA
Hermes Agent: обзор локального агента от Nous Research

Hermes Agent от Nous Research получил детальную оценку как один из лучших открытых агентов для локальных моделей. Ключевое преимущество — встроенные per-model tool call parsers, которые корректно работают на моделях 30B класса. Поддерживает Ollama, vLLM, SGLang и несколько terminal backends. v0.6.0 добавил профили для multi-instance setups. В комментариях обсуждают сравнение с OpenClaw, вопросы безопасности и темпы разработки проекта. Гайд

Источники: LocalLLaMA
Инцидент с Cursor: агент удалил системные папки Windows

Подписчик поделился историей, как Cursor сгенерировал команду с ошибкой экранирования кавычек. Модель использовала обратный слеш как escape-символ, не учитывая, что в Windows это разделитель путей. Команда rmdir /s /q начала удалять системные папки. Файлы удалось восстановить, так как при удалении не было затирания. Инцидент показывает важность ограничения доступа агентов — стоит запускать их в Docker, виртуалке или изолированной среде. История

Источники: ai_newz
Как включить режим мышления для любых моделей в LM Studio

В LM Studio toggle Thinking Mode (режим мышления) часто скрыт для внешних GGUF-файлов от Unsloth или Bartowski. Для моделей, загруженных напрямую в LM Studio, достаточно проверить наличие зелёной иконки мозга рядом с названием. Для внешних моделей нужно создать metadata registry в кэше LM Studio с файлами manifest.json и model.yaml. Примеры конфигураций для Gemma-4-31B, GPT-OSS и Qwen3.5 включают указание путей к GGUF-файлам и парсинг тегов . Полный гайд содержит примеры файлов и скриншоты.

Источники: LocalLLaMA

Исследования и аппаратное обеспечение

Исследование Apple: само-дистилляция улучшает генерацию кода

Apple опубликовала исследование о self-distillation, которое показывает улучшение качества генерации кода. Методика оказалась проще, чем ожидалось. В комментариях поднимают вопрос о противоречии с другими исследованиями, где LLM становились хуже при обучении на собственном контенте. Сообщество обсуждает, как разрешить это противоречие и какие условия важны для успешной само-дистилляции. Пост

Источники: LocalLLaMA
DGX Spark: NVFP4 отсутствует уже 6 месяцев

Пользователь, купивший два DGX Spark, жалуется на отсутствие NVFP4 уже полгода. Продукт позиционировался как готовая система с Blackwell + NVFP4, но без этого драйвера Spark сложно оправдывать, особенно из-за ограничений пропускной способности. Функция технически существует, но не работает как зрелая, стабильная и поддерживаемая функция. Вывод: не стоит покупать DGX Spark, предполагая, что NVFP4 уже доставлен как готовая функция. Обзор проблемы.

Источники: LocalLLaMA