вторник, 26 мая 2026 г.

AI Digest: DeepMind решил задачи Эрдеша, ClickUp заменил сотрудников агентами и Qwen 27B выдал 80 токенов/сек на V100

ИИ-агент DeepMind решил 9 открытых математических задач Эрдеша. ClickUp заменил сотни сотрудников тысячами AI-агентов. Anthropic выпустила Founder's Playbook для AI-стартапов. Qwen 27B показал 80 токенов/сек на GPU V100. Выявлены проблемы с toolchaining в Ollama на RTX 3060 и изменения в тарифах Ollama Cloud Pro.

Корпоративные новости и экономика ИИ

ClickUp заменяет сотни сотрудников тысячами AI-агентов

Девятилетний стартап ClickUp проводит массовые сокращения, заменяя сотни работников тысячами AI-агентов. Это решение демонстрирует радикальный сдвиг в подходах к организации труда внутри технологических компаний. Подобные шаги поднимают вопросы о будущем рынка труда и роли человека в производственных процессах. Подробнее о ситуации и последствиях для индустрии читайте в статье TechCrunch.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Anthropic выпустила Founder's Playbook для AI-стартапов

Anthropic опубликовала Founder's Playbook, описывающий путь AI-нативного стартапа через четыре стадии: Idea, MVP, Launch и Scale. Согласно документу, ИИ стирает границы между техническими и нетехническими основателями, позволяя небольшим командам работать с эффективностью крупных организаций через инструменты вроде Claude Chat и Code. Авторы предупреждают об опасностях agentic technical debt и ложного product-market fit. Роль фаундера при этом трансформируется из исполнителя в оркестратора AI-агентов. Краткое содержание и обсуждение доступны в треде на Reddit.

Источники: startups
AI-стартапы завышают метрики выручки ARR

AI-стартапы регулярно отчитываются о рекордной выручке, используя завышенные метрики ARR. Инвестор Скотт Стивенсон обратил внимание на практику, когда компании записывают в годовую выручку сумму многолетнего контракта целиком, хотя реальные платежи значительно меньше. TechCrunch выяснил, что венчурные фонды часто знают о завышении показателей, но предпочитают молчать ради имиджа успешных проектов в портфеле. Дополнительную путаницу вносит использование метрики annualized run-rate revenue, где месячные данные экстраполируются на год. Разбор ситуации доступен в источнике.

Источники: TheEdinorogBlog

Достижения моделей и бенчмарки

ИИ-агент DeepMind решил 9 открытых задач Эрдеша

ИИ-агент Google DeepMind автономно решил 9 из 353 открытых задач Эрдеша в математике. Стоимость решения каждой задачи составила несколько сотен долларов. В комментариях отмечают, что такие темпы решения открытых проблем указывают на серьёзный прогресс, и публикуют ссылку на научную работу. Подробности в обсуждении и исследовании.

Источники: singularity
litmus-lab: бенчмарк квантования для Nvidia GPU

Утилита litmus-lab позволяет сравнивать производительность локальных LLM в форматах Native, INT8 и INT4 на видеокартах Nvidia. Инструмент измеряет потребление VRAM и скорость генерации, подсказывая оптимальную версию для развертывания. Установка доступна через pip, исходный код на GitHub. Описание возможностей в сообщении.

Источники: LocalLLM
Производительность Qwen 27B на GPU V100: 80 токенов/сек

Пользователь протестировал скорость генерации Qwen 27B на GPU V100, достигнув 80 токенов в секунду для одиночного запроса при обработке 3000 токенов в секунду. Тест проводился без MTP, также удалось запустить 128 параллельных запросов, что избыточно для личного использования. В обсуждении затронули тему доступности таких карт и возможное отсутствие поддержки квантования AWQ на архитектуре Volta. Источник

Источники: LocalLLaMA

Локальный инференс: железо и оптимизация

Сбои toolchaining в Ollama на RTX 3060

Пользователи сообщают о проблемах с цепочкой инструментов (toolchaining) в Ollama и LM Studio на видеокартах RTX 3060. При использовании агентов (OpenFang, Claude Code, SmallCode) модели весом 5–8 ГБ (Gemma 4, Qwen 3.5, Nemotron, Granite 4.1) выполняют лишь один вызов или прерываются после планирования действий. Обсуждение причин и возможных решений ведется в треде.

Источники: ollama
Изменение лимитов в тарифе Ollama Cloud Pro

Пользователи заметили снижение лимитов использования в тарифе Pro за $20. Один из участников подсчитал, что после обновления лимиты составили около 180 запросов за 5 часов и ровно 1000 в неделю. Для агентных сценариев этого может быть мало: задача из 31 запроса списала 17% часового лимита. В комментариях подтвердили изменения, некоторые пользователи уже отказались от подписки. Подробности

Источники: ollama
Нюансы работы MoE в llama.cpp

Эксперимент с моделью Qwen3.6-35B-A3B на 12 ГБ VRAM показал неожиданный результат: увеличение параметра `--n-cpu-moe` с 8 до 30 удвоило скорость генерации (с 17 до 34 токенов/с). Обычно ожидается замедление при нагрузке на CPU, но в случае MoE активные веса помещаются в VRAM, а остальные обрабатываются процессором. Дальнейшее увеличение параметра до 256 продолжило рост производительности без изменения потребления видеопамяти. Обсуждение результатов

Источники: LocalLLaMA

Инструменты и практические применения

Hosomaki: анализ Linux-логов через локальную AI

Проект Hosomaki предлагает CLI-утилиту для расшифровки системных логов Linux с помощью локальных моделей через Ollama. Инструмент работает без отправки данных в облако, что важно для приватности. Автор ищет контрибьюторов для улучшения работы с источниками логов, тестами и интерфейсом. Исходный код на GitHub, подробности в посте.

Источники: ollama
Генерация интерактивных учебников на лету

Тема посвящена концепции Generative Recursive Education для создания кастомных интерактивных учебников с помощью локальных моделей. Идея заключается в адаптации образовательного материала под запросы пользователя в реальном времени. Детали подхода и потенциальное применение разбираются в треде.

Источники: LocalLLaMA
Как работает MCP и вопросы приватности

Пользователь спросил о сути MCP, путая протокол с обычными вызовами инструментов. В обсуждении объяснили, что MCP — это локальное приложение или удалённый сервер, который автоматически сообщает модели о своих возможностях после подключения. Например, Playwright MCP позволяет управлять браузером без реализации инструментов локально. Приватность не гарантируется самим протоколом и зависит от конкретного сервера. Обсуждение

Источники: LocalLLaMA
Инструменты для создания агентных систем

Разработчик искал рекомендации по сборке агентной системы. В комментариях посоветовали несколько готовых решений: Squad OS, HashCortX (поддерживает Ollama, 11 режимов, live coder) и npcpy. Также отметили, что Streamlit не считается готовым инструментом для production-среды. Исходный код проектов доступен в репозиториях, ссылки на которые поделились в ветке. Тред

Источники: ollama