воскресенье, 26 апреля 2026 г.

AI Digest: Cohere покупает Aleph Alpha, Darwin-36B и рекорды Qwen3.6 на RTX 5090

Cohere приобретает Aleph Alpha для создания суверенной ИИ-альтернативы в Европе. Darwin-36B-Opus достигла 88.4% на GPQA в эволюционной MoE-архитектуре. Anthropic признала и исправила баги, ухудшившие работу Claude Code. Qwen3.6-27B показывает 85-100 токенов/с на RTX 5090 с контекстом 218k. Kimi K2.6 доминирует в бенчмарке на социальной дедукции. Gemma 4 лидирует в тесте малых и средних моделей на H100. Hugging Face открыли код агента ML Intern для терминала.

Сделки и корпоративные новости

Cohere поглощает Aleph Alpha для создания суверенной ИИ-альтернативы

Канадский стартап Cohere поглощает немецкую компанию Aleph Alpha при поддержке владельца сети Lidl, группы Schwarz. Сделка одобрена правительствами обеих стран и направлена на создание суверенной альтернативы для предприятий в условиях доминирования американских игроков на рынке ИИ. Объединение позволит предложить бизнесу решения, не зависящие от технологических гигантов США. Подробности сделки и планы интеграции описаны в материале TechCrunch. Previously: The integration aims to compete with US tech giants in the sovereign AI space, similar to earlier European AI sovereignty initiatives.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Anthropic исправила ошибки, ухудшившие работу Claude Code

Anthropic подтвердила наличие ошибок, которые ухудшили работу Claude Code в марте. Команда выявила три изменения, повлиявших на агента: снижение режима рассуждений с высокого на средний для уменьшения задержек, ограничение на длину вызовов инструментов и ответов, а также баг кэширования. Последний сбрасывал контекст после часа неактивности, что приводило к повторам и росту расходов. Исправление развернули 10 апреля, все проблемы устранены, лимиты использования сброшены. Детали инцидента описаны в канале стартапов. Previously: Anthropic has addressed Claude Code performance issues, following earlier reports of agent behavior problems.

Источники: startupsi
Nous Research проведут AMA 29 апреля

Команда Nous Research анонсировала сессию AMA (Ask Me Anything) в r/LocalLLaMA, которая состоится в среду 29 апреля с 8 до 11 утра по тихоокеанскому времени. Сама AMA пройдет в отдельном треде — вопросы следует задавать там. В комментариях пользователи выражают ожидание от комбинации Nous + Qwen3.6. Анонс

Источники: LocalLLaMA
Anthropic признала баги, ухудшившие работу Claude Code

Команда Anthropic подтвердила три проблемы, которые снизили производительность Claude Code в марте. 4 марта режим рассуждений был понижен с high до medium для уменьшения задержки, но вернули обратно после жалоб пользователей. Правило промпта, ограничивающее вызовы инструментов 25 словами, а финальные ответы — 100 словами, ухудшило качество кода на 3%. Баг кэширования очищал контекст после часа бездействия, вызывая повторения и повышенное использование. Все исправления развернули 10 апреля, лимиты использования сбросили. Источник

Источники: startupsi

Новые модели и бенчмарки

Сравнение 8 LLM для нарратива в настольных RPG: Gemma 3 27B обогнала 405B

Автор протестировал 8 моделей на качество повествования для агентов-гейм-мастеров в проекте open-tabletop-gm. Gemma 3 27B показала лучший результат (4.33 overall), обогнав Hermes 405B и сравнявшись с Gemma 4 31B. Nemotron Nano 30B лидировал по атмосфере (4.5), но отставал в диалогах. Для локального запуска надёжный порог — 70B+ на 64GB+ RAM: на MacBook Air с 24GB модели вроде Mistral Small 3.1 24B теряют контекст после 4-5 инструментальных вызовов. Тестовый промпт и результаты открыты в репозитории open-tabletop-gm.

Источники: LocalLLaMA
Deepseek V4: инструментальные вызовы уровня Opus

Пользователи отмечают, что Deepseek V4 демонстрирует качество вывода, сравнимое с Claude Opus, особенно в задачах кодирования и работы с инструментами. Модель справляется с генерацией функционального кода за короткое время, хотя требует нескольких итераций для отладки. В комментариях обсуждают возможность локального запуска и сравнивают модель с другими open-source решениями. По мнению участников, это одна из лучших локальных опций на текущий момент. Обсуждение.

Источники: LocalLLM
Kimi K2.6 доминирует в бенчмарке на социальной дедукции

Автор бенчмарка на игре Blood on the Clocktower протестировал Kimi K2.6 в 64 играх — модель уверенно лидирует с последовательными победами против других LLM. Обратная сторона: K2.6 генерирует в среднем 570 000 токенов на игру (Gemini 3.1 Pro — 180 000), матч занимает 10-15 часов и стоит $2.31 за игру. Это дешевле Claude Opus 4.6 ($3.79/игра), но дороже GLM 5.1 ($0.88/игра). Ошибка вызовов инструментов — 0.9%. В комментариях отмечают, что модель хорошо заменяет GPT 5.4. Результаты

Источники: LocalLLaMA
DeepSeek V4 Pro: сниженная плотность интеллекта и рост расхода токенов

В документации V3.2 разработчики отмечали проблему с эффективностью токенов — модель требовала больше токенов для достижения качества Gemini 3.0-Pro. В V4 Pro ситуация ухудшилась: даже режим без мышления использует значительно больше токенов, чем V3.2, при том что размер модели вырос с 0.67T до 1.6T (примерно в 2.5 раза). По сравнению с GPT-5.4 и GPT-5.5 разрыв ещё заметнее — DeepSeek требует около 10 раз больше токенов для аналогичной производительности. В комментариях отмечают, что GPT-5.5 специально обучался для эффективности токенов, а независимые замеры Artificial Analysis показывают разницу в 2.5 раза, а не в 10. Есть мнение, что V4 Pro недообучен и новые чекпоинты могут улучшить ситуацию. Обсуждение

Источники: LocalLLaMA
Бенчмарк малых и средних моделей на одном H100: Gemma 4 доминирует

Автор протестировал 8 моделей на одном H100 80GB с vLLM 0.19.1, измеряя throughput и time to first token при разной конкуренции (1, 4, 8, 16 запросов). Gemma 4 E2B-it показала 3180 TPS при 16 одновременных пользователях, тогда как Gemma 4 31B dense — только 226 TPS (разница в 14 раз при размере в 15 раз меньше). TTFT тоже впечатляет: 55 мс против 4.1 секунды. FP8-квантование дало Qwen 3.6 35B MoE ускорение на 73% по сравнению с BF16, тогда как плотные модели получили лишь 27%. Рекомендации: для чата с низкой задержкой — Gemma 4 E2B-it, для баланса качества и скорости — Qwen 3.6 35B-A3B в FP8 (~1200 токенов/сек), плотные 27B и 31B модели лучше пропустить. Полные результаты

Источники: LocalLLaMA
Shield 82M: модель для фильтрации PII с точностью ~96%

Выложена новая модель Shield 82M — файн-тюненая версия distilroberta-base для удаления персональной информации (PII) из текстов на любом языке. Модель заменяет имена, email, телефоны, адреса на теги вроде [PERSON], [EMAIL], [PHONE]. Тесты показывают работу с многоязычными данными, включая французский. Заявленная точность — около 96%. Модель полностью открыта и доступна на Hugging Face. В комментариях упоминают аналогичный релиз OpenAI Privacy Filter и отмечают потенциальную полезность для мобильного рантайма. Отдельно обсуждают потребность в фильтрах для медицинской информации (PHI). Модель на Hugging Face

Источники: LocalLLaMA
Darwin-36B-Opus: эволюционная MoE-модель с результатом 88.4% на GPQA

Модель Darwin-36B-Opus на 36 миллиардов параметров создана движком эволюционного скрещивания Darwin V7. Основой послужили Qwen3.6-35B-A3B и дистиллированный вариант Claude 4.6 Opus Reasoning. Генерация чекпоинта bfloat16 занимает менее часа на одном GPU. На бенчмарке GPQA Diamond модель показала 88.4%, став лучшей в семействе Darwin. Архитектура сохраняет топологию экспертов родителя и логику рассуждений матери. Модель, обсуждение

Источники: LocalLLaMA

Qwen3.6: квантование и производительность

Тесты квантования KV cache для Qwen3.6-27B: Q4 работает почти как F16

Пользователь протестировал различные методы квантования KV cache на модели Qwen3.6-27B с помощью llama-perplexity.exe и 200k контекста на RTX 3090. Результаты показали, что Q4_0 даёт прирост perplexity всего на 0.0148 относительно F16 — это в пределах погрешности теста (0.045). Turbo3 (3-bit) позволяет удерживать 200k контекст на одной 3090 с приемлемым PPL +0.0888. В комментариях отмечают, что PPL не всегда коррелирует с реальным качеством — после добавления activation rotation Q4 kv показывает минимальные потери в метриках, но заметное падение в AIME. Также обсуждают, что оптимизации llama.cpp от начала апреля сделали Q8 и Q4 значительно стабильнее. Тесты

Источники: LocalLLaMA
MoE-модели работают быстрее с большими квантами даже при ограниченной VRAM

Пользователь с RTX 3070 (8GB) и 64GB DDR4 обнаружил, что большие кванты MoE-моделей могут работать быстрее ожидаемого. На Qwen3.6-35B-A3B переход с IQ4_XS (~18GB) на Q4_K_XL (~23GB) увеличил скорость с 25-30 до 32 tokens/s при 128k контексте. Оптимальный баланс качество/скорость достигнут на Q5_K_S — около 30 tokens/s, свыше 25 tokens/s сохраняется даже при 50k контексте. В комментариях подтверждают: при переходе с Q4 на Q6 на MoE-моделях скорость не падает даже с 8GB VRAM + 32GB RAM. IQ-кванты замедляются при послойной выгрузке слоёв в RAM. Обсуждение

Источники: LocalLLaMA
Совместимость DFlash draft модели с Qwen3.6 27B

Обсуждается возможность использования спекулятивного декодирования для Qwen3.6 27B. Пользователи выяснили, что специализированный драфт-модель уже доступен, однако на текущем этапе встроенные MTP-слои показывают лучшую эффективность. В комментариях отмечают, что acceptance rate у MTP достигает 4-5 токенов против 2 у DFlash, так как модель еще обучается. Для тех, кто использует квантование без MTP-слоев, рекомендуют написать скрипт для их восстановления. Тесты в oMLX показали, что несовместимые комбинации драфт-моделей могут даже снизить скорость префилла. Детали

Источники: LocalLLaMA
Оптимизация Qwen 3.6 27B для 32 ГБ видеопамяти

Пользователи обсуждают лучшие стратегии размещения модели Qwen 3.6 27B в ограниченных 32 ГБ VRAM. Основные варианты варьируются от квантования Q4_K_XL с контекстом 256k до Q6_K_XL с уменьшенным окном. В комментариях рекомендуют использовать Unsloth квантование уровня Q8 с флагами q8 cache для контекста около 105k. Также отмечают, что для задач кодинга часто достаточно 68-96k токенов, что позволяет выбрать более точную квантовку модели без сильной деградации качества KV cache. Некоторые успешно запускают Q5_K_XL с Q8 KV cache и контекстом 200k. Тред

Источники: LocalLLM
Влияние квантования на Qwen3.6 35B A3B: сравнение q4, q6, q8

Пользователь сравнивает разные уровни квантования Qwen3.6 35B A3B после апгрейда VRAM с 48GB. Переход с ud-q4_k_xl на q8 дал заметное улучшение: более эффективный tool calling, лучшее понимание нюансов промптов, более развёрнутые ответы на исследовательские вопросы. Планируется тестирование ud-q6_k_xl для оценки окупаемости дополнительных 5+GB VRAM. В комментариях делятся опытом: при 16GB VRAM IQ4 достаточно для большинства задач, IQ3 уже заметна деградация. Один из пользователей использует q6 как основной на 2x2080ti (22GB VRAM каждая), отмечая разницу в качестве и стабильности, хотя галлюцинации всё ещё встречаются. Бенчмарк квантования

Источники: LocalLLaMA
Qwen3.6-27B выдаёт 80 tps на RTX 5090 с контекстом 218k

Пользователь запустил Qwen3.6-27B с квантованием NVFP4 и MTP на одной RTX 5090 через vllm 0.19.1rc1, достигнув скорости около 80 токенов в секунду при окне контекста 218k. Модель доступна на HuggingFace в формате NVFP4-MTP, рецепт настройки аналогичен предыдущему запуску Qwen3.5-27B. В комментариях советуют попробовать DFlash для дополнительного ускорения и предупреждают, что у этого кванта не лучший KLD. Также обсуждают разницу между vllm server и LM Studio для селф-хостинга. пост

Источники: LocalLLaMA
Ускорение обработки промптов на CUDA для MoE-моделей в llama.cpp

В llama.cpp merged PR с оптимизацией CUDA prompt processing для MoE-архитектур через reduction MMQ StreamK overhead. Тесты на setup 4070RTX + 5950X показывают прирост ~4.7% на prompt processing при неизменной скорости генерации. Для CPU-инференса улучшение достигает 10%, что заметно на крупных моделях вроде DS4 и GLM5.1. Оптимизация также портирована в ik_llama.cpp. PR

Источники: LocalLLaMA
Qwen3.6-27B выдаёт 85-100 токенов/с на RTX 5090 с 24GB VRAM

Пользователь запустил Qwen3.6-27B на ноутбуке с GPU RTX 5090 (24GB), достигнув 85-100 токенов в секунду через vLLM с MTP n=3, адаптировав конфигурацию из рецептов для 32GB. В комментариях обсуждают, что за ноутбук с такой картой — один из участников сообщил о 190 токенах/с на 5090FE в компактном корпусе с процессором 5800X3D. Производительность выглядит впечатляюще для локального инференса моделей такого размера. Обсуждение

Источники: LocalLLM
FP4-квантование в llama.cpp: NVFP4 и MXFP4

llama.cpp добавил поддержку NVFP4 (Nvidia block-scaled FP4, тип 40) с CUDA-ядрами в mmq.cuh и других файлах. ik_llama.cpp поддерживает MXFP4 (тип 39) — стандарт MX consortium, используемый в gpt-oss моделях. Оба формата экономят VRAM, но это разные wire-форматы: NVFP4 специфичен для Nvidia с E4M3 и блочным скейлингом, MXFP4 следует стандарту консорциума. Поддержка включает CPU (AVX2, NEON, Zen4) и CUDA. В комментариях уточняют: пока это совместимость без значительного ускорения, кроме префилла при контексте 30-40k+. На HuggingFace уже доступны модели с NVFP4, включая Qwen3.6-27B и Gemma-4-31B. Пост

Источники: LocalLLaMA

Железо для локального инференса

Запуск больших моделей на 24GB VRAM + 64GB RAM: 27B против 122B MoE

Обсуждение оптимальной конфигурации для локального запуска LLM. На 24GB VRAM + 128GB RAM пользователи рекомендуют 27B или 35B-A3B модели — обе помещаются в видеопамять, причём вторая работает почти в 4 раза быстрее при генерации токенов. 122B-A10B MoE модель может работать быстрее на CPU/RAM setup благодаря тому, что активны только 10B параметров одновременно против 27B у плотной модели. Плотные модели требуют VRAM или работают медленно на CPU/RAM. Тред.

Источники: LocalLLaMA
Выбор материнской платы для двух RTX 3090 под селф-хостинг

Пользователь спрашивает о конфигурации для dual 3090 с i7 14700K и 64GB DDR4. Эксперты отмечают, что два слота x8 идеальны, но конфигурация x16 + x4 тоже работает для инференса — после загрузки модели разница незаметна. Важнее обеспечить достаточный airflow, чтобы одна карта не забирала выхлоп другой. Для селф-хостинга рекомендуют NVLink + vLLM, некоторые используют бюджетные платы X99 с AliExpress. Обсуждение.

Источники: ollama
Стоит ли переходить на DDR5 для локальных vision-воркфлоу

Пользователь с конфигурацией Ryzen 5900X, 32GB DDR4 и RTX 4070 Ti Super использует QWEN для обработки рукописных исторических документов. Обработка занимает много времени, но апгрейд до DDR5-платформы (например, Intel 270K) даст лишь маргинальный прирост — основное узкое место остаётся в GPU. В комментариях советуют оптимизировать воркфлоу или попробовать меньшие модели: Gemma4 имеет версии 2b и 4b, а 31b показывает лучшие результаты в vision-задачах, превосходя GLM 4.6v и Mistral Large. Обсуждение

Источники: LocalLLM
Запуск Qwen 3.6 35B-A3B на M2 Macbook Pro с 32GB RAM

Пользователь подготовил инструкцию по запуску Qwen 3.6 35B-A3B на Mac с 32GB RAM через llama.cpp и opencode. Используется квантование IQ4_XS для экономии памяти, контекст ограничен 128K вместо 256K из-за плотной упаковки в unified RAM. Модель справляется с задачами по паттерну adapter (SQLite-адаптер для ApostropheCMS), но зацикливается на отладке геометрии и требует больше контроля чем Claude Code. В комментариях отмечают, что 27B версия работает стабильнее без постоянного вмешательства, хоть и в 5 раз медленнее. отчёт

Источники: LocalLLaMA
GLM 5.1 локально: 40 tps, 2000+ pp/s на 4×RTX 6000 Pro

После патчинга sglang удалось запустить стабильную nvfp4-версию GLM 5.1 на четырёх RTX 6000 Pro (ограничены до 350W). Префилл достигает 2229 токенов/с при пустом контексте, на 64k падает до 863. Генерация держится около 40 tps, при конкатенации 2 сессий — в среднем 65 tps. Опыт работы с opencode сопоставим с Sonnet + Claude Code, сессии на 100-200k токенов стабильны. В комментариях отмечают, что «локально» здесь означает дата-центр, а не домашнюю машину. Тред

Источники: LocalLLaMA
Тестирование сборки на 2x RTX 6000: упор в мощность, а не в температуры

Пользователь протестировал нагрузку на сборку с двумя GPU RTX 6000 и блоком питания на 1600 Вт. Система потребляла около 1650 Вт от сети, видеокарты работали на капе 535 Вт. Воздушный кулер процессора удерживал 95°C под полной нагрузкой даже с учётом горячего выдува от видеокарт. Автор заключил, что уперся в лимиты мощности, а не температур. В комментариях обсудили стоимость карт и эффективность СЖО для серверных процессоров. Пост

Источники: LocalLLaMA

Агентные системы и инструменты

Почему создание умного AI-компаньона сложнее, чем кажется

Разработчик делится опытом создания киберпанк-агента в стиле Дораэмона с синхронизированными анимациями и аудио. Система должна парсить интенты, запускать нужные микро-анимации и синхронизировать лип-синк фонем с голосом через оптимизационный слой для естественных переходов рта. Большинство «AI-компаньонов» на рынке — это просто text-to-speech API в оболочке, без настоящей личности. В комментариях отмечают, что магия в оркестрации: парсинг интентов + микро-анимации + тайминг аудио. Один из участников просит подробности о маппинге интентов на состояния анимации. Пост

Источники: AgentsOfAI
Курьезный случай с агентом на Qwen 3.5 4B

Пользователь столкнулся с необычным поведением локального агента: модель Qwen 3.5 4B, запущенная через Pinokio, самостоятельно завершила процесс llama-server во время поиска зависшего процесса. Хотя инцидент выглядел комично, он подчеркивает сложности отладки автономных агентов. В обсуждении отмечают, что некоторые модели иногда отказываются выполнять задачи без видимых причин, поэтому часть сообщества уже переходит на Qwen 3.6 27B. Автор надеется, что малые модели версии 3.6 смогут стабильно работать в режиме агента для написания кода. Источник

Источники: LocalLLM
Hugging Face открыли код агента ML Intern для терминала

Стал доступен инструмент ML Intern, предназначенный для автоматизации задач машинного обучения прямо из командной строки. Агент способен исследовать документацию, искать датасеты и статьи, запускать эксперименты и пушить финальные модели. Для старта достаточно ввести команду вроде `fine-tune llama on my dataset`, после чего система выполнит до 300 итераций задач. Важная особенность — запрос подтверждения перед рискованными действиями и стриминг каждого шага. В комментариях уже опубликовали ссылку на репозиторий проекта, отмечая его ориентированность на реальную работу с ML-пайплайнами. Обсуждение

Источники: AgentsOfAI
Локальная система для подготовки к экзаменам на Obsidian + Ollama

Пользователь собирает селф-хостед-систему для учёбы: Obsidian как хранилище заметок, Anki для интервального повторения, Open WebUI в Docker с Ollama и nomic-embed-text. Железо — i7-12650H, 32GB RAM, RTX 4050 с 6GB VRAM. Переход с qwen3.5:4b на qwen3:8b улучшил работу, но модель всё ещё игнорирует системные промпты при работе с файлами. Docker-маунт работает: контейнер читает и пишет в vault. В комментариях рекомендуют разделить систему на три задачи (источник истины, поиск, генерация карт) и начать с read/query/summarize без записи обратно в хранилище. Пост

Источники: ollama
Минимальная скорость генерации для локальных агентных воркфлоу

Пользователь тестирует pi.dev с llama.cpp и Qwen3.6-27B-Q6_K_L на RTX A6000 с контекстом 200K — получает 26 t/s, что сопоставимо с опытом Claude Code. В комментариях отмечают: 20 t/s уже работоспособно, если обработка промпта быстрая, а агент умный. Для задач кодирования оптимальный диапазон — 25-30 tps. Один из участников упомянул инструмент caveman для более эффективного использования выходных токенов. Тред

Источники: LocalLLaMA
Сравнение Qwen3.6-35B-A3B и Qwen3-Coder-30B-A3B-Instruct для кодинга

Пользователь тестирует две модели для агентской разработки в cline с TDD-подходом на 5070 Ti 16GB VRAM. Qwen3.6-35B-A3B чаще зацикливается и медленнее реализует задачи по сравнению с Qwen3-Coder-30B-A3B-Instruct. В конфигурации llama-server для Qwen 3.6 установлена температура 0.1, для Coder — 0.3. В комментариях рекомендуют поднять температуру до 0.6 для Qwen 3.6 и предлагают использовать дополнительный слой-гарнизон для контроля циклов вместо бесконечных agents.md. обсуждение

Источники: LocalLLM