суббота, 18 апреля 2026 г.

AI Digest: Qwen 3.6 доминирует в локальном инференсе, Cursor оценили в $50 млрд

Qwen 3.6 35B-A3B стала первой локальной моделью, окупающей настройку, с поддержкой полного контекста на RTX 4090 и GB10 Spark. Cursor привлекла $2 млрд при оценке $50 млрд, Factory оценили в $1.5 млрд за инструменты ИИ-кодинга. Прогноз выручки OpenAI и Anthropic пересмотрен до $240 млрд. 86% CISO не имеют политики доступа для AI-агентов. Google выпустила Gemini 3.1 Flash TTS с контролем голоса. Кевин Вейл и Билл Пиблз покинули OpenAI.

Qwen 3.6: бенчмарки и локальное развёртывание

Сравнение Qwen 3.6 и 3.5 35B MoE в llama.cpp

Пользователь провёл быстрое сравнение Qwen3.6 35B MoE против Qwen3.5 35B MoE с отключённым reasoning. Обе модели использовались в одинаковой квантовке unsloth 4 K_XL GGUF через llama.cpp. Для тестирования применялись те же skills, созданные ранее для Qwen3.5 35B. Автор отмечает, что нужны дополнительные эксперименты перед выводами. Скрипт запуска llama-server с параметрами контекста 90k, температурой 0.6 и top-p 0.95 опубликован в посте. Сравнение

Источники: LocalLLaMA
Запуск Qwen3.6-35B-A3B с полным контекстом на 4090 и GB10 Spark

Автор тестировает новую модель Qwen3.6-35B-A3B с полным контекстным окном на потребительском и серверном оборудовании. Инференс выполнялся на видеокарте RTX 4090 и ускорителе GB10 Spark с использованием бэкендов vLLM и Llama.cpp. Эксперимент демонстрирует техническую возможность работы с большим контекстом данной архитектуры на доступном железе. Такие данные полезны для оценки требований к ресурсам при планировании селф-хостинга подобных моделей. Подробности конфигурации и результаты обсуждаются в теме. Тест

Источники: LocalLLM
Qwen3.6-35B-A3B Uncensored Aggressive с K_P квантами

Вышла новая версия Qwen3.6-35B-A3B в варианте Aggressive без отказов и изменений личности — полностью разблокированная модель с нулевой потерей возможностей. Доступны кванты от Q8_K_P до IQ2_M, все сгенерированы с imatrix для сохранения качества. Модель использует MoE-архитектуру: 35B параметров всего, ~3B активных на токен, 256 экспертов с маршрутизацией 8 на токен. Поддержка мультимодальности (текст, изображения, видео), контекст 262K, гибридное внимание. K_P кванты дают улучшение качества на 1-2 уровня при увеличении размера файла на 5-15%. Страница модели

Источники: LocalLLM
Abliterated Qwen3.6-35B-A3B: подход для MoE-моделей

Опубликована abliterated-версия Qwen3.6-35B-A3B с модифицированной методикой для MoE-архитектур. В отличие от плотных моделей, сигнал отказа в MoE живёт в пути экспертов, поэтому стандартный LoRA на Q/K/V не работает. Автор использовал LoRA rank-1 на O-proj и MLP down-proj, экспертно-гранулярную аблитерацию по 256 срезам down_proj, подавление MoE-роутера для топ-10 «экспертов безопасности». В строгой оценке через LLM-judge модель показала 7/100 отказов против 100/100 у базовой версии. Многие карточки с заявлениями 0-3/100 используют менее строгие методы оценки. Обсуждение

Источники: LocalLLaMA
Запуск Qwen 3.6 для Claude Code на RTX 2000 Ada

Пользователь настроил работу Qwen 3.6 35B в стиле Claude Code на системе с RTX 2000 Ada (16GB VRAM). Из-за нагрева видеокарты пришлось напечатать на 3D-принтере крепление для дополнительного вентилятора. Скорость генерации достигает 24 t/s при промпте 400 t/s на квантовании q4km unsloth. Для корректного кэширования префиксов промптов потребовалось применить изменения из PR #21793 для llama.cpp. Источник

Источники: LocalLLaMA
Производительность Qwen 3.6 35B на RTX 5090

Отдельный тест показал скорость 187 t/s для модели Qwen 3.6 35B A3B на видеокарте RTX 5090 с 32GB VRAM. Использовалась квантовация Q5 K S и контекстное окно размером 120K токенов. Генерация происходила с температурой 0.1 и отключенным режимом мышления (Thinking Mode Off). Параметры настройки и полный лог доступны в посте. Обсуждение

Источники: LocalLLaMA
Qwen3.6 пишет и отлаживает игру Tower Defense с использованием MCP

Пользователь протестировал Qwen3.6 на задаче создания tower defense игры с использованием скриншотов через установленный MCP. Модель самостоятельно обнаружила проблему с рендерингом canvas, исправила баг в подсчёте волн и тестирует функцию улучшений. Запуск выполнен через llama-server с конфигом для Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf и mmproj-F16.gguf. В комментариях обсуждают стек программного обеспечения и размер квантования модели, а также отмечают потенциал таких инструментов для нового поколения разработчиков. Пост Ранее: Qwen 3.6 35B-A3B был выпущен под лицензией Apache 2.0 и показал результаты, превзошедшие Opus 4.7 в текстовой генерации.

Источники: LocalLLaMA
Qwen 3.6 — первая локальная модель, которая окупает усилия по настройке

Автор делится опытом использования qwen3.6-35b-a3b на системе с 5090 + 4090: модель загружается в квантовании Q8 с полным контекстом 260k токенов, выдавая около 170 токенов в секунду. В отличие от предыдущих локальных моделей, Qwen3.6 завершает задачи с минимальными правками, а самопроверка кода после завершения ловит большинство ошибок. Это первый случай, когда локальная модель не требовала больше времени на исправления, чем самостоятельная работа. В комментариях отмечают, что Qwen 3.5 27b лучше справляется с выполнением задач, и предлагают сравнение с GLM 4.7 358B. Обсуждение Ранее: Qwen 3.6 35B-A3B был выпущен под лицензией Apache 2.0 и стал доступен в Ollama с улучшениями для агентных задач.

Источники: LocalLLaMA
Qwen 3.6 35B: рассуждения и генерация ASCII

Пользователь проверил возможности Qwen 3.6 35B на задаче генерации ASCII-арта, где модель продемонстрировала избыточное рассуждение для столь простого запроса. Автор заметил, что несмотря на критику длинной цепочки рассуждений (long reasoning), в практических агентских задачах модель остается сфокусированной и адекватной. Лог рассуждений доступен в gist. В комментариях отметили, что качество ASCII-арта у современных LLM в целом ухудшилось по сравнению с GPT-4 и ранними файн-тюнами Llama 1. Обсуждение на Reddit. Ранее: Qwen 3.6 35B-A3B был выпущен 16 апреля под лицензией Apache 2.0 и показал результаты, превзошедшие Opus 4.7 в текстовой генерации.

Источники: LocalLLaMA
Выбор квантования для Qwen 3.6: Q4 против Q8

Автор делится опытом использования Qwen 3.6 в квантовании Q4, отметив стабильную работу на контексте 131k токенов без ошибок при компактировании задачи. Возник вопрос о целесообразности перехода на Q8 ради качества против скорости (112 t/s у Q4 против 50 t/s у Q8). В обсуждении пользователи советуют остановиться на Q5_K или Q6_K, так как разница с Q8 минимальна, а выигрыш в скорости и месте для контекста существеннее. Один из участников поделился конфигурацией llama-server для Q6_K_XL, получая 50 t/s на оборудовании Strix Halo. Тред на Reddit. Ранее: Qwen 3.6 35B-A3B был выпущен 16 апреля под лицензией Apache 2.0.

Источники: LocalLLaMA
Тесты Qwen 3.6-35B на двух 5060 Ti с гибридным оффлоудом

Автор протестировал Qwen 3.6-35B-A3B в конфигурации с `--cpu-moe` на системе с двумя RTX 5060 Ti (32 ГБ VRAM). Гибридный режим выдал 21.7 ток/с при контексте 90K, уступая в скорости полной загрузке в GPU, но выигрывая у плотной модели 3.5 в задачах агентов благодаря качеству (73.4% на SWE-bench). В комментариях отмечают, что при таком объеме видеопамяти полный оффлоуд дает кратный прирост скорости до 63 ток/с без потери контекста. Модель использовали для написания кода K8s оператора за ночь с 100% успешными тул-коллами. Пост Ранее: Qwen 3.6 35B-A3B был выпущен 16 апреля под лицензией Apache 2.0 и уже тестировался на RTX 5090 со скоростью 187 ток/с.

Источники: LocalLLaMA
Qwen3.6-35B для кодинга локально

Пользователь протестировал Qwen3.6-35B-A3B в связке с OpenCode и сравнил его с Claude Code. Модель успешно внедрила RLS в postgres для кодобазы на Rust, TypeScript и Python, итеративно исправляя ошибки компилятора. Селф-хостед конфигурация на RTX 4090 с квантованием IQ4_NL и контекстом 262k занимала около 21 ГБ VRAM. Скорость генерации превышала 100 токенов в секунду при стабильной работе без вылетов памяти. Обсуждение

Источники: LocalLLaMA
Сравнение Qwen 3.6 35B и Gemma 4 26B

Независимое тестирование на агентных задачах показало преимущество Qwen 3.6 35B над Gemma 4 26B. Qwen исправил 32 из 37 багов без регрессий за 49 минут, тогда как Gemma справились с 28 задачами за 85 минут и допустили 8 новых ошибок. Расход токенов на исправление у Qwen оказался почти в два раза ниже, хотя в анализе изображений модель работала медленнее конкурента. В комментариях отметили нестабильность вызова инструментов у Gemma 4, что могло повлиять на итоговые метрики. Полные результаты

Источники: LocalLLaMA

Железо, квантование и производительность

Веб-инструмент llmsizer для проверки совместимости моделей с железом

Разработан веб-инструмент llmsizer для быстрой проверки, поместится ли модель в доступную VRAM. Инструмент авто-детектит GPU или позволяет ввести спецификации вручную. Показывает объём VRAM для модели, влияние квантования, рост KV cache с увеличением контекста и прогнозирует, запустится ли модель. Проект полностью open source и доступен на GitHub. Решение вдохновлено llmfit, но упрощено для веб-использования без установки. GitHub

Источники: LocalLLM
Проблема однопоточной обработки промпта в llama.cpp на AMD GPU

Пользователь столкнулся с тем, что при запуске модели Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf через llama.cpp с бэкендом HIP или Vulkan обработка входного промпта идет только в один поток CPU. Несмотря на настройку --threads 8 и загрузку VRAM на 15,7 ГБ, скорость токенизации резко падает после 50к контекста, тогда как генерация задействует все ресурсы. В конфигурации указаны flash-attn, mlock и cache-ram, но batch processing не масштабируется по ядрам процессора. Автор запросил подтверждение, является ли такое поведение нормальным для текущих версий бэкенда. Тред

Источники: LocalLLM
Проблема зависания Ollama на Strix Halo с ROCm

Пользователь столкнулся с зависанием Ollama после первого ответа при запуске на процессоре Strix Halo с графикой gfx1151 и стеком ROCm. Конфигурация включает Ubuntu 24.04 LTS, ROCm 7.2 и работу через контейнер nightly в K3s с 128 ГБ памяти. Модели вроде Qwen3.5 быстро отвечают первый раз, но затем перестают реагировать, тогда как Gemma 4 работает стабильно. Автор ищет рекомендации по переменным окружения или возможному переходу на бэкенд Vulkan. Технические детали и логи обсуждения доступны в посте.

Источники: ollama
Апгрейд до Dual A40: обмен 5090 на 96 ГБ VRAM

Пользователь поделился опытом замены двух видеокарт 5090 FE на конфигурацию Dual A40 с 48 ГБ памяти каждая, соединённых через NVLink. В систему также интегрирована карта A16, что в перспективе позволит расширить пул VRAM до 128 ГБ для локальных задач. Такое решение обеспечивает значительно больший объём памяти для запуска больших моделей по сравнению с потребительскими картами. Обсуждение конфигурации и текущих работ по модернизации доступно в посте.

Источники: LocalLLM
Ternary Bonsai: 1.58-битные модели с уменьшенным footprint памяти

Вышло семейство Ternary Bonsai от Prism ML с весами {-1, 0, +1}, доступное в размерах 8B, 4B и 1.7B параметров. Модели занимают примерно в 9 раз меньше памяти по сравнению со стандартными 16-битными аналогами, сохраняя конкурентную точность на бенчмарках. Для запуска есть FP16 safetensors для инструментов HuggingFace, хотя основной упакованный формат сейчас поддерживается в MLX. В обсуждении выражают надежду на снижение галлюцинаций и ждут версии на 20-40B параметров. Подробности релиза в треде, веса уже на HuggingFace.

Источники: LocalLLaMA
Обработка длинных промптов на Asus Strix Halo

Пользователь протестировал Asus ProArt PX13 с чипом Strix Halo и моделью Gemma 4 26B A4B в LM Studio на Windows. При простых промптах достигается 50 токенов/с и 1 секунда TTFT с 96 ГБ VRAM. Однако при промпте длиной 200k токенов TTFT вырастает до 4000 секунд, даже при использовании 40 ГБ VRAM без unified KV Cache. Тест показывает ограничения текущих решений для обработки сверхдлинных контекстов на локальном железе. Тест Ранее: Gemma 4 26B и 31B уже проходили продакшен-тесты и заменили Qwen в селф-хостед сетапах.

Источники: LocalLLM
Бенчмарки GGUF от Unsloth и проблема CUDA 13.2

Команда Unsloth опубликовала сравнение квантований Qwen 3.6-35B-A3B, их форматы лидируют по соотношению KLD к размеру файла в 21 из 22 случаев. Частые обновления файлов связаны с внешними багами, включая ошибки в llama.cpp и критический баг CUDA 13.2, вызывающий некорректный вывод в 4-битных квантах. NVIDIA подтвердила исправление в версии 13.3, пока рекомендуется откатиться на CUDA 13.1. Также устранены NaN-ошибки в MiniMax 2.7, данные исследования доступны в блоге. Подробнее Ранее: пользователи сообщали о проблемах с MiniMax 2.7, включая ошибки форматирования и нестабильность при локальном запуске.

Источники: LocalLLaMA
Проблема производительности Ollama + Openclaw: контекст переполняет VRAM

Пользователь с RTX 4090 (24 GB VRAM) и 128 GB RAM столкнулся с медленной работой связки Ollama + Openclaw при использовании моделей Qwen3.5:27b и Gemma4. Причина — контекст длиной 262144 токена переполняет видеопамять и уходит в системную. Параметр contextlength в openclaw.json перезаписывается при запуске новой сессии, попытки пересобрать модели с меньшим ctx через инструменты Ollama не помогают. Сообщество ищет способ переопределить значение контекста по умолчанию. Тред

Источники: ollama

Агентные системы и автоматизация рабочих процессов

Локальное приложение на Ollama и Gemma 3 для анализа заменемости команд ИИ

Опубликован открытый проект с лицензией MIT, который использует локальную связку Ollama и Gemma 3 для оценки потенциала автоматизации в компаниях. Приложение проводит три этапа рассуждения: анализ заменемости команд, дизайн ролей и генерацию спецификаций агентов в формате JSON. Принудительный вывод JSON с механизмом повторной попытки помогает стабилизировать работу малых моделей без использования грамматик. Встроенный переключатель считывает доступные теги из `/api/tags`, позволяя сравнивать производительность версий от 4B до 27B на одних и тех же данных. Скрипт установки автоматически проверяет наличие Node и Ollama, загружает модель и запускает интерфейс в браузере. Обсуждение

Источники: ollama
Агентский воркфлоу для Power BI на базе Codex с поддержкой PBIR

Разработан агентский сценарий на базе Codex для работы с моделями Power BI и локального редактирования файлов PBIR/PBIP. Решение расширяет возможности официального powerbi-modeling-mcp, добавляя слой для авторинга отчетов, визуализаций и закладок. Воркфлоу включает инспекцию модели, обновление объектов, настройку срезов и валидацию проекта после изменений. Автор позиционирует инструмент как готовый к работе агент, а не демонстрационный прототип. Исходный код проекта доступен в репозитории, ссылка на который есть в теме. Пост

Источники: AgentsOfAI
Computron AI Assistant: автономный агент для самоусовершенствования кода

Разработчик демонстрирует систему Computron — персонального AI-ассистента с доступом к песочнице Linux и фоновыми задачами Goals. Ассистент ежедневно выполняет три задачи: сканирует веб для тестирования браузера, проверяет репозиторий на утечки PII и токенов, ищет баги в коде. При обнаружении проблем Computron создаёт ветку, вносит исправления и отправляет PR на ревью. Результаты задач записываются на диск, что позволяет строить интерактивные приложения для визуализации данных в реальном времени. Подробнее

Источники: ollama
Проблемы параллелизма в llama.cpp для агентских систем

При построении агентских систем на базе Tesla T4 возникает сложность: llama.cpp стабильно работает для одного пользователя, но теряет производительность при одновременных запросах. Альтернативы вроде vLLM и SGLang требуют полного размещения модели в VRAM без возможности выгрузки в оперативную память, что ограничивает выбор моделей формата GGUF. Автор обсуждает поиск баланса между поддержкой высокой нагрузки и эффективностью использования памяти для локальных агентов. Детали проблемы и возможные решения разбираются в треде.

Источники: LocalLLM
Сокращение контекста LLM с 80K до 2K токенов без векторных баз

Автор экспериментирует с сокращением контекста LLM с 80K до 2K токенов без использования embeddings или векторных баз. Метод включает извлечение структурных сигналов (функции, классы, маршруты) и ранжирование файлов на основе перекрытия токенов и эвристик. В результате размер контекста уменьшился на 97%, а релевантные файлы попадали в топ-5 в 70–80% случаев. Все работает локально без внешних зависимостей. В комментариях пользователи отмечают удобство CLI команды для работы с монорепозиториями. Обсуждение.

Источники: AgentsOfAI
LSP вместо Grep в Claude Code сокращает расход токенов на 80%

Пользователь поделился опытом замены Grep на LSP для навигации по коду в Claude Code — расход токенов упал примерно на 80%. Логика проста: Grep возвращает 20+ нечётких совпадений, и модель читает 3–5 файлов полуслучайно, тратя 1500–2500 токенов контекста на файл. LSP возвращает один точный ответ в ~600 токенов, используя тот же протокол, что и IDE для «Go to Definition». Автор отмечает, что похожие оптимизации могут скрываться в обходе файловой системы, графах зависимостей и запросах к базам данных. Обсуждение включает вопросы о других хуках и кастомных инструментах для повседневной работы с Claude Code. Пост

Источники: AgentsOfAI
Агентные исследователи Anthropic превосходят людей по эффективности

Исследователи Anthropic разработали автономных AI-агентов, которые самостоятельно предлагают идеи, запускают эксперименты и итерируют решения. По заявлениям компании, эти агенты уже показывают результаты лучше человеческих исследователей в отдельных задачах. Система работает без постоянного вмешательства человека, что открывает новые возможности для автоматизации научных процессов. Подробнее

Источники: AgentsOfAI
Интеграция Openclaw и Ollama в Home Assistant

Пользователь описывает настройку унифицированного AI-ассистента на базе Openclaw и Ollama внутри экосистемы Home Assistant. Ключевая особенность решения — наличие общей долгосрочной памяти (long-term memory), что позволяет модели вести связный диалог и действовать как полноценный агент. Автор позиционирует систему как «шестого члена семьи», подчеркивая глубину интеграции в домашнюю автоматизацию. Подробнее в посте.

Источники: ollama
Тестирование агентности Claude Design

Автор протестировал новый инструмент Claude Design от Anthropic, поставив задачу создать сайт на основе ссылки на Telegram-канал. Модель самостоятельно вытащила тексты и изображения, предложила концепт и сгенерировала результат без дополнительных инструкций. Несмотря на наличие замечаний к качеству, высокая степень агентности и способность самостоятельно собирать контент поразили тестирующего. Отчет о тесте.

Источники: prompt_design
Haindy — CLI-инструмент для компьютерного использования код-агентами

Разработчик выпустил open-source CLI-инструмент Haindy, который позволяет код-агентам вроде Codex или Claude Code взаимодействовать с приложениями как чёрный ящик. Инструмент принимает инструкции на естественном языке вместо программного автоматизирования тестов. Поддерживает Linux, macOS, Android и iOS, устанавливается через PIP. Основные команды: session new для создания сессии, explore для исследовательского тестирования, act для атомарных действий вроде кликов. Агент получает скриншоты и текстовые отчёты о результатах. Пост

Источники: AgentsOfAI
Cursor и NVIDIA добились ускорения CUDA-ядер на 38% с помощью мульти-агентной системы

Команды Cursor и NVIDIA использовали мульти-агентную архитектуру для оптимизации CUDA-ядер под GPU Blackwell — задача, которая обычно занимает у инженеров месяцы. Система состоит из одного planner-агента, распределяющего работу между автономными worker-агентами. Координация реализована через единственный markdown-файл с общим состоянием. Результат: 38% ускорение за 3 недели. Обсуждение подчёркивает, что сложные схемы координации часто избыточны — достаточно простого shared state, если агентам нужен доступ к промежуточным результатам друг друга. Обсуждение

Источники: AgentsOfAI
Nanocoder 1.25.0: Yolo Mode, subagents и улучшенные настройки

Вышла версия 1.25.0 инструмента Nanocoder для работы с локальными моделями. Обновление включает Yolo Mode для быстрого выполнения задач, поддержку subagents для распределения работы, улучшенные промпты и расширенный контроль конфигурации. Релиз доступен в сообществе Ollama. Анонс

Источники: ollama

Сделки, инвестиции и рыночные прогнозы

Автоматизация ответов помогла HVAC-компании вернуть $36 тыс. в месяц

Кейс внедрения агентской автоматизации в небольшой компании по обслуживанию климатического оборудования позволил восстановить около $36 тыс. ежемесячной выручки. Основная проблема заключалась не в отсутствии лидов, а во времени реакции: заявки после рабочих часов обрабатывались в среднем 10 часов. Внедрение мгновенного ответа, автоназначения техников и флагов для срочных задач сократило время обработки до одной минуты. Это обеспечило запись на большее количество заказов из существующего трафика без увеличения расходов на маркетинг. Система также уменьшила объем ручной работы по отслеживанию статусов внутри команды. Кейс

Источники: AgentsOfAI
FirmPilot: маркетинговое агентство с AI и $22M инвестиций

Стартап FirmPilot привлек $22M в раунде A, позиционируя себя как AI-компания для юридических фирм. Сервис предлагает полный цикл: сайт, SEO-статьи, поисковая реклама, ведение соцсетей, мониторинг отзывов — по цене $4-9K в месяц, что ниже рыночных ставок. Основное отличие от традиционных маркетинговых агентств — акцент на AI во всех процессах, что позволяет снижать издержки. Критики отмечают, что венчурное финансирование позволяет демпинговать, а AI-инструменты сейчас использует большинство игроков рынка. Тем не менее, раннее внедрение новых инструментов может помочь занять долю рынка до того, как конкуренты адаптируются. FirmPilot

Источники: startupoftheday
Factory оценили в $1.5 млрд за инструменты ИИ-кодинга для предприятий

Трехлетний стартап Factory привлек $150 млн инвестиций, достигнув оценки в $1.5 млрд. Компания разрабатывает инструменты для написания кода с помощью ИИ, ориентированные на корпоративный сектор. Раунд возглавил фонд Khosla Ventures, что указывает на высокий спрос на автоматизацию разработки в энтерпрайзе. Полученные средства пойдут на масштабирование платформы и интеграцию в рабочие процессы крупных компаний. Подробности сделки опубликованы в TechCrunch.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Карта оценок AI-стартапов на Seed-раунде от Carta

Carta обновила шпаргалку по оценкам стартапов в зависимости от стадии раунда, отдельно выделив данные для AI-компаний. Для AI-стартапа на Seed-стадии средняя пост-мани оценка составляет $25 млн при привлечении $4,5 млн. Это подразумевает pre-money оценку в $20,5 млн и размытие доли на 18% в пользу новых инвесторов. Цифры могут варьироваться по вертикалям, но служат ориентиром для переговоров. Данные доступны в посте.

Источники: proventure
Прогноз выручки OpenAI и Anthropic пересмотрен до 240 миллиардов долларов

Выручка ведущих AI-компаний растёт быстрее ожиданий — Anthropic достиг annualized run rate в 30 миллиардов долларов, превысив оптимистичные прогнозы конца 2025 года. Прогнозист Peter Wildeford, стабильно занимающий верхние строчки рейтингов на Metaculus, пересмотрел свой прогноз совокупного run rate OpenAI и Anthropic к концу 2026 года с 130 до 240 миллиардов долларов после публикации цифр Anthropic. Для сравнения, chief revenue officer OpenAI в записке для коллег оценивал разницу подходов примерно в 8 миллиардов долларов. Если прогноз сбудется, компании побьют рекорд скорости достижения выручки в 100 миллиардов, который ранее принадлежал ByteDance и Google. Подробнее

Источники: seeallochnaya
Вычислительные мощности — ограничивающий фактор роста AI-компаний

Несмотря на стремительный рост выручки, вычислительные мощности остаются ключевым ограничением для масштабирования. В этом году обе компании почти удвоят их с текущего уровня, но этого может не хватить для обеспечения роста выручки в 3.5 раза. Особенно сложная ситуация у Anthropic, которые уже захлёбываются и с трудом обеспечивают спрос на свои модели. Инфографика от Peter Gostev визуализирует разрыв между доступными мощностями и потребностями компаний. Источник

Источники: seeallochnaya
Кевин Вейл и Билл Пиблз покидают OpenAI

Кевин Вейл и Билл Пиблз покидают OpenAI на фоне сокращения второстепенных проектов. Компания закрывает Sora и расформирует научное подразделение, направляя фокус на корпоративный сегмент вместо потребительских продуктов. Эти шаги сигнализируют о серьезной смене приоритетов в стратегии развития источник.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Cursor привлекает $2 млрд при оценке $50 млрд

Редактор кода на базе ИИ Cursor ведет переговоры о привлечении более $2 млрд инвестиций. Рост интереса со стороны корпоративного сегмента позволил компании значительно увеличить стоимость до $50 млрд. Ожидается, что раунд возглавят текущие инвесторы a16z и Thrive подробности.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/

Безопасность и корпоративное внедрение

Катастрофическое забывание при fine-tuning локальных моделей

Проблема катастрофического забывания остаётся малообсуждаемой в локальном LLM-сообществе. При fine-tuning на доменных данных (медицина, юриспруденция, код) модель улучшает целевую задачу, но теряет способности на остальных. Стандартные решения вроде LoRA, replay buffers или MoE не решают проблему фундаментально. Автор экспериментирует с dual-memory архитектурой, вдохновлённой разделением быстрой эпизодической и медленной семантической памяти в мозге. На тестовом наборе из 5 задач новая архитектура показывает удержание 0.980 против 0.006 у градиентного базлайна, а также 8-кратное улучшение в long-horizon recall. Обсуждение

Источники: LocalLLM
86% CISO не имеют политики доступа для AI-агентов

Свежий опрос показал, что большинство директоров по безопасности не формализовали правила доступа для агентных систем внутри организаций. Только 5% респондентов уверены в возможности изоляции скомпрометированного агента, несмотря на их часто повышенные права доступа. Разработчикам инструментов автоматизации стоит заранее внедрять аудит и гранулярные разрешения, чтобы соответствовать требованиям корпоративных заказчиков. Статистика и аргументы для разработчиков приведены в треде.

Источники: AgentsOfAI
Защита от prompt-injection с задержкой 11.6 мс p95

Разработчик представил систему защиты от prompt-injection для enterprise LLM-пайплайнов с иммунологическим подходом. После 24-часового SOAK-теста на датасетах WildChat-1M, oasst1 и AdvBench система показала p95 latency 11.6 мс, TPR 0.95 и FPR менее 0.01. Решение работает как container-based слой для cloud или селф-хостед окружений без outbound API-вызовов. Автор столкнулся с трудностями дистрибуции — несмотря на технические преимущества, выйти на инженеров и red team оказалось сложно. Пост

Источники: LocalLLM
Почему для юридических документов не подходит чистый векторный поиск

Автор построил RAG-систему для немецкой юридической фирмы и обнаружил проблему: стандартная векторная схожесть не учитывает иерархию источников права. Решение Верховного суда важнее регионального, но косинусная схожесть может ранжировать выше хорошо написанную статью в блоге. Внедрены три стратегии: Flat (базовая), Category Priority (группировка по категориям с синтезом сверху вниз) и Layered Category (отдельный поиск по каждой категории). Метаданные документов включают категорию, юрисдикцию, дату и фреймворк, что позволяет LLM видеть источник каждого чанка. В комментариях отмечают, что описанный подход фактически является Advanced RAG с Metadata Filtering и Hybrid Search. Пост

Источники: LocalLLM

Новые релизы и обновления платформ

Alibaba прекратила бесплатный OAuth-тариф для Qwen

15 апреля Alibaba закрыла бесплатный OAuth-тариф для Qwen. Пользователи qwen-code CLI с OAuth-логином потеряли бесплатную альтернативу платным coding-агентам. Команда рекомендует OpenRouter, Fireworks AI или Alibaba Cloud Model Studio как платные замены. Для миграции на селф-хостинг доступна модель Qwen 3.6-35B-A3B с открытыми весами на Hugging Face. Пользователи обсуждают переход на полностью локальные воркфлоу — ollama run не даёт такого же удобства, как OAuth CLI. Подробности

Источники: LocalLLM
Интеграция OpenUI в OpenWebUI: тесты скорости

Пользователь успешно интегрировал OpenUI в интерфейс OpenWebUI для добавления богатых элементов управления. Связка показала высокую скорость работы с моделью gpt-5.4-mini, однако генерация на открытых моделях вроде qwen3:30b и gemma4 оказалась медленной. Тестирование проводилось на ноутбуке M4 с 24 ГБ памяти, где производительность варьировалась в зависимости от модели. Автор готов поделиться деталями настройки для заинтересованных участников сообщества. Описание эксперимента и результаты доступны в треде.

Источники: LocalLLaMA
Расширение Chromium для изучения языков на базе Ollama

Вышло новое расширение для браузера Chromium, которое использует локальный Ollama для помощи в изучении иностранных языков. Инструмент полностью бесплатен и требует настройки URL сервиса, выбора модели и целевого языка для практики. После конфигурации система начинает автоматически переводить контент для обучения. Подробности реализации и ссылки на проект есть в посте.

Источники: ollama
Марк Цукерберг создает ИИ-гендиректора для Meta

Марк Цукерберг создает искусственный интеллект, который будет выполнять функции генерального директора для помощи в управлении Meta. ИИ планируется использовать для поддержки руководителя в ведении дел компании на высшем уровне. Обсуждение этой инициативы и реакции сообщества доступно в треде.

Источники: LocalLLM
Thunderbird Team анонсировала селф-хостед AI-клиент Thunderbolt

Команда Thunderbird представила Thunderbolt — новый селф-хостед AI-клиент. Детали реализации и технические характеристики пока не раскрываются, информация доступна в обсуждении на r/LocalLLaMA. Проект может быть интересен тем, кто ищет локальные альтернативы облачным AI-сервисам. Обсуждение

Источники: LocalLLaMA
Новая streaming ASR-модель для low-latency инференса

Помимо Moonshine Streaming, появилась ещё одна перспективная модель для streaming ASR на устройстве. Исследование 2604.14493 описывает компактную высокоточную англоязычную модель с низкой задержкой инференса. Moonshine Streaming показывает немного лучшие результаты на бенчмарках, но новая работа интересна с точки зрения оптимизации существующих open-source моделей. Обе модели подходят для сценариев, где важна минимальная задержка при распознавании речи. Пост

Источники: LocalLLaMA
Настройка режима мышления в Ollama через Copilot CLI

В сообществе обсуждается вопрос отключения режима мышления (Thinking mode) у моделей Ollama с использованием Copilot CLI. Это может быть полезно для управления поведением модели и оптимизации инференса в локальных сценариях. Детали и возможные решения доступны в треде.

Источники: ollama
Codex превращается в полноценное AI-рабочее пространство

OpenAI расширяет возможности Codex, превращая его из инструмента для написания кода в полноценное AI-рабочее пространство. Теперь модель поддерживает управление компьютером на Mac, имеет встроенный браузер, генерацию изображений и нативные автоматизации. Внутри приложения доступны артефакты, включая таблицы, а также глубокие интеграции с другими сервисами. Обновление позиционируется как ответ на Claude Code Epitaxy. Подробности.

Источники: startupsi
Google выпустила Gemini 3.1 Flash TTS с контролем голоса

Google представила Gemini 3.1 Flash TTS — новую речевую модель в стеке Gemini, сфокусированную на контролируемой генерации голоса. Модель позволяет точно управлять тоном, темпом, ударениями и стилем через текстовые теги, поддерживает многоголосый вывод с сохранением характеристик каждого голоса. Задержка улучшена на десятки процентов, включая ускоренный отклик первого токена, что приближает модель к использованию в реальном времени. Это делает её подходящей для длинного контента и интерактивных сценариев. Детали

Источники: startupsi

Исследования и технические решения

WritHer: оффлайн-ассистент для Windows на Whisper и Ollama

Проект WritHer предлагает полностью локальное решение для голосового ввода и управления на Windows. Инструмент сочетает Faster-Whisper для распознавания речи и Ollama для обработки команд через локальную LLM. Среди функций — глобальная диктовка в любое окно по AltGr и управление заметками или напоминаниями через Ctrl+R с поддержкой относительных дат. Интерфейс реализован на CustomTkinter, данные хранятся в SQLite без телеметрии и облачных зависимостей. Подробнее

Источники: LocalLLM
Локальный голосовой ввод WritHer с поддержкой Ollama

В посте описана утилита для продуктивности, которая работает исключительно на устройстве пользователя без обращения к внешним API. Стек включает Python, Faster-Whisper для STT и любую модель через Ollama для интеллектуальной обработки запросов. Виджет позволяет диктовать текст в активное окно и отдавать голосовые команды для управления задачами, используя function calling для парсинга дат и времени. Исходный код открыт, проект ориентирован на приватность и отсутствие подписок. Обсуждение

Источники: ollama
Идея совместного использования GPU-сервера для замены Claude

Участник сообщества предложил схему коллективной аренды выделенного GPU-сервера для 10–15 пользователей вместо подписки на облачные API. Бюджет около €1000 в месяц позволяет развернуть стек из Qwen3 8B для быстрых задач, Qwen3-32B для рассуждений и Mistral Small 3.1 для агентных сценариев. Основные риски проекта включают ограничения конкуренции на одном GPU, операционную нагрузку и вопросы доверия при распределении счетов. Автор ищет мнение о жизнеспособности такой модели по сравнению с лимитами Anthropic. Обсуждение

Источники: LocalLLM
Arrow: локальный анализ контрактов SAM.gov через Ollama

Вышел инструмент Arrow, который загружает данные о контрактах из CSV SAM.gov в локальную SQLite базу без облачных зависимостей. Опционально можно подключить Ollama для структурированного вывода в JSON, используя параметр `format: json` для summaries и оценки соответствия. Приложение работает как CLI с терминальным интерфейсом и не требует ключей API для основной функциональности. Исходный код и инструкции по настройке доступны в посте.

Источники: ollama
Использование Qwen3.5-35B-A3B-Base как instruction-модели

Несмотря на выход Qwen 3.6, автор предлагает использовать Qwen3.5-35B-A3B-Base как instruction/reasoning модель. Она поддерживает follow-ing инструкций и CoT, что необычно для базовых моделей, и менее склонна к отказам по сравнению с instruct-версией. Alibaba обучила её на значительном объёме токенов, что позволяет применять LoRA прямо на base-модели. В комментариях пользователи уточняют детали обучения, так как обычно base-модели предназначены только для completions. Тред.

Источники: LocalLLaMA
Spring AI Embeddings Vector Store с поддержкой Redis

Новое решение для работы с векторными хранилищами на базе Spring AI теперь поддерживает Redis как бэкенд для эмбеддингов. Интеграция позволяет использовать Redis для хранения и поиска векторных представлений в Java-приложениях. Подход упрощает развёртывание векторного поиска в существующей инфраструктуре. Обсуждение

Источники: LocalLLM
Отчёт о тренировке малых мультиязычных LLM с нуля: Zagreus и Nesso

mii-llm опубликовала технический отчёт о разработке семейств моделей Zagreus и Nesso — 0.4B-параметрических языковых моделей, тренированных с нуля для европейских языков (итальянский, испанский, французский, португальский). Обучение проходило на 64 NVIDIA A100 GPU с использованием ~1 триллиона токенов, стек включал Datatrove для токенизации, Hugging Face Nanotron для предобучения и Axolotl для пост-тренировки. Выпущены базовые модели для каждого языка, instruct-версия для диалогов и agentic-версия для структурированных задач. В отчёте приведено сравнение с Qwen3-0.6B и Qwen3.5-0.8B, включая бенчмарки на итальянском и английском языках. Технический отчёт

Источники: LocalLLaMA