← все дайджесты

пятница, 17 апреля 2026 г.

AI Digest: Qwen 3.6 под Apache 2.0, Claude Opus 4.7 и концентрация венчура

Qwen 3.6 35B-A3B выпущен под лицензией Apache 2.0 и превзошёл Opus 4.7 в текстовой генерации. Anthropic представила Claude Opus 4.7 с новыми бенчмарками и функциями в Claude Code. Венчурный капитал в ИИ сконцентрировался у лидеров рынка в 2026 году. xAI начал сдавать вычислительные мощности в аренду. Рост вакансий в сфере агентного ИИ составил 986% за год.

Новые модели и релизы

  • Gemini выпустил нативное приложение для macOS

    Google выпустила нативное приложение Gemini для macOS с вызовом по Option + Space поверх любой задачи. Ассистент умеет анализировать содержимое экрана, работать с файлами и отвечать на вопросы без переключения между вкладками. Поддерживается генерация изображений и видео. Требуется macOS 15 или новее, доступно глобально. Источник

    Источники: startupsi

  • Qwen Code перешёл на платную модель

    13 апреля Alibaba сократила квоту Qwen Code с 1000 до 100 бесплатных запросов в день, а 15 апреля бесплатный доступ убрали полностью. Теперь доступны три варианта: подписка на Alibaba Cloud Coding Plan ($10-50 в месяц), свой API-ключ или локальные модели. Для разработчиков это означает, что одного бесплатного инструмента для кодинга стало меньше. Детали

    Источники: ai_for_devs

  • CEO и President Anthropic попали в Time 100

    Dario Amodei (CEO) и его сестра Daniela Amodei (President) попали в список Time 100 в категории «инноваторы». Редкий случай, когда пара родственников одновременно оказывается в топ-100. В интервью они отмечают, что работают над лучшими решениями, но не всегда уверены в правильности выбора. Статья в Time

    Источники: techsparks

  • Вышли веса Qwen 3.6 35B-A3B

    Опубликованы веса Qwen 3.6 35B-A3B, которая в бенчмарках часто превосходит плотную 27B-версию Qwen 3.5. Улучшение вероятно достигнуто за счёт увеличения количества reasoning-токенов — модели Qwen традиционно многословны. Основной конкурент Gemma 4 показывает схожие результаты, но использует в разы меньше токенов. В подразделении Qwen идут перестановки с фокусом на монетизацию, поэтому релизов стало меньше. Веса на HuggingFace

    Источники: ai_newz

  • Anthropic выпустила Opus 4.7

    Вышла версия Opus 4.7 после периода, когда 4.6 получила заметные ограничения. Обновление включает улучшенные бенчмарки, дополнительные сейфгарды для кибербезопасности и новый уровень reasoning effort между high и max. Модель поддерживает разрешение изображений до 3 раз выше предыдущей версии. Анонс

    Источники: ai_newz

  • Anthropic выпустили Claude Opus 4.7

    Anthropic объявили о релизе новой версии модели Claude Opus 4.7. Официальный анонс доступен на сайте компании. Подробности

    Источники: prompt_design

  • Claude Opus 4.7: бенчмарки и новые функции в Claude Code

    В Cursor бенчмарк модели вырос с 58% до 70%, Rakuten зафиксировал трёхкратный рост решённых production-задач. Добавлен новый уровень effort `xhigh` между `high` и `max`, в Claude Code он включён по умолчанию. Появилась команда `/ultrareview` для отдельной review-сессии — она проверяет все изменения на баги и архитектурные проблемы. Цена осталась прежней: $5/$25 за млн токенов. Источник

    Источники: ai_for_devs

  • Qwen3.6-35B-A3B вышла под лицензией Apache 2.0

    Qwen открыла веса модели Qwen3.6-35B-A3B под лицензией Apache 2.0. Это sparse MoE архитектура: 35 млрд параметров всего, 3 млрд активных. Заявлено качество агентовного кодинга на уровне моделей с в 10 раз большим количеством активных параметров, плюс улучшенное мультимодальное восприятие. В обсуждении приводят сравнения: модель превосходит плотную Qwen3.5-27B на ключевых бенчмарках кодинга и значительно опережает предыдущую версию 3.5-35B-A3B в задачах reasoning. Веса уже доступны на HuggingFace. Пост

    Источники: LocalLLaMA

  • Qwen3.6 получил улучшения для агентов и доступен в Ollama

    Вышла версия Qwen3.6 с акцентом на Agentic Coding и работу с репозиториями. Модель лучше обрабатывает frontend-задачи и сохраняет контекст рассуждений между сообщениями через опцию Thinking Preservation. Запуск доступен через Ollama командой `ollama run qwen3.6`. Детали

    Источники: ollama

  • Claude требует верификацию личности с паспортом и сканированием лица

    Anthropic начала требовать верификацию личности для доступа к Claude — теперь нужны паспорт или водительские права плюс сканирование лица. В комментариях пользователи обсуждают, связано ли это с ограничениями для китайских лабораторий или просто сбором данных. Некоторые называют это очередным шагом к централизации контроля над доступом к моделям. Обсуждение Ранее: Anthropic меняла тарифы для корпоративных клиентов.

    Источники: LocalLLaMA

  • Anthropic может свернуть потребительские подписки Max

    Наблюдатели отмечают постепенное ухудшение условий подписки Anthropic Max с целью перехода на enterprise-сегмент. Термин «constructive termination» описывает стратегию тихого сокращения аудитории через деградацию сервиса вместо прозрачной коммуникации изменений. Ожидается введение значительно более дорогих тарифов или строгих лимитов, что ограничит доступ индивидуальных пользователей и небольших команд к фронттир-моделям. В комментариях пользователи делятся опытом покупки локального железа (RTX Pro 6000) как страховки от закрытия открытых моделей. Дискуссия Ранее: Anthropic уже меняла тарифы для корпоративных клиентов в середине апреля.

    Источники: LocalLLaMA

  • Qwen 3.6 превзошел Opus 4.7 в текстовой генерации

    Сообщество отмечает успех Qwen3.6-35B-A3B-GGUF в задачах текстовой генерации. В сравнении с Opus 4.7 модель лучше справилась с запросом на описание пеликана, едущего на велосипеде — классический «пеликан-тест» для сравнения LLM. Участники дискуссии ссылаются на подробный разбор кейса в блоге Саймона Виллисона. Тред

    Источники: LocalLLaMA

  • Первый опыт использования Qwen 3.6 35B A3B

    Пользователи делятся впечатлениями от новой модели Qwen 3.6 35B A3B. Отмечается наличие режима мышления: первое тестовое задание заняло около двух минут, второе — 50 секунд, оба решены с первой попытки. В комментариях добавляют, что для решения головоломки в игре Indiana Jones and the Great Circle этой версии потребовалось в два раза больше токенов, чем Qwen 3.5. Обсуждение

    Источники: LocalLLaMA

  • Агентства США получат доступ к Anthropic Mythos

    Белый дом планирует предоставить государственным агентствам доступ к модели Anthropic Mythos. В обсуждении предполагают, что это может указывать на отсутствие у OpenAI конкурентных предложений для правительства в данный момент. Некоторые пользователи связывают решение с предыдущими новостями о взаимодействии Министерства обороны и ИИ-провайдеров. Тред

    Источники: singularity

  • Qwen 3.6 исправляет проблему с KV-кешем через флаг preserve_thinking

    В Qwen 3.6 добавлен флаг `preserve_thinking`, решающий проблему инвалидации KV-кеша, которая встречалась в версии 3.5. Теперь рассуждения модели не удаляются из контекста на следующих шагах диалога, что повышает эффективность в агентных сценариях и снижает расход токенов. Для проверки работы флага предлагают тест с генерацией двух чисел: при включенном флаге модель помнит второе число, при выключенном — нет. В комментариях подтверждают работу параметра в llama.cpp через `--chat-template-kwargs`, тогда как LMStudio поддержку еще не добавил, зато есть открытый PR для oMLX. Подробнее

    Источники: LocalLLaMA

  • Запуск Qwen3.6 35B на 3080 с 260k контекстом и скоростью 40 токенов/с

    Автору удалось достичь скорости около 40 токенов в секунду на видеокарте RTX 3080 с 12 ГБ памяти при использовании модели Qwen3.6 35B-A3B и контекста 260k. Решение основано на GPU-ускоренном turboquant (turbo3) и специфических флагах компиляции llama.cpp, включая `--cache-type-k turbo3`. В комментариях предлагают альтернативный метод ускорения до 45 токенов/с через выгрузку экспертов в оперативную память с помощью флага `--cpu-moe`. Автор использует режим reasoning off с многоступенчатым промптом для улучшения качества ответов. Источник

    Источники: LocalLLaMA

Локальный инференс и конфигурации железа

  • Проблемы производительности GLM 5.1 в Ollama Cloud

    Пользователи сообщают о заметном снижении скорости и стабильности GLM 5.1 при запуске через Ollama Cloud по сравнению с Windsurf. Основные жалобы включают таймауты, внезапные остановки генерации и плохую работу с инструментами (Serena MCP, файловая система). Тестирование проводилось через плагины Claude Code, Codex и Continue.dev, где наиболее надежным оказался Claude. Автор предполагает, что проблема кроется в реализации сервера Ollama. Обсуждение

    Источники: ollama

  • Исправление поломки INT4 квантования KV cache

    Выявлена причина деградации качества при INT4 квантовании KV cache на моделях вроде Qwen2-7B (ΔPPL +238). Проблема вызвана вариацией норм токенов и аномальными значениями в каналах активации, что решается комбинацией разделения нормы и поканального масштабирования. Метод требует всего 4 строки кода на PyTorch, не нуждается в тренировке и улучшает перплексию в 744 раза на проблемных моделях. Код и результаты, обсуждение

    Источники: LocalLLaMA

  • Обсуждение целесообразности Mac Studio Ultra для локальных LLM

    Пользователь с конфигурацией 512 ГБ RAM спрашивает сообщество, насколько такая мощность избыточна для задач инференса и прототипирования. В комментариях владельцы похожих систем делятся опытом: один использует кластеризацию через Exo на двух M3 Ultra для запуска Qwen3.5 397B в 8-битном режиме, что помогло решить задачу на уровне ядра Arm v8. Другие упоминают запуск GLM5.1 как альтернативу облачным моделям уровня Opus. Обсуждение пределов памяти и вычислительной мощности продолжается в треде.

    Источники: LocalLLaMA

  • Запуск Qwen3.5-35B на RTX 4060 Ti 16GB

    Пользователь поделился конфигурацией llama.cpp для Windows 11, позволяющей запускать модель Qwen3.5-35B в квантовании Q4_K_L на видеокарте RTX 4060 Ti 16GB. При контексте 64k токенов удается стабильно получать 40–60 токенов в секунду даже с запущенным Docker. В настройках ключевыми параметрами оказались kv_unified = true, n-cpu-moe = 11 и ограничение давления на VRAM. В комментариях отметили неточность в ссылке на модель и предложили создать общую базу конфигураций для разных видеокарт, чтобы избежать повторной настройки. Обсуждение

    Источники: LocalLLaMA

  • Нативное приложение для инференса на Mac без Python и Docker

    Автор создал нативное приложение для превращения Mac в локальный AI-сервер. Решение написано на Zig и Swift, работает на bare metal без зависимости от Python или Docker. Позиционируется как альтернатива Ollama, LMStudio и mlx-lm для минималистичного стека. Обсуждение

    Источники: LocalLLM

  • Проблемы с использованием инструментов в Gemma4:e4b через Ollama

    Пользователь столкнулся с невозможностью использования инструментов (tool usage) в модели Gemma4:e4b при локальном запуске через Ollama и VSCode. Модель не справляется с чтением файлов или созданием текстовых документов, тогда как облачная Claude Haiku 4.5 выполняет эти задачи успешно. Тестирование проводилось на системе с Intel i7-4790K, GTX 1060 6GB и 16GB RAM под Ubuntu 24.04. В теме обсуждают возможный конфликт протоколов или ограничения самой модели. Пост

    Источники: LocalLLM

  • Бенчмарк GGUF-квантований на MMLU с 24GB VRAM

    Тестирование квантованных моделей в llama.cpp с контекстом 8192 токенов на конфигурации 24GB VRAM + 128GB RAM. Лидирует Qwen3.5-27B-UD-Q5_K_XL с результатом 87.33% (12263/14042), следом Qwen3.5-27B-UD-Q4_K_XL — 87.25%. Qwen3-Coder-Next-UD-Q4_K_XL показывает 84.38%, а Qwen3.5-9B-UD-Q8_K_XL — 78.81%. Крупная модель Qwen3.5-397B-A17B с квантованием IQ2_XXS набрала 65.80%. Результаты. Ранее: oobabooga публиковал детальные бенчмарки GGUF для Qwen3.5 и Gemma 4 с метрикой KLD.

    Источники: LocalLLaMA

  • Производительность Intel Arc Pro B70 в Linux против NVIDIA и AMD

    В сообществе обсуждают производительность видеокарт Intel Arc Pro B70 с открытыми драйверами в среде Linux. Сравнение проводится против решений от NVIDIA RTX и AMD Radeon AI PRO в контексте задач искусственного интеллекта. Детали бенчмарков и выводы пользователей доступны в теме обсуждения.

    Источники: LocalLLM

  • Linx: локальный прокси для унификации доступа к LLM-бэкендам

    Представлен инструмент Linx, работающий как локальный прокси-сервер для llama.cpp, Ollama, OpenRouter и кастомных эндпоинтов. Он предоставляет единый OpenAI-совместимый API с приоритетной маршрутизацией и автоматическим fallback при сбоях. Среди возможностей есть сжатие контекста для длинных диалогов, поддержка function calling и туннелирование через Cloudflare или ngrok. Инструмент совместим с редакторами кода вроде Cursor и Continue.dev, исходный код размещен на Codeberg. Обсуждение проекта ведется в треде.

    Источники: LocalLLM

  • Выбор файла важнее размера контекста для локальных LLM

    Опыт использования локальных ассистентов показал, что увеличение контекста не решает ошибки генерации кода. Основная проблема — выбор неверного файла на старте, что ведет к накоплению ошибок в цепочке зависимостей. Рекомендуется сначала мапить структуру проекта, затем выбирать срез и загружать контекст. Обсуждение

    Источники: LocalLLM

  • Подбор GPU для открытых моделей: 66 конфигураций для Llama 3.1 8B

    Новый инструмент помогает выбрать оптимальную конфигурацию GPU для запуска открытых моделей. Для Llama 3.1 8B доступно 66 рабочих конфигураций, при этом цена на один и тот же V100 варьируется в 17 раз у разных провайдеров. Разница в стоимости делает сравнение предложений критически важным при планировании бюджета на селф-хостинг. Детали

    Источники: LocalLLM

  • Оптимизация локальной среды для работы с LLM-моделями

    Пользователь с конфигурацией из двух GPU (RTX 5070 Ti и 4070 Super) ищет способы улучшить стабильность локальной системы для повседневных задач: генерация рецептов, создание таблиц бюджета, учебные материалы, отладка скриптов. В обсуждении рекомендуют установить вторую видеокарту и запустить Qwen3.5 27B или Gemma 4 31B — плотные модели показывают лучшие результаты чем MoE-архитектуры. Для экономии VRAM советуют использовать параметр llama.cpp «-np 1» при работе с Gemma. Альтернативный подход — FastAPI-шлюз между пользователем и LLM через Ollama, где шлюз управляет выбором модели, контекстом и правами доступа. Обсуждение Ранее: в апреле обсуждался бенчмарк Qwen3.5 и Gemma4 на дуал-GPU (RTX 4070 + 3060).

    Источники: LocalLLM

  • Проблемы при локальном запуске MiniMax 2.7: ошибки форматирования и нестабильность

    Пользователи сообщают о странностях при запуске MiniMax 2.7 локально на vllm без квантования. Среди проблем называют нестабильность результатов по сравнению с версией 2.5, пропущенные пробелы в коде и орфографические ошибки. В обсуждении отмечают схожие проблемы при использовании MLX на Mac Studio, включая сбои формата tool calling (модель смешивает XML и скобки Qwen). Часть пользователей на конфигурациях с 4x RTX 6000 Pro сообщают о стабильной работе без нареканий. Обсуждение

    Источники: LocalLLaMA

  • Запуск Qwen3.6 35B на 3080 с 260k контекстом и скоростью 40 токенов/с

    Автору удалось достичь скорости около 40 токенов в секунду на видеокарте RTX 3080 с 12 ГБ памяти при использовании модели Qwen3.6 35B-A3B и контекста 260k. Решение основано на GPU-ускоренном turboquant (turbo3) и специфических флагах компиляции llama.cpp, включая `--cache-type-k turbo3`. В комментариях предлагают альтернативный метод ускорения до 45 токенов/с через выгрузку экспертов в оперативную память с помощью флага `--cpu-moe`. Автор использует режим reasoning off с многоступенчатым промптом для улучшения качества ответов. Источник

    Источники: LocalLLaMA

Агентские инструменты и автоматизация

  • RoleCraft: селф-хостед приложение для адаптации резюме

    Разработчик выпустил открытое приложение RoleCraft для структурированной кастомизации резюме под вакансии с использованием локальных моделей. Система сопоставляет описание вакансии с резюме поле за полем, показывает предлагаемые изменения и позволяет их утвердить перед генерацией .docx. В стеке используются React, Express и Ollama с моделями вроде qwen3:8b, что исключает слепую перезапись и сохраняет метрики. Репозиторий и пост Ранее: RoleCraft уже упоминался в дайджесте как инструмент для адаптации резюме; текущая публикация добавляет детали стека и механики работы.

    Источники: LocalLLM

  • Локальная система из 3 агентов для кодинга

    Автор описал рабочий пайплайн с агентами Architect, Executor и Reviewer на базе qwen3-coder:30b, Ollama и OpenCode. Ключевым решением стало переключение с изолированных процессов `opencode run` на сессионный режим `opencode serve` с прикреплением через `--attach`, что обеспечило сохранение контекста между шагами. Бот на Python управляет записью в git-репозиторий, исключая галлюцинации плана у исполнителя. Код и описание

    Источники: ollama

  • Обсуждение работы с файлом CLAUDE.md

    В сообществе подняли вопрос о корректных практиках использования файла CLAUDE.md при работе с локальными моделями. Тема вызывает интерес у разработчиков, интегрирующих специфические конфигурации в свои рабочие процессы. Детали обсуждения и предлагаемые решения можно изучить в треде.

    Источники: LocalLLaMA

  • Инструмент mcpstrike для пентеста через локальную LLM

    Инструмент mcpstrike позволяет использовать локальную LLM для проведения пентеста. Проект позиционируется как решение для запуска тестов на проникновение силами модели. Подробнее о возможностях инструмента рассказано в обсуждении.

    Источники: ollama

  • Ограничения безопасности в Qwen-Code и обход через промпты

    При попытке автоматизировать подключение к FTP через qwen-code на базе Qwen3.5-122b модель отказалась работать с учетными данными, ссылаясь на политики безопасности. Она предложила альтернативы вроде скриптов для локального запуска, но не стала выполнять команды напрямую. Пользователь выяснил, что изменение формулировки запроса на более директивное действие вместо вопроса решило проблему без отключения цензуры. Также было отмечено, что QWEN-CODE функционирует как агент, что важно учитывать при настройке задач. Детали

    Источники: LocalLLaMA

  • Локальный агентский ассистент для кодинга с поддержкой Mamba

    Новый локальный ассистент для написания кода получил встроенный редактор Monaco и возможность агентского выполнения кода. Проект поддерживает модели архитектуры Mamba и работает по принципу local-first. Пользователи могут запускать генерацию и исполнение кода непосредственно в интерфейсе без отправки данных во внешние сервисы. Детали

    Источники: LocalLLM

  • Два экземпляра Claude сотрудничают через селф-хостед настройку

    Пользователь поделился опытом настройки взаимодействия двух экземпляров Claude. Система используется около недели и помогает обойти ограничения по контексту и инструментам при работе с планами Pro или Max. Большая часть данных и выводов сохраняется в контейнере в хоумлабе, что обеспечивает контроль над информацией. Инструкции в README описаны как доступные для новичков. Подробности в посте.

    Источники: LocalLLM

  • Обновления Computron AI Assistant: несколько агентов и предпросмотр файлов

    В Computron AI Assistant добавили возможность настраивать нескольких агентов с разными моделями и параметрами. Появились панели предпросмотра для браузера, командной строки и файлов с поддержкой полноэкранного режима. В планах разработчика — коннекторы к данным, интеграция с Telegram, CLI и отказ от зависимости от Docker. Проект тестировался на Linux, код доступен на GitHub. Обсуждение

    Источники: ollama

  • SemanticForge: CLI для превращения личных ценностей в навыки ИИ

    Инструмент SemanticForge позволяет трансформировать личные принципы в структурированные навыки для ИИ без fine-tuning. CLI на Python генерирует пятиуровневый JSON на основе одного предложения, описывая определяющие параметры и контекст. Решение работает локально с Ollama, а также поддерживает Claude, OpenAI и Groq. Исходный код открыт для проверки и доработки. Пост

    Источники: LocalLLM

  • Firecrawl выпустил быстрый парсер Fire-PDF для конвертации в Markdown

    Firecrawl выпустил парсер Fire-PDF, который извлекает содержимое документов в формат Markdown. Скорость обработки составляет около 400 мс на страницу, финансовый отчёт на 216 страниц парсится за 83 секунды. Инструмент сохраняет таблицы, заголовки и формулы в LaTeX, поддерживая PDF, Word и Excel. Текст получается читаемым для нейросетей без использования OCR. Подробности

    Источники: GPTMainNews

  • Управление контекстом в Claude Code с окном 1 млн токенов

    Большое контекстное окно приносит проблему context rot — модель распределяет внимание на всё больше токенов, и старый контент начинает мешать. Есть пять вариантов управления: продолжить, использовать /rewind для отката, /compact для сжатия истории, /clear для очистки или делегировать задачу субагенту. Функция Rewind (двойной Esc) позволяет откатиться к точке перед неудачной попыткой и переформулировать запрос без сохранения неудачной ветки в контексте. Подробный разбор в статье на Хабре.

    Источники: ai_for_devs

  • Замена SEO-агентства за $1800/месяц на автономный AI-агент

    Пользователь отказался от агентства, которое публиковало 6 посредственных статей в месяц, и создал собственную систему на базе AI. Агент автоматически занимается исследованием ключевых слов, анализом конкурентов, генерацией контента, внутренними ссылками, созданием изображений и публикацией в CMS. За 12 месяцев основной сайт получил 3.8K кликов и 609K показов, средняя позиция выросла до 19.8. В комментариях многие просят поделиться настройками системы. Обсуждение

    Источники: AgentsOfAI

  • Локальный AI-агент для кодинга на Ollama + gemma4

    Разработчик создал локального AI-агента для кодинга на базе Ollama и gemma4 с установкой через один curl-запрос. Агент задаёт уточняющие вопросы, строит план выполнения и показывает вызовы инструментов Read/Edit/Bash. Индикатор выполненной задачи — растущий нос Пиноккио на один блок за завершённое действие. Решение работает полностью локально без внешних API. Пост на Reddit

    Источники: LocalLLM

  • Платформа наблюдаемости для AI-агентов Octopoda

    Разработчик проанализировал жалобы на AI-агенты: 38% — потеря памяти между сессиями, 24% — отладка мульти-агентных систем, 17% — отсутствие контроля затрат, 12% — нужен replay сессий, 9% — детекция циклов. На основе этого создана платформа Octopoda с персистентной и общей памятью, детекцией циклов, аудитом, восстановлением после сбоев и трекингом целей. Интеграция с LangChain, CrewAI, AutoGen, OpenAI Agents SDK, MCP server для Claude и Cursor. Визуализация «Neural Brain» показывает события агентов в реальном времени: зелёный — сохранение памяти, синий — чтение, янтарный — решения, красный — циклы. Детекция циклов сэкономила одному пользователю $200 за день на runaway API-вызовах. GitHub

    Источники: AgentsOfAI

  • Сервис wtfareagentsbuying.com транслирует покупки ИИ-агентов

    Автор запустил круглосуточный стрим, отображающий реальные транзакции ИИ-агентов в режиме live. Данные поступают из x402: оплата API, скрейпинг, вычисления и другие операции без симуляции. Проект позволяет визуально оценить экономику агентов на втором мониторе. Пост

    Источники: AgentsOfAI

  • Обновление RFC: метакогнитивный дефицит в агентных системах

    Вышло продолжение исследования о модульной архитектуре для самоаудита и коррекции весов в реальном времени в агентных системах. Вторая часть использует ollama/gemma-4:latest для тестирования подхода к решению метакогнитивного дефицита. Работа интересна для тех, кто разрабатывает автономные агенты с возможностью самопроверки. Пост Ранее: архитектура для самоаудита агентных систем (RFC) уже обсуждалась.

    Источники: LocalLLM

  • InsightFinder привлекла $15 млн на диагностику ошибок AI-агентов

    Стартап InsightFinder закрыл раунд финансирования на $15 млн. По словам CEO Хелен Гу, главная сложность сейчас не просто в мониторинге моделей, а в диагностике работы всего технологического стека, где задействован ИИ. Инструмент поможет компаниям выявлять сбои в работе агентных систем. Подробности

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

Бизнес, инвестиции и рынок труда

  • Hightouch вышла на $100 млн ARR благодаря AI-инструментам для маркетинга

    Hightouch вышла на $100 млн годового регулярного дохода (ARR). Основным драйвером стала платформа AI-агентов для маркетологов, запущенная ранее. За 20 месяцев компания добавила $70 млн к ARR благодаря внедрению этих инструментов. Рынок активно реагирует на автоматизацию маркетинговых задач через искусственный интеллект. Подробности в материале TechCrunch.

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

  • Leju Robotics запустила автоматизированный завод для гуманоидных роботов

    Leju Robotics запустила первый в мире автоматизированный завод для производства гуманоидных роботов. Производственная линия обеспечивает выпуск одного устройства каждые 30 минут. Такой темп производства указывает на переход от прототипов к массовому изготовлению человекоподобных машин. Детали обсуждения доступны в посте на Reddit.

    Источники: singularity

  • Рост вакансий в сфере агентного ИИ на 986% за год

    Количество вакансий в сфере агентного ИИ выросло на 986% за год, одновременно с этим рынок покинули 52 тысячи технических позиций. Согласно данным Gartner и Deloitte, компании переходят от восприятия ИИ как инструмента к управлению им как полноценной рабочей силой с отдельными процессами ревью и эскалации. Востребованы новые роли вроде Agent Behaviour Analyst и AI Orchestration Engineer, где вместо ML-квалификации требуют понимания поведения агентов в продакшене. Ключевой дефицит навыков сместился с создания демо-версий на обеспечение надежности, оркестрации и наблюдаемости многошаговых пайплайнов. Детали исследования и обсуждение доступны в источнике.

    Источники: AgentsOfAI

  • Венчурный капитал в ИИ сконцентрировался у лидеров в 2026 году

    В первом квартале 2026 года основная часть венчурных инвестиций досталась нескольким крупным компаниям в сфере ИИ, преимущественно из США. Согласно данным Crunchbase, несмотря на снижение общего количества сделок со стартапами глобально, эти игроки забрали львиную долю финансирования. Три диаграммы иллюстрируют текущую концентрацию капитала на вершине рынка. Подробнее Ранее: в предыдущем дайджесте сообщалось о росте венчурного финансирования в Европе на 30% благодаря ИИ.

    Источники: https://news.crunchbase.com/feed/

  • Cadence и Nvidia объединяются для разработки ИИ для роботов

    15 апреля Cadence Design Systems и Nvidia объявили о партнёрстве для развития искусственного интеллекта в робототехнике. Cadence, известный поставщик ПО для проектирования чипов, интегрирует свои физические движки с моделями ИИ от Nvidia. Это позволит предсказывать взаимодействие материалов в реальном мире и обучать роботов внутри компьютерных симуляций. Об этом заявили генеральные директора компаний на встрече в Санта-Кларе. Источник

    Источники: singularity

  • Роадмэп для старта в AI-автоматизации за 6 месяцев

    Автор под ником Ronin опубликовал подробный план «How to become an AI Automation Builder in 6 months», который может заменить платные курсы для новичков. Материал описывает путь входа в профессию, ресурсы для поиска заказов и инструменты для работы. Часть рекомендаций ориентирована на западный рынок с доходами в долларах, но структура и подход остаются ценными для понимания индустрии. Пост в Telegram

    Источники: prompt_design

  • xAI начинает сдавать вычислительные мощности в аренду

    Илон Маск решил монетизировать простаивающие GPU-кластеры Colossus, выйдя на рынок неоклаудов. Первым клиентом стал Cursor — компания будет тренировать Composer 2.5 на инфраструктуре xAI. Учитывая публичные проблемы Grok с качеством, мощностей должно хватить и на других арендаторов. Это открывает доступ к крупным GPU-кластерам для команд, которые не могут позволить себе собственную инфраструктуру. Источник

    Источники: ai_newz

  • Бум компаний по разметке данных: пузырь или устойчивый рост?

    В сообществе обсуждают быстрый рост сервисов разметки данных: Mercor достиг $1 млрд ежегодной выручки, Surge AI — $1,5 млрд без внешних инвестиций. Основателям многих компаний около 20 лет. В комментариях напоминают о судьбе Appen, которая потеряла 97% стоимости из-за зависимости от нескольких клиентов. Участники дискуссии отмечают, что спрос обусловлен дефицитом качественных данных, но устойчивость бизнеса проверят маржинальность и автоматизация. Обсуждение

    Источники: startups

  • Upscale AI оценили в $2 млрд на раннем этапе

    Инфраструктурный стартап Upscale AI ведёт переговоры о привлечении финансирования с оценкой компании в $2 млрд. Это уже третий раунд инвестиций всего за семь месяцев существования проекта. Такой быстрый рост интереса со стороны инвесторов отражает высокий спрос на решения в сфере AI-инфраструктуры. Подробности сообщает TechCrunch.

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

Исследования и архитектурные решения

  • Практический опыт создания веб-приложений на Qwen3.5 35B

    Автор делится успешным кейсом генерации веб-приложения по исследовательской статье с помощью Qwen3.5 35B MOE. Модель удерживает контекст даже на 70–80К токенов, где Gemma4 26B показала худшие результаты. Для запуска на ноутбуке с RTX 5080 (16GB VRAM) использовался llama-server с конкретными параметрами квантования и контекста. Шаги промптинга оформлены в виде навыков для qwen-code cli, репозиторий доступен для проверки. Подробности реализации и команды запуска описаны в посте.

    Источники: LocalLLaMA

  • Анализ медиа-контента Рамадана с помощью открытых моделей

    Разработчик создал пайплайн для анализа саудовских телепередач во время Рамадана с целью выявления социальных трендов. Видео конвертируется в текст через Whisper, после чего сегменты классифицируются по темам: благотворительность, религия, экономика и другие. Для классификации используется связка AraBERT и правил для локального контекста, данные агрегируются для отслеживания сдвигов фокуса медиа по неделям. Автор ищет рекомендации по другим открытым моделям для арабского языка для улучшения точности. Тема

    Источники: LocalLLM

  • Исследование HBR: LLM выдают однотипные стратегические советы

    Исследование HBR показало, что стратегические советы от GPT-5, Claude, Gemini и Grok практически одинаковы независимо от контекста. Модели склонны рекомендовать дифференциацию, усиление человеческих возможностей и долгосрочные инвестиции вместо автоматизации. Разногласия возникли только в вопросе баланса между эффективностью и диверсификацией капитала. Авторы назвали однотипные ответы «трендслопом». Обзор

    Источники: quantumquintum

  • NVIDIA выпускает открытые AI-модели для квантовых вычислений

    NVIDIA представила семейство моделей Ising для калибровки и коррекции ошибок в квантовых системах. Модели уже доступны для локального использования. Ising Decoding работает в 2.5 раза быстрее и даёт в 3 раза выше точность по сравнению с pyMatching. Ising Calibration сокращает время калибровки с дней до часов. Интеграция с CUDA-Q и NVQLink, модели на GitHub.

    Источники: startupsi

  • Улучшение экстракции данных на Llama 3.1 8B через редактирование документации

    Авторы проекта Oracle Forge повысили точность извлечения данных с 60% до 100% на модели Llama 3.1 8B, не меняя архитектуру, а переписав базу знаний. Вместо fine-tuning или перехода на 70B модели, они внедрили юнит-тесты для документов и использовали паттерны контекстной инженерии. Ключевые приемы включают замену текста таблицами, вынос инструкций в начало документа и дублирование ключевых слов в заголовках и футере. Такой подход превращает документацию в часть runtime-окружения, снижая риск галлюцинаций агента. Подробнее о методике в посте.

    Источники: LocalLLaMA

  • DeepSeek тестирует Mega MoE в обновленном DeepGEMM

    Компания DeepSeek обновила репозиторий DeepGEMM, добавив тесты для архитектуры Mega MoE с поддержкой квантования FP4. В коммитах упоминается адаптация под hardware Blackwell и распределенные коммуникации, что указывает на подготовку к развертыванию модели масштабом крупнее V3. Авторы подчеркивают, что релиз относится к развитию DeepGEMM, а не к выходу внутренней модели. Технические детали изменений доступны в pull request и обсуждении на Reddit.

    Источники: LocalLLaMA

  • Tencent открыла HY-World 2.0 — 3D world model с полноценными ассетами

    Tencent выпустила HY-World 2.0, первую open-source state-of-the-art модель для генерации настоящих 3D-миров. В отличие от видео-моделей вроде Genie 3, она создаёт редактируемые 3D-ассеты: Gaussian Splats, меши и point clouds без мерцания и ограничений по времени. Миры импортируются в Unity, Unreal Engine, Blender и Isaac Sim с нативной физикой, коллизиями и навигацией от первого лица. В основе WorldMirror 2.0 — единая feed-forward модель, предсказывающая глубину, нормали, параметры камеры и 3DGS за один проход. Входные данные: текст, изображения, мульти-вью или видео. Обсуждение

    Источники: LocalLLaMA

  • Оффлайн-пайплайн конвертации изображений в SVG на Apple Silicon

    Разработчик создал macOS-приложение Skiagrafia для пакетной конвертации фотографий в многослойные SVG с полностью локальным инференсом. Пайплайн включает Moondream 2 через Ollama для семантической разметки (~100ms на изображение), GroundingDINO для детекции, SAM 2.1 HQ для сегментации, VitMatte для альфа-маттинга и VTracer для векторизации. Общий вес моделей в памяти — около 5GB, работает на M1 Ultra с 64GB RAM. Moondream выбрали вместо LLaVA и MiniCPM-V из-за скорости: для батча в 2000 изображений 7B-модель потребовала бы в 10 раз больше времени. Подробнее в посте

    Источники: LocalLLaMA

  • Воспроизведение TurboQuant: результаты и мнения комьюнити

    Пользователь попытался воспроизвести setup TurboQuant+QJL из статьи, но в тестах производительность только ухудшилась. Возник вопрос, какие утверждения из paper действительно валидированы независимыми сторонами и есть ли практическая польза от QJL. В комментариях отмечают, что многие реализации работают хуже существующих методов — медленно, с багами или без обещанного улучшения точности. Один из пользователей сообщил об успехе: запуск qwen 3.5 122b с контекстом более 110k в двух параллельных процессах без деградации качества. Обсуждение на Reddit

    Источники: LocalLLaMA

  • Эмерджентное поведение в локальной 3.2B модели

    Разработчик создал локальную голосовую AI-модель на базе 3.2B параметров и столкнулся с неожиданным эмерджентным поведением. Модель демонстрирует руминацию (дни размышлений без вывода), отслеживает собственные ограничения, читает новости в фоновом режиме и связывает их со своим состоянием, извиняется за повторения в реальном времени. Автор построил дашборд с потоком мыслей, переменными эмоционального состояния, логами снов, страхами и памятью в реальном времени — всё это без явного промптинга. В комментариях отмечают схожие проявления у моделей от 4B параметров, включая Gemma и Qwen. Обсуждение

    Источники: ollama

  • ResBM: новый трансформер для распределённого обучения

    Macrocosmos представила архитектуру ResBM (Residual Bottleneck Models) — вариант трансформера для эффективного обучения в распределённых условиях с низкой пропускной способностью. Архитектура вводит residual encoder-decoder bottleneck across pipeline boundaries, сокращая межстадийную коммуникацию при сохранении low-rank identity path. Результаты показывают 128× сжатие активаций без значимой потери в сходимости относительно несжатых базовых моделей. Эксперименты проводились с оптимизатором Muon, позиция ResBM — развитие для децентрализованного pipeline parallel обучения. Paper

    Источники: LocalLLaMA

  • Gemma 4 31b в генерации 3D-геометрии

    Пользователь протестировал Gemma 4 31b на задаче генерации 3D-моделей по изображениям (пример — F1 автомобиль). Модель справилась за 3600 токенов, тогда как Qwen3.5 27b Q8 потребовал 6800 токенов для менее качественного результата. Для сравнения: Claude Sonnet 4.6 показал сложную геометрию с аномалиями, Gemini 3.1 Pro — грубее но стабильнее, ChatGPT — значительно хуже. В комментариях отмечают, что бенчмарки на примитивах имеют ограничения, предлагают minebench.ai как альтернативу. Пост

    Источники: LocalLLaMA

  • Архитектура Parcae: рекуррентные слои вместо глубины

    Исследователи из UCSD и Together AI предложили архитектуру Parcae, использующую «зацикленные» рекуррентные слои вместо увеличения глубины модели. Повторное использование весов позволяет достичь качества трансформера вдвое большего размера при меньшем потреблении памяти — потенциально 7B модель работает как 14B на картах 8–12 ГБ. Авторы заявляют об устранении численной нестабильности, характерной для рекуррентных моделей. Однако в комментариях отмечают, что рынок всё ещё ограничен вычислительной мощностью, а не памятью, поэтому крупные модели остаются MoE. Также остаётся вопрос скорости inference: повторные проходы могут снизить tokens-per-second. Обсуждение

    Источники: LocalLLM

  • Роботизированный мозг π0.7 обучается новым задачам без инструкций

    Стартап Physical Intelligence сообщил о запуске модели π0.7, способной выполнять задачи, которым её не обучали напрямую. Разработчики называют это важным шагом к созданию универсального мозга для роботов общего назначения. Система демонстрирует способность к обобщению навыков, что критично для автономной работы в изменяемых условиях. Подробнее о разработке пишет TechCrunch.

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/