вторник, 7 апреля 2026 г.

AI Digest: Инвестиционные рекорды, обновления моделей и локальные тесты

Anthropic удвоила run-rate revenue до 30 миллиардов долларов за два месяца, а инвестиции в искусственный интеллект Северной Америки в первом квартале 2026 года достигли рекордного уровня. Meta анонсировала планы выпустить open source версии новых моделей, в то время как MiniMax перенесла релиз M2.7. В технической части Gemma 4 26B проходит тестирование на Mac Mini M4 и CUDA, а HunyuanOCR оптимизирован для старых видеокарт.

Сделки и Индустрия

Скандал вокруг стартапа Medvi и публикация New York Times

Статья New York Times о успехе стартапа Medvi с выручкой $401 млн вызвала обвинения в мошенничестве и игнорировании фактов. Основатель Мэтью Галлахер использовал ИИ-инструменты для создания сервиса, но издание проигнорировало данные о фейковых фото и аккаунтах врачей. Сообщается о гражданском иске и обвинениях в продаже поддельных лекарств. Детали конфликта и критика подхода издания доступны в канале. Пост

Источники: TheEdinorogBlog
Meta планирует выпустить open source версии новых моделей

Axios сообщает, что Meta планирует выпустить open source версии своих следующих ИИ-моделей под руководством Александера Вонга. Компания намерена оставить некоторые компоненты проприетарными перед открытым релизом. Это решение вступает в противоречие с ожиданиями сообщества, которое ждет реального выхода, а не анонсов. В комментариях выражают скепсис и ждут фактического релиза. Пост

Источники: LocalLLaMA
WSJ: финансовые показатели OpenAI и Anthropic перед IPO

The Wall Street Journal получил доступ к конфиденциальным финансовым документам, которыми OpenAI и Anthropic делились с инвесторами перед раундами финансирования. Обе компании показывают два показателя прибыльности — с учётом затрат на обучение и без них. Инференс остаётся прибыльным даже с учётом субсидирования бесплатных пользователей. По плану OpenAI затраты на обучение должны составлять около 100% от выручки до 2029 года, а Anthropic уже снижает этот показатель до ~20% к 2029-му. Телеграм-пост

Источники: seeallochnaya
Anthropic удвоила run-rate revenue до $30B за два месяца

Anthropic отчиталась о росте run-rate revenue до $30 млрд на 6 апреля 2026 года. С начала января показатель вырос с $9 млрд через $14 млрд в феврале до $19 млрд в конце месяца. Компания также подтвердила закупку чипов Google TPU в огромных масштабах — несколько гигаватт мощности. Удвоение выручки заняло менее двух месяцев. Телеграм-пост

Источники: seeallochnaya
Испанский стартап Xoople привлёк $130 млн для создания спутниковых карт для ИИ

Компания Xoople объявила о закрытии раунда Series B на сумму $130 миллионов. Средства будут направлены на картографирование Земли с использованием искусственного интеллекта. В рамках сделки также было анонсировано сотрудничество с L3Harris, которая займётся производством сенсоров для космических аппаратов проекта. Проект направлен на создание детальных данных для обучения и работы ИИ-систем. Полная информация доступна в статье.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Anthropic отключил подписки на Claude в сторонних сервисах

С 4 апреля Anthropic отключила возможность использования подписок на Claude через сторонние сервисы, такие как OpenClaw. Теперь запросы к моделям тарифицируются по API-тарифам, что направлено на ограничение тяжелых сценариев использования, включая большие контексты и агентные рабочие процессы. В обход ограничений некоторые инструменты переписывают названия запросов, чтобы имитировать использование первого лица. Подробнее

Источники: startupsi
Инвестиции в ИИ Северной Америки в первом квартале 2026 года достигли рекорда

Компании США и Канады привлекли 252,6 млрд долларов на всех стадиях финансирования от seed до роста в первом квартале 2026 года по данным Crunchbase. Это более чем в три раза превышает сумму предыдущего квартала и является самым высоким показателем в истории. Данные охватывают раунды финансирования по всей Северной Америке. Отчет

Источники: https://news.crunchbase.com/feed/
MiniMax отложила релиз M2.7 до выходных из-за работы над open-source

Команда MiniMaxAI сообщила о переносе релиза модели M2.7, который планировался на текущую неделю, из-за незавершенной работы по инфраструктуре для open-sourcing. В обсуждении на Reddit сообщество отреагировало с пониманием, хотя некоторые пользователи отметили, что формулировка заголовка могла быть более корректной. Ожидается, что релиз состоится в эти выходные. Комментарии

Источники: LocalLLaMA
Сообщество ожидает обновления Minimax 2.7

Пользователи r/LocalLLaMA с нетерпением ждут обновления модели Minimax 2.7. В комментариях отмечают эффективность работающей версии MiniMax в 24/7 agentic loop, называя её невероятной. Даже критики предыдущих версий, включая M2.5, признают, что релиз M2.7 заслуживает внимания. Полное обсуждение.

Источники: LocalLLaMA
Прогноз выручки Anthropic и влияние на цены

В декабре Anthropic планировала выручку $18 млрд за 2026 год, однако текущие показатели уже превысили этот уровень. При отсутствии роста компания заработала около $22,5 млрд за 9 месяцев из 12. Основатель компании Dario Amodei закупает вычислительные мощности исходя из пессимистичного прогноза, что может вызвать резкий подъём стоимости услуг. Материал.

Источники: seeallochnaya

Модели и Исследования

Сравнение квантования Qwen3.5 4B: KLD против скорости

Проведено сравнение квантования модели Qwen3.5 4B на ноутбуке с Intel 258V. Тест оценивал баланс между скоростью (tk/s) и качеством (KLD) для различных форматов GGUF. Лучшим соотношением качества к размеру стал Bartowski Q5_K_M с KLD/GB 0.00416, а минимальной дивергенцией — Unsloth Q6_K (0.00364). В комментариях отмечают, что такие небольшие различия KLD могут не проявляться на других датасетах, и советуют проверять агентов. Детали теста

Источники: LocalLLaMA
Увеличение контекста для Gemma 4 26B с использованием Q8 mmproj

Найден способ увеличить контекстное окно для Gemma 4 26B, используя квантованный визуальный модуль Q8_0 вместо F16. Это позволяет расширить контекст на 30K токенов и достичь 60K+ с включенным vision-модулем без потери качества. Ссылка на файл mmproj доступна на HuggingFace. Также упоминается исправление регрессии в llama.cpp, которое скоро будет в мейн-стрим. Совет по контексту

Источники: LocalLLaMA
Тестирование OpenCode с локальными моделями: Qwen и Gemma

Запущены тесты работы OpenCode с различными селф-хостед моделями: Qwen 3.5, 3.6, Gemma 4, Nemotron 3 и GLM-4.7 Flash. Задачи включали создание CLI и миграцию сайтов. Qwen 3.5 27B и Gemma 4 26B показали результаты, сопоставимые с облачными бесплатными версиями OpenCode Zen. Скорость работы проверялась на RTX 4080, где авторы отмечают, что fine-tuning моделей может повысить производительность. Результаты сравнения

Источники: LocalLLaMA
Gemma 4 26B MoE в роли агента для умного дома

Пользователь протестировал Gemma 4 26B MoE в сценариях умного дома, сравнивая её с Gemini-3-Flash. Модель успешно выполняла задачу с 6 вызовами инструментов для получения списка продуктов, чего не удавалось достичь ранее с другими локальными моделями. Gemma 4 работает быстро и справляется со сложными агентами, хотя в комментариях некоторые пользователи сообщают о проблемах с циклами и вызовами инструментов в llama.cpp. Обзор агентов

Источники: LocalLLaMA
HunyuanOCR 1B: OCR для старых GPU с GTX 1060

Новая модель HunyuanOCR 1B предлагает производительность OCR на бюджетном железе: около 90 токенов/сек на GTX 1060 с почти идеальной точностью. GGUF версии доступны через HuggingFace, что упрощает локальный запуск без необходимости в 4090. Однако в комментариях отмечают, что модель имеет ограничения по лицензированию в ЕС и Великобритании, предлагая альтернативы вроде GLM-OCR или LightOnOCR 2 схожего размера и качества. Ссылки на GGUF и оригинальную модель доступны в оригинальном посте.

Источники: LocalLLaMA
Gemma 4 26b на Mac Mini M4: честный обзор

Тестирование квантованной модели Gemma 4 26b в Ollama показало хорошие результаты для структурированных задач и генерации кода. Однако в задачах с многоступенчатой логикой модель склонна к ошибкам и циклам. Комментарии отмечают, что стандартные настройки Ollama без imatrix снижают качество, предлагая LM Studio или llama.cpp. Рекомендуется направлять сложные запросы в облако, а простые выполнять локально. Пост

Источники: LocalLLaMA
Google DeepMind опубликовала систематизацию атак на автономных агентов

Исследователи Google DeepMind представили первую таксономию из шести категорий атак, где вредоносные сайты могут обнаруживать AI-агентов и показывать им скрытое содержимое, отличное от того, что видят люди. Атаки включают инструкции в HTML-комментариях, стеганографию в изображениях, команды в PDF-метаданных, отравление памяти и перехват целей в многоагентных системах. Сайты могут детектировать агенты через тайминг, поведение или user-agent строки, подменяя данные без необходимости взлома модели. В обсуждениях сообщество рекомендует создавать собственные базы знаний из научных статей и книг для снижения зависимости от вирусного контента Reddit-пост.

Источники: AgentsOfAI
Gemma-4-E4B показывает слабые результаты в задачах компьютерного зрения

Пользователь протестировал модель Gemma-4-E4B на наборе из 100 визуальных задач, включая извлечение текста со скриншотов и географические вопросы. Модель набрала 0.27 баллов против 0.5 у Qwen3.5-4b. В тестах с распознаванием объектов, например, на фото с чайкой, модель выдавала неверные координаты (Рим вместо Венеции) при использовании llama.cpp, хотя библиотека transformers давала чуть лучшие результаты. В обсуждении комментеры предполагают, что проблема может быть в нестабильности реализации llama.cpp для Gemma 4 или недостатке внутренней информации в малой модели, предлагая попробовать версию 26b. Детали тестов доступны в посте.

Источники: LocalLLaMA
Концепция LLM Knowledge Base для организации данных ИИ-агентами

Андрей Карпати описал систему LLM Knowledge Base — структурированные коллекции markdown-файлов с перекрестными ссылками, созданные для взаимодействия агентов. Пример проекта Farzapedia показывает, как LLM может превратить личные записи в сотни вики-статей с бэклинками, повторяющими структуру Википедии. Создать подобную базу можно, используя воркфлоу Карпати и передав файл идеи в Claude Code или OpenClaw. Пост

Источники: prompt_design

Инструменты, Железо и Тесты

Gemma 4 локальный CUDA: тонкости точности и производительности

Энтузиаст успешно настроил Gemma 4 для локального запуска на CUDA с поддержкой как BF16 float, так и GGUF квантования. На RTX 3090 модель выдаёт 110 токенов/сек в коротких генерациях (BF16) и до 170 токенов/сек с GGUF квантованием Q4_K_M. Ключевая проблема — Gemma 4 использует attention_scale=1.0 вместо стандартного 1/sqrt(d_k), что делает её в 22 раза чувствительнее к ошибкам точности. Для корректной работы требуется отсутствие конвертации dtypes на границе KV cache: BF16 модель = BF16 KV cache с F32 внутренней attention математикой. Полные детали конфигурации в оригинальном посте.

Источники: LocalLLaMA
336 раундов автономного анализа уязвимостей на смартфоне

Пользователь запустил 4-агентную red-team петлю целиком в Termux на Redmi Note 14 Pro+ с 8GB RAM. Каждый раунд включает 4 персонажа: Dominus ищет уязвимость, Axiom добавляет техническую деталь, Cipher идентифицирует конкретный flaw, Vector предлагает инструмент для mitigation. Система автоматически подтягивает CVE из CISA KEV каталога, включая CVE-2026-020963 (Windows buffer overflow). Используется MNN Chat с Qwen2.5-Coder-1.5B (~11 tok/s) и кастомный Python оркестратор без подключения к интернету. Код оркестратора доступен в комментариях поста.

Источники: LocalLLM
Настройка веб-поиска для Qwen 3.5 в LM Studio

Для локального LLM с доступом к интернету в LM Studio сообщество рекомендует несколько подходов. Можно использовать SearXNG как локальный веб-сервис и настроить MCP в lmstudio.json для подключения к http://localhost:8000. Некоторые пользователи создают скрипты с MCP для Bing и добавляют инструменты через UI LM Studio как переключатель. AnytimeLLM также предлагает встроенный поиск, совместимый с моделями из LM Studio. Пример конфигурации MCP для SearXNG доступен в обсуждении темы.

Источники: LocalLLM
Удаленный доступ к Ollama с iPhone через облачный туннель

Пользователь описал настройку удаленного доступа к локальным моделям Ollama с iPhone 15 Pro Max для работы с Gemma4:26b и qwen3.5. Подключение реализовано через приложение Reins, настроенное на Mac M1 Max с использованием Cloudflare tunnel и Nginx Proxy Manager на Linux сервере. В комментариях предлагают альтернативные стеки, такие как Llama.cpp с Open-Webui и Tailscale, для улучшения производительности. Пост

Источники: ollama
InnerZero: десктопное приложение для Ollama с оркестрацией инструментов

Разработчик выпустил InnerZero — приложение для Windows, которое оборачивает Ollma слоем оркестрации с 30+ инструментами для AI: веб-поиск, управление файлами, калькулятор, чтение экрана, таймеры, заметки и голосовой режим с локальными STT/TTS. Система автоматически подбирает модель под GPU, поддерживает офлайн-энциклопедию и память между сессиями. В настройках можно подключить API-ключи для облачных моделей, но локальный режим работает полностью офлайн. В комментариях задают вопросы о версии для Linux и открытии исходного кода Reddit-пост.

Источники: ollama
Эффективные промпты для тестирования логики локальных моделей

Автор собирает набор вопросов для проверки качества локальных моделей, избегая известных из интернета данных. Примеры включают проверку исторических фактов (Apple A6, Pentium D) и бытовую логику (например, «Машина в 50 метрах: ехать или идти?»). Мелкие модели вроде Gemma 4b часто ошибаются в таких задачах, в то время как 26B A4B справляется лучше, но тоже имеет уязвимости. В комментариях пользователи предлагают промпты на проверку Theory of Mind, а также варианты с добавлением контекста, например, «я полноват», чтобы проверить ограничения восприятия. Тесты помогают выявить пробелы в понимании модели на сайте.

Источники: LocalLLaMA
Проблемы с использованием Gemma 4 в VSCode через Ollama

Пользователь столкнулся с невозможностью изменения файлов с помощью модели Gemma 4 в среде VSCode при работе через Ollama. Чат-функция работает, но инструменты для модификации кода не активируются. В обсуждениях отмечают, что расширения вроде Copilot Chat могут скрывать малые модели из-за проблем с tool calls. Рекомендуют попробовать альтернативные расширения, такие как Continue.dev, или перезагрузить окно разработчика (Ctrl+Shift+P -> Developer: Reload Window). Также есть опыт успешной работы инструментов в Open Code. Обсуждение находится тут.

Источники: ollama