вторник, 7 апреля 2026 г.
AI Digest: Инвестиционные рекорды, обновления моделей и локальные тесты
Anthropic удвоила run-rate revenue до 30 миллиардов долларов за два месяца, а инвестиции в искусственный интеллект Северной Америки в первом квартале 2026 года достигли рекордного уровня. Meta анонсировала планы выпустить open source версии новых моделей, в то время как MiniMax перенесла релиз M2.7. В технической части Gemma 4 26B проходит тестирование на Mac Mini M4 и CUDA, а HunyuanOCR оптимизирован для старых видеокарт.
Сделки и Индустрия
-
Скандал вокруг стартапа Medvi и публикация New York Times
Статья New York Times о успехе стартапа Medvi с выручкой $401 млн вызвала обвинения в мошенничестве и игнорировании фактов. Основатель Мэтью Галлахер использовал ИИ-инструменты для создания сервиса, но издание проигнорировало данные о фейковых фото и аккаунтах врачей. Сообщается о гражданском иске и обвинениях в продаже поддельных лекарств. Детали конфликта и критика подхода издания доступны в канале. Пост
Источники: TheEdinorogBlog
-
Meta планирует выпустить open source версии новых моделей
Axios сообщает, что Meta планирует выпустить open source версии своих следующих ИИ-моделей под руководством Александера Вонга. Компания намерена оставить некоторые компоненты проприетарными перед открытым релизом. Это решение вступает в противоречие с ожиданиями сообщества, которое ждет реального выхода, а не анонсов. В комментариях выражают скепсис и ждут фактического релиза. Пост
Источники: LocalLLaMA
-
WSJ: финансовые показатели OpenAI и Anthropic перед IPO
The Wall Street Journal получил доступ к конфиденциальным финансовым документам, которыми OpenAI и Anthropic делились с инвесторами перед раундами финансирования. Обе компании показывают два показателя прибыльности — с учётом затрат на обучение и без них. Инференс остаётся прибыльным даже с учётом субсидирования бесплатных пользователей. По плану OpenAI затраты на обучение должны составлять около 100% от выручки до 2029 года, а Anthropic уже снижает этот показатель до ~20% к 2029-му. Телеграм-пост
Источники: seeallochnaya
-
Anthropic удвоила run-rate revenue до $30B за два месяца
Anthropic отчиталась о росте run-rate revenue до $30 млрд на 6 апреля 2026 года. С начала января показатель вырос с $9 млрд через $14 млрд в феврале до $19 млрд в конце месяца. Компания также подтвердила закупку чипов Google TPU в огромных масштабах — несколько гигаватт мощности. Удвоение выручки заняло менее двух месяцев. Телеграм-пост
Источники: seeallochnaya
-
Испанский стартап Xoople привлёк $130 млн для создания спутниковых карт для ИИ
Компания Xoople объявила о закрытии раунда Series B на сумму $130 миллионов. Средства будут направлены на картографирование Земли с использованием искусственного интеллекта. В рамках сделки также было анонсировано сотрудничество с L3Harris, которая займётся производством сенсоров для космических аппаратов проекта. Проект направлен на создание детальных данных для обучения и работы ИИ-систем. Полная информация доступна в статье.
Источники: https://techcrunch.com/category/artificial-intelligence/feed/
-
Anthropic отключил подписки на Claude в сторонних сервисах
С 4 апреля Anthropic отключила возможность использования подписок на Claude через сторонние сервисы, такие как OpenClaw. Теперь запросы к моделям тарифицируются по API-тарифам, что направлено на ограничение тяжелых сценариев использования, включая большие контексты и агентные рабочие процессы. В обход ограничений некоторые инструменты переписывают названия запросов, чтобы имитировать использование первого лица. Подробнее
Источники: startupsi
-
Инвестиции в ИИ Северной Америки в первом квартале 2026 года достигли рекорда
Компании США и Канады привлекли 252,6 млрд долларов на всех стадиях финансирования от seed до роста в первом квартале 2026 года по данным Crunchbase. Это более чем в три раза превышает сумму предыдущего квартала и является самым высоким показателем в истории. Данные охватывают раунды финансирования по всей Северной Америке. Отчет
Источники: https://news.crunchbase.com/feed/
-
MiniMax отложила релиз M2.7 до выходных из-за работы над open-source
Команда MiniMaxAI сообщила о переносе релиза модели M2.7, который планировался на текущую неделю, из-за незавершенной работы по инфраструктуре для open-sourcing. В обсуждении на Reddit сообщество отреагировало с пониманием, хотя некоторые пользователи отметили, что формулировка заголовка могла быть более корректной. Ожидается, что релиз состоится в эти выходные. Комментарии
Источники: LocalLLaMA
-
Сообщество ожидает обновления Minimax 2.7
Пользователи r/LocalLLaMA с нетерпением ждут обновления модели Minimax 2.7. В комментариях отмечают эффективность работающей версии MiniMax в 24/7 agentic loop, называя её невероятной. Даже критики предыдущих версий, включая M2.5, признают, что релиз M2.7 заслуживает внимания. Полное обсуждение.
Источники: LocalLLaMA
-
Прогноз выручки Anthropic и влияние на цены
В декабре Anthropic планировала выручку $18 млрд за 2026 год, однако текущие показатели уже превысили этот уровень. При отсутствии роста компания заработала около $22,5 млрд за 9 месяцев из 12. Основатель компании Dario Amodei закупает вычислительные мощности исходя из пессимистичного прогноза, что может вызвать резкий подъём стоимости услуг. Материал.
Источники: seeallochnaya
Модели и Исследования
-
Сравнение квантования Qwen3.5 4B: KLD против скорости
Проведено сравнение квантования модели Qwen3.5 4B на ноутбуке с Intel 258V. Тест оценивал баланс между скоростью (tk/s) и качеством (KLD) для различных форматов GGUF. Лучшим соотношением качества к размеру стал Bartowski Q5_K_M с KLD/GB 0.00416, а минимальной дивергенцией — Unsloth Q6_K (0.00364). В комментариях отмечают, что такие небольшие различия KLD могут не проявляться на других датасетах, и советуют проверять агентов. Детали теста
Источники: LocalLLaMA
-
Увеличение контекста для Gemma 4 26B с использованием Q8 mmproj
Найден способ увеличить контекстное окно для Gemma 4 26B, используя квантованный визуальный модуль Q8_0 вместо F16. Это позволяет расширить контекст на 30K токенов и достичь 60K+ с включенным vision-модулем без потери качества. Ссылка на файл mmproj доступна на HuggingFace. Также упоминается исправление регрессии в llama.cpp, которое скоро будет в мейн-стрим. Совет по контексту
Источники: LocalLLaMA
-
Тестирование OpenCode с локальными моделями: Qwen и Gemma
Запущены тесты работы OpenCode с различными селф-хостед моделями: Qwen 3.5, 3.6, Gemma 4, Nemotron 3 и GLM-4.7 Flash. Задачи включали создание CLI и миграцию сайтов. Qwen 3.5 27B и Gemma 4 26B показали результаты, сопоставимые с облачными бесплатными версиями OpenCode Zen. Скорость работы проверялась на RTX 4080, где авторы отмечают, что fine-tuning моделей может повысить производительность. Результаты сравнения
Источники: LocalLLaMA
-
Gemma 4 26B MoE в роли агента для умного дома
Пользователь протестировал Gemma 4 26B MoE в сценариях умного дома, сравнивая её с Gemini-3-Flash. Модель успешно выполняла задачу с 6 вызовами инструментов для получения списка продуктов, чего не удавалось достичь ранее с другими локальными моделями. Gemma 4 работает быстро и справляется со сложными агентами, хотя в комментариях некоторые пользователи сообщают о проблемах с циклами и вызовами инструментов в llama.cpp. Обзор агентов
Источники: LocalLLaMA
-
HunyuanOCR 1B: OCR для старых GPU с GTX 1060
Новая модель HunyuanOCR 1B предлагает производительность OCR на бюджетном железе: около 90 токенов/сек на GTX 1060 с почти идеальной точностью. GGUF версии доступны через HuggingFace, что упрощает локальный запуск без необходимости в 4090. Однако в комментариях отмечают, что модель имеет ограничения по лицензированию в ЕС и Великобритании, предлагая альтернативы вроде GLM-OCR или LightOnOCR 2 схожего размера и качества. Ссылки на GGUF и оригинальную модель доступны в оригинальном посте.
Источники: LocalLLaMA
-
Gemma 4 26b на Mac Mini M4: честный обзор
Тестирование квантованной модели Gemma 4 26b в Ollama показало хорошие результаты для структурированных задач и генерации кода. Однако в задачах с многоступенчатой логикой модель склонна к ошибкам и циклам. Комментарии отмечают, что стандартные настройки Ollama без imatrix снижают качество, предлагая LM Studio или llama.cpp. Рекомендуется направлять сложные запросы в облако, а простые выполнять локально. Пост
Источники: LocalLLaMA
-
Google DeepMind опубликовала систематизацию атак на автономных агентов
Исследователи Google DeepMind представили первую таксономию из шести категорий атак, где вредоносные сайты могут обнаруживать AI-агентов и показывать им скрытое содержимое, отличное от того, что видят люди. Атаки включают инструкции в HTML-комментариях, стеганографию в изображениях, команды в PDF-метаданных, отравление памяти и перехват целей в многоагентных системах. Сайты могут детектировать агенты через тайминг, поведение или user-agent строки, подменяя данные без необходимости взлома модели. В обсуждениях сообщество рекомендует создавать собственные базы знаний из научных статей и книг для снижения зависимости от вирусного контента Reddit-пост.
Источники: AgentsOfAI
-
Gemma-4-E4B показывает слабые результаты в задачах компьютерного зрения
Пользователь протестировал модель Gemma-4-E4B на наборе из 100 визуальных задач, включая извлечение текста со скриншотов и географические вопросы. Модель набрала 0.27 баллов против 0.5 у Qwen3.5-4b. В тестах с распознаванием объектов, например, на фото с чайкой, модель выдавала неверные координаты (Рим вместо Венеции) при использовании llama.cpp, хотя библиотека transformers давала чуть лучшие результаты. В обсуждении комментеры предполагают, что проблема может быть в нестабильности реализации llama.cpp для Gemma 4 или недостатке внутренней информации в малой модели, предлагая попробовать версию 26b. Детали тестов доступны в посте.
Источники: LocalLLaMA
-
Концепция LLM Knowledge Base для организации данных ИИ-агентами
Андрей Карпати описал систему LLM Knowledge Base — структурированные коллекции markdown-файлов с перекрестными ссылками, созданные для взаимодействия агентов. Пример проекта Farzapedia показывает, как LLM может превратить личные записи в сотни вики-статей с бэклинками, повторяющими структуру Википедии. Создать подобную базу можно, используя воркфлоу Карпати и передав файл идеи в Claude Code или OpenClaw. Пост
Источники: prompt_design
Инструменты, Железо и Тесты
-
Gemma 4 локальный CUDA: тонкости точности и производительности
Энтузиаст успешно настроил Gemma 4 для локального запуска на CUDA с поддержкой как BF16 float, так и GGUF квантования. На RTX 3090 модель выдаёт 110 токенов/сек в коротких генерациях (BF16) и до 170 токенов/сек с GGUF квантованием Q4_K_M. Ключевая проблема — Gemma 4 использует attention_scale=1.0 вместо стандартного 1/sqrt(d_k), что делает её в 22 раза чувствительнее к ошибкам точности. Для корректной работы требуется отсутствие конвертации dtypes на границе KV cache: BF16 модель = BF16 KV cache с F32 внутренней attention математикой. Полные детали конфигурации в оригинальном посте.
Источники: LocalLLaMA
-
336 раундов автономного анализа уязвимостей на смартфоне
Пользователь запустил 4-агентную red-team петлю целиком в Termux на Redmi Note 14 Pro+ с 8GB RAM. Каждый раунд включает 4 персонажа: Dominus ищет уязвимость, Axiom добавляет техническую деталь, Cipher идентифицирует конкретный flaw, Vector предлагает инструмент для mitigation. Система автоматически подтягивает CVE из CISA KEV каталога, включая CVE-2026-020963 (Windows buffer overflow). Используется MNN Chat с Qwen2.5-Coder-1.5B (~11 tok/s) и кастомный Python оркестратор без подключения к интернету. Код оркестратора доступен в комментариях поста.
Источники: LocalLLM
-
Настройка веб-поиска для Qwen 3.5 в LM Studio
Для локального LLM с доступом к интернету в LM Studio сообщество рекомендует несколько подходов. Можно использовать SearXNG как локальный веб-сервис и настроить MCP в lmstudio.json для подключения к http://localhost:8000. Некоторые пользователи создают скрипты с MCP для Bing и добавляют инструменты через UI LM Studio как переключатель. AnytimeLLM также предлагает встроенный поиск, совместимый с моделями из LM Studio. Пример конфигурации MCP для SearXNG доступен в обсуждении темы.
Источники: LocalLLM
-
Удаленный доступ к Ollama с iPhone через облачный туннель
Пользователь описал настройку удаленного доступа к локальным моделям Ollama с iPhone 15 Pro Max для работы с Gemma4:26b и qwen3.5. Подключение реализовано через приложение Reins, настроенное на Mac M1 Max с использованием Cloudflare tunnel и Nginx Proxy Manager на Linux сервере. В комментариях предлагают альтернативные стеки, такие как Llama.cpp с Open-Webui и Tailscale, для улучшения производительности. Пост
Источники: ollama
-
InnerZero: десктопное приложение для Ollama с оркестрацией инструментов
Разработчик выпустил InnerZero — приложение для Windows, которое оборачивает Ollma слоем оркестрации с 30+ инструментами для AI: веб-поиск, управление файлами, калькулятор, чтение экрана, таймеры, заметки и голосовой режим с локальными STT/TTS. Система автоматически подбирает модель под GPU, поддерживает офлайн-энциклопедию и память между сессиями. В настройках можно подключить API-ключи для облачных моделей, но локальный режим работает полностью офлайн. В комментариях задают вопросы о версии для Linux и открытии исходного кода Reddit-пост.
Источники: ollama
-
Эффективные промпты для тестирования логики локальных моделей
Автор собирает набор вопросов для проверки качества локальных моделей, избегая известных из интернета данных. Примеры включают проверку исторических фактов (Apple A6, Pentium D) и бытовую логику (например, «Машина в 50 метрах: ехать или идти?»). Мелкие модели вроде Gemma 4b часто ошибаются в таких задачах, в то время как 26B A4B справляется лучше, но тоже имеет уязвимости. В комментариях пользователи предлагают промпты на проверку Theory of Mind, а также варианты с добавлением контекста, например, «я полноват», чтобы проверить ограничения восприятия. Тесты помогают выявить пробелы в понимании модели на сайте.
Источники: LocalLLaMA
-
Проблемы с использованием Gemma 4 в VSCode через Ollama
Пользователь столкнулся с невозможностью изменения файлов с помощью модели Gemma 4 в среде VSCode при работе через Ollama. Чат-функция работает, но инструменты для модификации кода не активируются. В обсуждениях отмечают, что расширения вроде Copilot Chat могут скрывать малые модели из-за проблем с tool calls. Рекомендуют попробовать альтернативные расширения, такие как Continue.dev, или перезагрузить окно разработчика (Ctrl+Shift+P -> Developer: Reload Window). Также есть опыт успешной работы инструментов в Open Code. Обсуждение находится тут.
Источники: ollama