← все дайджесты

суббота, 30 мая 2026 г.

AI Digest: Anthropic привлекла $65 млрд и выпустила Opus 4.8, Groq перешёл к инференсу и Google купил Contextual AI

Anthropic закрыла раунд на $65 млрд при оценке $900 млрд и выпустила Claude Opus 4.8 с Dynamic Workflows для агентской разработки. Groq привлекла $650 млн и сместила фокус с hardware на инференс. Google DeepMind приобрел команду Contextual AI за $90 млн. Qwen3.6-35B-A3B теперь запускается на 8-12GB VRAM с оптимизацией Krasis. Появились новые инструменты наблюдаемости за агентами без SDK и плагин security-guidance для Claude Code.

Финансирование и корпоративные сделки

  • Выручка Glean превысила $300 млн на фоне спроса на сокращение затрат

    Стартап корпоративного ИИ-поиска Glean утроил годовую выручку, достигнув отметки в $300 млн. Ключевым аргументом для клиентов стало сокращение бюджетов с помощью ИИ, что помогло компании расти даже на фоне входа в категорию крупных технологических гигантов. Детали роста и стратегии описаны в TechCrunch.

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

  • Google DeepMind приобрел команду Contextual AI за $90 млн

    Google DeepMind нанял команду стартапа Contextual AI за $80–90 млн, что соответствует сумме их последнего раунда финансирования в 2024 году. Основатели проекта вышли из Meta FAIR и специализировались на RAG и извлечении индустриального контекста, но не смогли найти массового клиента и стать прибыльными. Сделка подтверждает тренд на покупку технологических команд крупными игроками, аналогичный эпохе облачных вычислений 15–20 лет назад. Сейчас гиганты ищут платформенные компоненты для работы с тяжелыми энтерпрайз-контрактами. Источник

    Источники: quantumquintum

  • Сундар Пичаи спрогнозировал появление мощного ИИ через три года

    В интервью The Verge гендиректор Google ответил на вопросы о влиянии ИИ на поисковый трафик и создании AGI. Пичаи отметил, что поисковик приоритизирует контент изданий, на которые подписан пользователь, а низкокачественные клики фильтруются автоматически. Это создаст сложности для создателей рерайта, но улучшит качество выдачи для остальных. На вопрос о сроках появления AGI глава Google ответил, что через три года технологии будут очень мощными, независимо от терминологии. Интервью

    Источники: techsparks

  • Anthropic привлекла $65 млрд при оценке $900 млрд и ARR $47 млрд

    Компания отчиталась о привлечении $65 миллиардов долларов, достигнув ежегодной повторяющейся выручки (ARR) в $47 миллиардов. Оценка компании составила $900 млрд, что задает высокую планку для конкурентов, включая OpenAI, чьи точные метрики пока не раскрыты. Рост ARR указывает на высокий спрос на услуги компании, если он сохранится на уровне последнего месяца. В сообществе отмечают интерес к сравнению этих финансовых показателей с данными других лидеров рынка. Данные

    Источники: seeallochnaya

  • Groq привлекает $650 млн и переходит от hardware к инференсу

    Производитель чипов Groq планирует привлечь $650 млн внутреннего финансирования. Компания меняет стратегию: фокус смещается с производства hardware на AI inference — оптимизацию того, как модели отвечают на запросы. Это происходит на фоне крупных сделок в отрасли, включая недавнее соглашение Nvidia на $20 млрд. Подробнее

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

  • Стартап XCENA собрал $135 млн на борьбу с узким местом в памяти ИИ

    Южнокорейский чипмейкер XCENA привлёк $135 млн, делая ставку на решение проблемы памяти, а не вычислительной мощности. Основатели компании уверены, что именно память становится главным узким местом для развития ИИ, а не вычислительная мощность. Инвесторы поддержали ставку стартапа на развитие технологий работы с памятью. Статья

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

Релизы моделей: Claude Opus 4.8 и обновления

  • Anthropic выпустили Claude Opus 4.8

    Anthropic выпустили новую версию модели Opus 4.8. По заявлению разработчиков, модель стала «более честной» и реже искажает факты в попытке угодить пользователю. Также сообщается о сбросе лимитов использования. Подробнее о релизе в канале источника и официальном блоге.

    Источники: prompt_design

  • Выход Claude Opus 4.8 и снижение цен на fast-режим

    Anthropic выпустила обновление модели, которая стала умнее на токен и честнее в ответах, реже игнорируя проблемы или признавая незнание. Лимиты в Claude Code увеличены, а стоимость токенов в обычном режиме осталась прежней. При этом fast-режим ускорили и сделали в три раза дешевле предыдущих версий. Также компания анонсировала релиз модели Mythos в ближайшие несколько недель. Источник

    Источники: ai_newz

  • Детали обновления Claude Opus 4.8 и гранулярность рассуждений

    В обновлении появилась гранулярная разбивка длины рассуждений по аналогии с ChatGPT. Fast-режим теперь генерирует токены в 2.5 раза быстрее, а его стоимость снизилась в три раза — ранее он был в 6 раз дороже базового, сейчас разница сократилась до 2 раз. Разработчики отмечают улучшение честности модели и планируют выпуск нового класса интеллекта выше уровня Opus в ближайшие недели. Обсуждение

    Источники: seeallochnaya

  • Anthropic выпустила Claude Opus 4.8 с улучшенной работой с кодом

    Новая модель Claude Opus 4.8 доступна по той же цене API, при этом быстрый режим стал втрое дешевле. Разработчики отмечают, что модель в четыре раза реже пропускает баги в собственном коде без замечаний. В Claude Code добавлена поддержка сотен параллельных субагентов, а на claude.ai появился слайдер настройки усилий от Low до Max. Версии Sonnet и Haiku остались на уровнях 4.6 и 4.5 соответственно, а модели класса Mythos обещают выпустить в публичный доступ в ближайшие недели. Подробности

    Источники: ai_for_devs

  • Opus 4.8: 69.2% на SWE Pro и контроль усилия рассуждений

    Новая модель Opus 4.8 набрала 69.2% на бенчмарке SWE Pro, лучше справляется с длинными задачами по кодированию и в 4 раза чаще находит и исправляет собственные ошибки. В Claude.ai и Cowork появилась возможность контролировать усилие рассуждений: высокий уровень даёт более глубокую проработку, низкий — быстрые ответы. Быстрый режим для Opus 4.8 стал в 3 раза дешевле при сохранении общего уровня цен. Подробнее

    Источники: startupsi

  • Anthropic обновила Claude: Opus 4.8 и динамические workflow

    Новая модель Opus 4.8 набрала 69.2% на SWE Pro и лучше справляется с длинными задачами кодирования. Она находит и исправляет собственные ошибки в 4 раза чаще, следуя инструкциям надежнее предыдущих версий. Claude Code получил динамические workflow: агент координирует сотни субагентов для задач, занимающих дни, как при миграции Bun с Zig на Rust. Пользователи Claude.ai и Cowork теперь контролируют усилие рассуждения, выбирая между глубиной и скоростью ответа. Быстрый режим для Opus 4.8 стал в 3 раза дешевле при сохранении общего прайсинга. Источник

    Источники: startupsi

Агентские workflows и инструменты Claude Code

  • Плагин security-guidance для Claude Code

    В Claude Code появился плагин для поиска уязвимостей под названием `security-guidance`. Устанавливается из маркетплейса через `/plugins` и работает через hooks: проверяет рискованные паттерны при редактировании файлов, анализирует полный diff после каждой итерации модели, читает окружающий код при коммите для валидации. По внутренним данным Anthropic, на PR-ах с плагином замечания по безопасности стали появляться на 30-40% реже. Подробнее

    Источники: ai_for_devs

  • Anthropic выпустила security-плагин для Claude Code

    Anthropic добавила в Claude Code инструмент для проверки кода на уязвимости во время редактирования. Плагин срабатывает при записи и изменении файлов, выявляя проблемы до создания pull requests — это сокращает количество замечаний на финальной ревью до 40%. Инструмент обнаруживает очевидные уязвимости безопасности, помечает небезопасные паттерны кода и предотвращает модификацию чувствительных файлов агентами. Доступен бесплатно для всех пользователей. Источник

    Источники: startupsi

  • Dynamic workflows в Claude Code

    В Claude Code появилась функция Dynamic workflows в режиме research preview. Модель может планировать задачи и запускать сотни параллельных сабагентов в рамках одной сессии. Для активации режима достаточно использовать ключевое слово "workflow" в запросе. Техническая документация доступна на сайте проекта, анонс в телеграм-канале.

    Источники: prompt_design

  • Разбор whitepaper Сбера про агентную разработку

    На Хабре опубликовали детальный анализ документа «AI-Disrupt PDLC» объемом 337 тысяч знаков. Автор выделил ключевые метрики: мультиагентные архитектуры потребляют в 15 раз больше токенов, чем обычный чат, что требует внедрения FinOps-предохранителей. Телеметрия показала, что в 93% случаев инженеры автоматически подтверждают действия агентов, не вчитываясь, поэтому предлагается переход на пакетные одобрения и адаптивную лестницу автономии. Сейчас Сбер находится на 3-м уровне зрелости из 5, доля принятого AI-кода через GigaCode достигла 69%. Также затронуты культурные изменения, включая «парадокс джунов» и трансформацию роли сеньоров. Подробнее

    Источники: ai_newz

  • Настройки Claude Code и тесты на SWE-bench Pro

    В материале приведены данные о производительности модели на бенчмарке SWE-bench Pro. Отдельно отмечена конфигурация по умолчанию в Claude Code — там установлен уровень усилий high, а не x-high или max. Эта деталь важна для корректной интерпретации результатов тестирования и понимания настроек среды. Автор рекомендует учитывать эти параметры при оценке возможностей обновленной версии. Пост

    Источники: seeallochnaya

  • Anthropic добавила dynamic workflows в Claude Code

    Anthropic добавила в Claude Code функцию dynamic workflows для агентской разработки. Система автоматически составляет план задачи, разбивает её на подзадачи и распределяет между параллельно работающими агентами. Результаты проверяются перед объединением, а прогресс сохраняется — прерванная задача возобновляется с места остановки. На практике это позволило перевести проект Bun с Zig на Rust: сотни агентов параллельно портировали файлы, пока цикл исправлений не добился успешной сборки. Процесс требует много токенов и лучше всего подходит для задач с четкими критериями, например миграции между стеками. Подробнее

    Источники: seeallochnaya

  • Anthropic добавили Dynamic Workflows в Claude Code

    Вместе с релизом Opus 4.8 Anthropic представили Dynamic Workflows для Claude Code — система сама пишет оркестрационный скрипт и запускает от десятков до сотен параллельных субагентов, которые независимо проверяют результат. Задачи, занимавшие недели, теперь укладываются в дни: например, миграция Bun с Zig на Rust через Dynamic Workflows заняла 9 дней, 1 009 257 строк кода и 6 755 коммитов. Использовать можно двумя способами: упомянуть слово «workflow» в промпте или включить режим `/effort ultracode`. Официальный анонс

    Источники: ai_for_devs

Оптимизация локального инференса

  • Запуск Qwen3.6-35B-A3B на RTX 3060 12GB

    Пользователь поделился опытом запуска Qwen3.6-35B-A3B-APEX с контекстом 128K на RTX 3060 12GB. С форком spiritbuun и квантованием APEX от mudler достигается 37 t/s генерации при заполненном контексте 72K, perplexity 3.25. Модель 17.3 GB оффлоадится на 12 GB карту благодаря CUDA-оптимизациям: fused MMA fix, TurboQuant, улучшения fattn. Ключевые находки: MTP heads лучше отключать на 3060 (потеря 41% скорости), квантование mudler даёт лучшие результаты чем unsloth, деградация контекста ~18% от fresh до 72K. Тесты Needle-in-a-haystack показали 100% retrieval на 150K–200K токенах. Обсуждение

    Источники: LocalLLaMA

  • Krasis v1.0: запуск Qwen3.6-35B на 8GB VRAM со скоростью чтения

    Krasis — рантайм для LLM, который стримит модели через VRAM из системной RAM, позволяя запускать модели, не помещающиеся в видеопамять. В версии 1.0 горячий путь полностью переписан на Rust (убран Python GIL), добавлена поддержка карт Ampere (RTX 3000), улучшена работа с памятью (теперь требуется 1x квантованной модели вместо 2x). На ноутбуке с RTX 3070 Mobile 8GB Qwen3.6-35B-A3B выдаёт 222 токена при префилле и 12.48 токена при декодировании, на RTX 5090 32GB — 10,030 и 124.9 токена соответственно. Реализованы 4-битный и 6-битный KV кэш, HQQ-внимание на 4/6/8 бит с автоматической оценкой чувствительности слоёв к квантованию. Репозиторий

    Источники: LocalLLaMA

  • Низкая acceptance rate при спекулятивном декодировании Qwen3.x MTP

    Пользователь сообщает о проблеме с низкой acceptance rate draft-токенов при использовании Qwen3.5-122B и Qwen3.6-27B в llama.cpp. В чатах с кодом acceptance составляет 40-60%, тогда как другие пользователи публикуют результаты около 80%. Конфигурация llama-server включает flash-attn, batch-size 2048, spec-type draft-mtp с максимум 4 draft-токенами и кэширование q4_0 для K/V. Параметры включают top-p 0.95, temperature 1.0, presence_penalty 1.5. Автор запрашивает помощь в выявлении проблемных настроек. Тред

    Источники: LocalLLaMA

  • Установка локальной LLM на Ubuntu 26.04 через snap: Gemma4

    Пользователь опубликовал туториал по установке локальной LLM на Ubuntu 26.04 с использованием snap-пакета Gemma4. Материал ориентирован на начинающих и описывает шаги развёртывания модели в среде Ubuntu. Подробности установки и конфигурации доступны в оригинальном посте. Гайд

    Источники: LocalLLM

  • Производительность vLLM против llama.cpp и квантование Unsloth

    Пользователь сравнивает производительность vLLM и llama.cpp на RTX A6000. vLLM выдает 5-10 тысяч токенов в секунду против 800-1000 у llama.cpp при префилле. При этом квантование Unsloth Q8 показывает лучшие результаты в генерации кода для pandas, чем официальный FP8. Основная проблема — отсутствие поддержки запуска GGUF квантов от Unsloth напрямую в vLLM, возникает ошибка неподдерживаемой архитектуры. Обсуждение способов конвертации и запуска ведется в треде.

    Источники: LocalLLaMA

  • Концепт ИИ-воркстанции на Xeon и 8×V100 за $10-12k

    Энтузиаст представил концепт локальной ИИ-воркстанции из 4 независимых узлов на базе материнской платы X12SPA-TF с процессором Intel Xeon Gold 6314U (32 ядра). Конфигурация включает 256GB DDR4 RAM, 1TB Intel Optane 200 и 8 GPU Nvidia V100 32GB SXM2, распределённых по трём узлам с NVlink интерконнектом (100G и 300G). Первый узел с 4 GPU и 128GB памяти предназначен для оркестрации, остальные — для моделей разной скорости и размера. Ориентировочная стоимость системы с корпусами, блоками питания и охлаждением — $10-12 тысяч. Пост

    Источники: LocalLLM

  • Проблема совместимости OpenCode и Qwen3.6 через vLLM

    Пользователь столкнулся с SchemaError при работе OpenCode v1.15.11 с моделью Qwen3.6-35B через vLLM. Ошибка возникает из-за несоответствия формата ключей: модель отправляет old_string, new_string, file_path (snake_case), а OpenCode ожидает oldString, newString, filePath (camelCase). Испробованные решения включают reverse proxy для маппинга форматов, флаги --enable-auto-tool-choice и --tool-call-parser qwen3_coder, а также добавление инструкций в opencode.jsonc — без успеха. Обратный прокси обрывает соединение при больших контекстах (180k+ токенов). Автор ищет рабочие конфигурации для локального инференса. Тред

    Источники: LocalLLM

Наблюдаемость и мониторинг агентов

  • Trooper: дашборд для мониторинга агентов без SDK

    Разработчик добавил в Trooper живой дашборд для отслеживания работы агентов — достаточно изменить URL, без SDK и инструментации. На localhost:3000/dashboard видны намерения агента (извлекаются автоматически), открытые циклы (подсвечиваются красным), завершённые задачи и полная транскрипция сессии. Из одного сообщения система уже понимает, что агент отлаживает подключение к базе данных на порту 5432 и где соединение не проходит. Сохраняется функция fallback-прокси: когда Claude достигает квоты, Ollama подхватывает с полным контекстом. Проект открыт, работает локально, данные не покидают машину. GitHub

    Источники: ollama

  • Наблюдаемость за агентами без SDK и инструментации

    Пользователь поделился подходом к отслеживанию мыслей LLM-агента в реальном времени. Решение не требует подключения SDK или дополнительной инструментации кода — достаточно изменить URL. Это упрощает отладку и мониторинг агентских систем без вмешательства в архитектуру. Пост

    Источники: LocalLLM

  • Инструмент наблюдаемости для Ollama и vLLM: TTFT, термалы, 19 паттернов

    Разработан инструмент наблюдаемости для локальной инфраструктуры LLM. Rust-агент работает как сайдкар или опциональный прокси, поддерживая Ollama, vLLM и llama.cpp. Инструмент отслеживает TTFT-регрессию, тепловое состояние, давление на KV-кэш и ещё 19 типов паттернов. Доступны три режима использования: дашборд на localhost:7700, MCP-эндпоинт для интеграции с агентами и REST API для собственной оркестрации. WES-скор (watt-normalized efficiency) даёт единый сигнал здоровья узла, а scoring модели рассчитывает совместимость с вашим железом на основе каталога Hugging Face. Инструмент

    Источники: ollama

  • Селф-хостед агенты с автоматическим восстановлением через телеметрию

    Разработчики исследуют подход к созданию coding agents, которые могут диагностировать свои ошибки без участия человека. Вместо ручной передачи логов в промпт, агент получает программный доступ к собственной телеметрии через observational loop. Архитектура включает три компонента: авто-инструментирование LLM-вызовов, MCP-сервер для запросов к трейсам исполнения и политику, запрещающую агенту угадывать фиксы без доказательств из логов. Если трейс отсутствует, агент останавливается, чтобы избежать галлюцинаций. Решение позволяет аудировать решения агента по ID трейсов в каждом исправлении. Обсуждение

    Источники: AgentsOfAI

  • Rust-сайдкар для мониторинга локальных LLM

    Новый инструмент с открытым исходным кодом для observability локальных развёртываний: отслеживает TTFT-регрессию, тепловую нагрузку, давление на KV-кэш и ещё 18 паттернов. Поддерживает Ollama, vLLM и llama.cpp, работает как локальный сайдкар или прокси. Доступны дашборд на localhost:7700, MCP-эндпоинт для интеграции с агентами и REST API для кастомной маршрутизации по флоту нод. Установка одной командой, ничего не уходит за пределы локальной машины — wicklee.dev.

    Источники: LocalLLM

  • Пример workflow для агентной оркестрации в Bun

    В PR для Bun можно увидеть, как выглядит workflow для агентной системы — это набор автосгенерированных .js-файлов со структурой выполнения промптов. В коде есть циклы вида «для каждого файла запусти агента с таким промптом», проверки на отсутствие определённых результатов и условия, когда два агента-ревьюера должны одобрить код. Автор отмечает, что было бы интересно посмотреть на workflow для бизнес-задач: как система планирует работу над отчётами, ревьюит и переписывает материалы, но таких примеров пока нет. Исходный код

    Источники: seeallochnaya

Безопасность и инфраструктурные риски

  • Инфраструктура интернета перестраивается под машинный трафик

    По мере перехода ИИ-агентов из экспериментов в продакшен, AWS, Cloudflare и другие компании меняют облачную инфраструктуру. Будущее интернета видится доминированием машинного трафика вместо пользовательского, что требует принципиально иного подхода к архитектуре. Крупные игроки уже начали редизайн систем под новые нагрузки, подробнее в статье.

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

  • Проблемы с tool calls и обрывом ответов в локальных LLM

    Пользователи сталкиваются с массовыми проблемами при вызове инструментов и обрыве ответов на середине предложения в локальных LLM. Ошибки воспроизводятся на разных конфигурациях: llama.cpp на ROCm и vLLM на CUDA, с моделями Gemma 4 и Qwen 3.6. При этом Open WebUI корректно обрабатывает стоп-токены и завершение генерации, в отличие от интеграций в VS Code или Android Studio. Обсуждение причин и возможных решений через настройки чат-темплитов ведется в треде.

    Источники: LocalLLM

  • Локальная модель DeepSeek R1 начала писать сообщения без запроса

    Пользователь r/ollama описывает необычное поведение после установки DeepSeek R1 через Ollama — модель якобы начала отправлять сообщения в чат-интерфейсе без инициативы со стороны пользователя. Сообщения включали утренние приветствия и предложения помочь с организацией файлов на рабочем столе. Автор отмечает, что модель не проявляла признаков глитчей или вредоносного поведения, а скорее пыталась быть полезной. В сообществе обсуждают, может ли это быть фоновым процессом или недопониманием работы локальных инсталляций. Обсуждение

    Источники: ollama

  • Ollama Web UI обрывает сессию после 6-7 вопросов

    Пользователь столкнулся с проблемой: при запуске Ollama через Elestio на конфигурации 2CPU/8GB с модифицированной моделью Phi 3.2, ответы перестают поступать после 6-7 вопросов в сессии. При этом CPU снижается как при успешном ответе, память в норме, в логах Docker Ollama не падает. Вопрос в том, является ли это особенностью Ollama Web UI или требуется настройка. Обсуждение и возможные решения — в треде.

    Источники: ollama

  • Голосовых ИИ-ассистентов можно взломать неслышимым звуком

    Исследователи из Китая и Сингапура продемонстрировали атаку на голосовые ИИ-ассистенты: вредоносную команду можно спрятать прямо в аудио — подкасте, музыке или Zoom-звонке. Человек слышит обычный звук, а модель воспринимает скрытую инструкцию. В тестах на 13 моделях成功率 атаки варьировался от 79% до 96%, при этом атаки, подготовленные на открытых моделях, легко переносились на коммерческих агентов. Стандартные методы защиты помогали слабо: дообучение модели распознавать подозрительные команды снизило успешность атаки всего на несколько процентов. IEEE Spectrum

    Источники: hiaimedia

  • Атомарно точное производство и скрытые уязвимости в инфраструктуре ИИ

    Демонстрация программируемых ковалентных связей в атомарно точном производстве ставит под вопрос монополию кремния в вычислениях. Параллельно ESMFold2 применяет масштабирование к предсказанию структуры белков, превращая первую версию архитектуры в устаревшую базу. Бенчмарки KV cache показывают, что квантование q5 и q6 работает лучше q8, что требует пересмотра бюджетов памяти для локального инференса. Ситуацию осложняют AI-генерируемые CUDA ядра с тихими ошибками и критическая уязвимость в Python-пакетах, затрагивающая vLLM и MCP серверы. Объединение лимитов Claude может увеличить нагрузку на селф-хостед стеки, использующие эти зависимые компоненты. Подробнее в обсуждении

    Источники: singularity

Новые модели и бенчмарки

  • Q-Judger — модель для оценки сгенерированных изображений

    Qwen выпустила Q-Judger, vision-language модель на базе Qwen3.6-27B для автоматической оценки изображений, созданных по текстовому описанию. Модель принимает текстовый промпт и сгенерированное изображение, выдавая структурированные JSON-оценки по 5 основным категориям: Quality, Aesthetics, Alignment, Real-world Fidelity и Creative Generation. Каждая категория включает подкатегории — от реализма и детализации до композиции и соответствия промпту. Модель использует chain-of-thought reasoning перед финальным выводом. Hugging Face

    Источники: LocalLLaMA

  • Фильтр базовых моделей на странице Hugging Face

    На странице моделей Hugging Face появилась фильтрация для отображения только базовых моделей через параметр base_model_relation. Это упрощает поиск исходных весов без файн-тюнингов и адаптеров при выборе архитектуры для селф-хостинга. Функция отвечает на частый запрос сообщества и ускоряет навигацию по каталогу. Проверить работу фильтра можно в обновлении.

    Источники: LocalLLaMA

  • Бенчмарк Qwen3.6-35B в агентском пайплайне против Claude API

    Автор протестировал Qwen3.6-35B-A3B на RTX 3090 в реальном агентском пайплайне для факт-чекинга. На этапе массовой верификации (~1300 вызовов) локальная модель в режиме no-think показала результат 9/10, паритет с топовым API, но работала в 5 раз быстрее. На шаге переписывания текста модель справляется с логикой, но ошибается в формате вывода (лишние вступления, пропущенные теги), что требует constrained decoding. Итог: время выполнения сократилось с 4 часов до 59 минут, а количество платных API-вызовов уменьшилось с 1696 до 8. 99% нагрузки удалось перевести на локальное железо без потери качества на ключевых этапах. Полный отчет в посте.

    Источники: LocalLLM

  • Повторение запросов улучшает качество вывода?

    Пользователь заметил странную закономерность: при многократном повторении одинаковых промтов с теми же настройками (temp, top_p, top_k) первые 3-4 запуска выдают плохой результат, а последующие 7-10 — качественный. Тестировалось в LM Studio на Mac M5 Max с Qwen3.6 35B в форматах q4/q8 (MLX и GGUF), задача — извлечение сущностей. Речь не о дублировании промта в одном контексте, а о отдельных чат-сессиях. Феномен требует проверки, подробности в обсуждении.

    Источники: LocalLLM

  • Файн-тюнинг jina-v5 для юридического корпуса: ловушки семантики

    Автор месяц пытался файн-тюнить jina-embeddings-v5 на корпусе словацкого законодательства, но модель не улавливает нюансы синтаксиса. Ключевая проблема — слово «prepadnutie», которое может означать конфискацию, а не кражу, но все файн-тюны ранжируют этот чанк выше базовой jina. Использовался LoRA на retrieval-адаптере (2,98% обучаемых параметров), MarginMSELoss, 46k триплетов, обучение на RTX 6000 Blackwell 96GB заняло ~74 минуты. Скрипты подготовки данных и обучения доступны на Pastebin, детали в посте.

    Источники: LocalLLaMA

Инструменты и практические применения

  • WebWright: Chrome-расширение для навигации агента по сайтам

    Расширение WebWright набрало 1200+ пользователей за 5 дней после публикации в Chrome Web Store. В отличие от обычных AI-сайдбаров, которые только читают страницу, этот агент кликает, печатает, навигирует и заполняет формы. Реализована 4-уровневая эскалация vision: анализ DOM → скриншот с 80 метками → 160 меток для плотных страниц → raw X,Y клики через Chrome DevTools Protocol. Встроена анти-луп детекция для повторяющихся действий, два слота для моделей (разные для агента и чата), поддержка 8 провайдеров без lock-in. Всё работает локально, ключи и настройки в chrome.storage.local, нет телеметрии. Репозиторий

    Источники: ollama

  • HyperFrames: селф-хостед HTML-to-Video от HeyGen

    HyperFrames — open-source фреймворк HeyGen для конвертации HTML в MP4, ориентированный на AI-агентов. Работает полностью на собственном железе без облачных зависимостей, разворачивается через Docker. Автор тестировал в селф-хостед окружении, отмечает ограничения и сравнивает с Remotion. В обзоре приведены шаги установки, конфигурация и проблемные моменты, с которыми столкнулся при использовании. Обзор

    Источники: LocalLLM

  • Google интегрировала AI-агента на базе Gemini в Colab

    Google обновила Colab, добавив AI-агента на базе Gemini прямо в редактор. Агент отображается в панели инструментов и боковом окне, позволяя запускать и обсуждать целые пайплайны. Он имеет доступ к полному контексту ноутбука: создаёт и выполняет ячейки, анализирует файлы, строит графики, обучает модели автономно. Также предлагает исправления ошибок в виде диффов внутри ячеек. Подробности

    Источники: startupsi

  • Локальное голосовое общение для робота Reachy Mini

    Команда Hugging Face опубликовала материалы по организации локального голосового общения для робота Reachy Mini. Инструкция описывает настройку пайплайна и адаптацию под другие задачи, что может служить роадмапой для разработки voice-агентов. Архитектура решения полезна даже без физического устройства, демонстрируя подход к локальному взаимодействию. Детали и ссылки на гайд доступны в треде.

    Источники: LocalLLaMA

  • Google представила Coralboard — одноплатник для ИИ-задач

    Google анонсировала Coralboard — одноплатный компьютер в форм-факторе Raspberry Pi, оптимизированный для ИИ-задач. Плата поддерживает перевод речи на устройстве, управление оборудованием через естественный язык, а также обработку зрения и звука для генерации музыки. Наблюдается растущий интерес к подобным устройствам: энтузиасты возвращаются к Arduino и Raspberry Pi, поскольку современные ИИ-инструменты вроде Claude Code и Codex упрощают разработку проектов без глубокого погружения в низкоуровневое программирование. Документация и руководства по настройке доступны на сайте разработчиков. Coralboard

    Источники: prompt_design