четверг, 7 мая 2026 г.

AI Digest: SpaceX инвестирует $119 млрд в чипы, DeepSeek оценили в $45 млрд и ускорение Gemma 4 в 3 раза

SpaceX планирует вложить до $119 млрд в завод чипов Terafab, а оценка DeepSeek может достичь $45 млрд в первом раунде. OpenAI обновила GPT Instant до версии 5.5. Gemma 4 ускорила генерацию в 3 раза благодаря MTP, локальные модели Qwen3.6 27B и Gemma 4 31B догнали облачные аналоги на потребительском железе. Суд в Китае запретил увольнять сотрудников ради замены на ИИ. Subquadratic анонсировала модель с контекстом 12 млн токенов.

Корпоративные сделки и инвестиции

CAISI подписал соглашения по тестированию безопасности ИИ с Google, Microsoft и xAI

CAISI (Center for AI Standards and Innovation) подписал соглашения о тестировании безопасности передовых ИИ-моделей на национальном уровне. К инициативе присоединились Google DeepMind, Microsoft и xAI. Соглашения касаются стандартов и инноваций в сфере frontier AI. Подробнее в обсуждении.

Источники: singularity
SAP инвестирует $1,16 млрд в немецкую AI-лабораторию Prior Labs

SAP инвестирует $1,16 млрд в приобретение 18-месячной немецкой AI-лаборатории Prior Labs. Компания планирует купить стартап и значительно вложиться в его развитие. Параллельно SAP ограничивает использование клиентских агентов, оставляя доступ к избранным решениям вроде Nvidia Nemo. Подробности в материале.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Altara привлекла $7 млн на объединение данных для физических наук

Стартап Altara закрыл раунд финансирования на $7 млн для устранения разрозненности данных в физических науках. Их ИИ-решение диагностирует сбои и ускоряет R&D, объединяя информацию из таблиц и устаревших систем. Технология направлена на преодоление барьеров, замедляющих исследования. Подробнее в статье.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
QuTwo Питера Сарлина оценили в $380 млн после ангельского раунда

Финская AI-лаборатория QuTwo, основанная бывшим CEO AMD Silo AI Питером Сарлином, достигла оценки в €325 миллионов (~$380 млн) после закрытия ангельского раунда на €25 миллионов. Инвестиции подчеркивают растущий интерес к европейским технологическим компаниям в сферах ИИ и квантовых вычислений. Фокус делается на развитие суверенных технических решений внутри континента. Такой результат указывает на сохранение сильных позиций у стартапов из Европы даже на ранних этапах финансирования. Подробности сделки опубликованы в TechCrunch.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
ИИ меняет приоритеты инвесторов при оценке стартапов

Техническая экспертиза основателей остается важной, но перестает быть ключевым дифференциатором на раннем этапе. Благодаря доступности ИИ-инструментов возможность создать продукт есть у многих, поэтому инвесторы вынуждены пересматривать критерии отбора. Аарон Тейнтер, директор акселератора Innovation Works, задается вопросом, что теперь станет основным конкурентным преимуществом, если сам продукт больше не считается защитным рвом. Ответ на этот вопрос определит стратегию финансирования в новую эпоху. Статья

Источники: https://news.crunchbase.com/feed/
28 новых единорогов появились в апреле 2026 года

В список Crunchbase Unicorn Board за апрель вошли 28 компаний, достигших оценки в миллиард долларов. Лидерами по количеству новых участников второй месяц подряд стали стартапы в области робототехники и фронтир-лаборатории. Эта тенденция указывает на смещение интереса венчурного капитала в сторону глубоких технологий и аппаратных решений. Рост числа единорогов в этих секторах подтверждает устойчивость спроса на инновации вне чисто софтверных решений. Ранее: апрель 2026 стал третьим по объему инвестиций месяцем года, что подтверждает активность в глубоких технологиях. Данные

Источники: https://news.crunchbase.com/feed/
SpaceX планирует инвестировать до $119 млрд в завод чипов Terafab

SpaceX рассматривает возможность вложения до $119 млрд в строительство завода по производству чипов «Terafab» в Техасе. Согласно документам округа Граймс, первоначальные расходы составят не менее $55 млрд. Компания Илона Маска, включающая также xAI, реализует этот проект для расширения производственных мощностей. Подробнее

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Оценка DeepSeek может достичь $45 млрд в первом раунде инвестиций

Китайская лаборатория DeepSeek может оценить себя в $45 млрд в рамках первого инвестиционного раунда. Компания получила известность в начале 2025 года благодаря модели, обученной на значительно меньших вычислительных мощностях и бюджете по сравнению с американскими аналогами от OpenAI и Anthropic. Источник

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Обсуждение партнерства Anthropic и SpaceX для использования Colossus 1

В посте сообщается о партнерстве Anthropic и SpaceX для использования суперкомпьютера Colossus 1 с целью увеличения лимитов запросов. Комментаторы отмечают неожиданность альянса между компаниями и надеются на решение проблем с доступом, хотя некоторые выражают опасения насчет безопасности данных. Тред

Источники: singularity
Как Илон Маск покинул OpenAI по версии Грега Брокмана

TechCrunch опубликовал материал о том, как Илон Маск покинул OpenAI, основываясь на показаниях Грега Брокмана. Жесткие переговоры между основателями стартапов редко становятся достоянием общественности, особенно когда речь идет о такой влиятельной компании. Детали конфликта стали доступны благодаря текущим судебным слушаниям, где стороны раскрывают обстоятельства прошлого. TechCrunch

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Показания Брокмана в суде против OpenAI: Tesla, угрозы и IPO

В суде по делу «Илон Маск против OpenAI» допросили президента компании Грега Брокмана. Он рассказал, что в 2017 году Маск хотел возглавить коммерческую структуру, но основатели сомневались в его компетенции в сфере ИИ. Во время переговоров о долях Маск разозлился на встречное предложение, ходил вокруг стола, и Брокман опасался физического нападения. Также выяснилось, что Маск подарил сотрудникам Tesla перед встречей, что Брокман расценил как попытку задобрить их. В показаниях всплыли детали о планируемом IPO OpenAI, оценке доли Брокмана в $30 млрд и несоответствии в данных о его личном донате организации. Подробнее

Источники: TheEdinorogBlog

Модели: релизы, бенчмарки и сравнения

ProgramBench — бенчмарк для оценки способности агентов писать программы

Facebook Research представили бенчмарк из 200 задач, где агент получает только исполняемый файл и readme, а должен самостоятельно выбрать язык, спроектировать абстракции и архитектуру. Доступ к интернету и декомпиляция запрещены — тестирование идёт через поведенческие тесты (50к долларов на генерацию 6M строк тестов, отфильтрованных до лучших). Результаты доступны на programbench.com, код и Docker-образы открыты на GitHub. Установка через pip: `programbench eval `. Пока тестировали только закрытые модели — open-source модели в разработке, но они чаще переобучены на SWE-bench и хуже справляются с новыми бенчмарками.

Источники: LocalLLaMA
Gemma4 26B на RTX 5070Ti: бенчмарки BFCL и настройка llama.cpp

Автор запустил Gemma4 26B-A4B на RTX 5070Ti с 16GB VRAM используя агрессивную квантизацию unsloth UD-IQ4_XS и контекстное окно 96K. Производительность составляет 5 951 t/s при обработке промпта и 137.7 t/s генерации токенов, потребление VRAM — 15.5GB из 16GB. Бенчмарки BFCL показали 89.13% non-live и 63.80% live, multi-turn тесты пока не работают из-за формата tool_call в Gemma4. В посте приведены полные аргументы llama.cpp включая flash-attn, кэширование и параметры рассуждений. Технические детали Ранее: в предыдущих дайджестах обсуждались бенчмарки Gemma 4 на разных конфигурациях железа и квантование.

Источники: LocalLLM
Gemma 4 против Qwen 3.6: выбор модели для локального использования

Пользователи сравнивают популярные локальные модели. Несмотря на бенчмарки в пользу Qwen 3.6 27B, нашедшей баг, который пропустили GPT 5.5 и Claude Opus 4.7, у Gemma 4 есть преимущества в задачах компьютерного зрения и анализе рукописного текста. В чате Gemma часто воспринимается как более естественная, тогда как Qwen может казаться излишне формальной. Также отмечают, что Gemma требует меньше времени на «размышления» перед ответом. Qwen 27B рекомендуют выбирать при ограниченной VRAM или когда приоритетна скорость. Для остальных задач комьюнити склоняется к Gemma 31B, показывающей результаты уровня облачных моделей.

Источники: LocalLLaMA
Сравнение Claude Code Opus 4.7 и Qwen3.6:27b в разработке игр

В тестовом задании две модели справились с созданием играбельного уютного рогалика. С одной стороны выступил Claude Code на базе Opus 4.7, с другой — локальное решение OpenCode на основе qwen3.6:27b. Оба инструмента продемонстрировали достаточный уровень генерации кода для реализации полноценной игровой механики. Результаты сравнения доступны в обсуждении.

Источники: LocalLLaMA
ProgramBench: новый бенчмарк для кодинг-агентов

Авторы SWE-Bench запустили ProgramBench — бенчмарк для агентов по воспроизведению кода программ на основе бинарного файла и документации. В тесте 200 проектов, от малоизвестных репозиториев до SQLite. Агент должен пройти все тесты оригинального проекта за 6 часов и 1000 шагов. Пока все модели показали 0% по основной метрике (100% тестов), Opus 4.7 лидирует с 3% при пороге 95% тестов. Методология включает авторазметку кодинг-агентами для генерации сценариев использования. Подробнее

Источники: seeallochnaya
Критика результатов ProgramBench и тесты на Codex

Результаты бенчмарка вызывают вопросы к базовой линии: авторы использовали упрощенного mini-SWE-agent вместо нативных инструментов вроде Codex или Claude Code. Независимые тесты на задачах бенчмарка показывают значительно лучшие результаты: например, Pi проходит задачи на 90-100%, а GPT-5.4/5.5 тоже обходят официальный бейзлайн. Вероятно, при использовании полноценных агентов процент решенных тестов вырастет до 10-15% и выше. Ожидается, что компании вскоре опубликуют свои прогоны на более подходящей инфраструктуре. Обсуждение

Источники: seeallochnaya
Поведение GPT в задачах на написание кода

Анализ логов бенчмарка показывает, что модели GPT тратят значительно больше времени на «размышления» перед генерацией кода по сравнению с другими моделями. Однако авторы отмечают, что это может быть артефактом измерений: модель может завершать работу раньше из-за ограничений обертки, что искажает процент шагов на графике. Требуется дополнительная проверка методики подсчета шагов исполнения. Источник

Источники: seeallochnaya
Gemma 4 ускорила генерацию в 3 раза благодаря MTP

Google выпустила MTP-драфтеры для моделей Gemma 4, позволяющие ускорить генерацию токенов до 3 раз без потери качества. Технология использует вспомогательную модель для предсказания нескольких токенов, которые основная модель проверяет за один проход. Поддерживаются все размеры модели, включая 31B для селф-хостинга. Веса доступны на Hugging Face и Kaggle под лицензией Apache 2.0. Анонс

Источники: ai_for_devs
OpenAI обновила GPT Instant до версии 5.5

OpenAI выпустила обновление GPT Instant 5.5 для всех пользователей ChatGPT. Модель генерирует более короткие и точные ответы, снижая количество галлюцинаций и улучшая рассуждения. Интерфейс памяти теперь показывает, какие сохраненные данные повлияли на ответ, что повышает прозрачность. Ранее: тема уже освещалась в предыдущем дайджесте (05.05.2026) с анонсом обновления GPT Instant до версии 5.5. Подробности

Источники: startupsi
Модель для Solidity превзошла Opus 4.7 на тестах

Энтузиаст опубликовал модель для написания кода на Solidity на базе Qwen3.6-27B. На тесте soleval pass@1 она превзошла Opus 4.7, хотя проект начинался как эксперимент выходного дня. В комментариях уточняют, что автор все еще загружает объединенный чекпоинт на Hugging Face, и хвалят подробное описание страницы модели. Пост

Источники: LocalLLaMA
Локальные модели догнали облачные: Qwen3.6 27B и Gemma 4 31B на потребительском железе

Класс моделей около 30B параметров стал оптимальным для локального запуска — они работают на Mac, Strix Halo и RTX 5090. Пользователи отмечают, что задачи, которые девять месяцев назад требовали Opus 4.1, теперь выполняются локально на Qwen3.6 27B. В обсуждении подчеркивают, что локальные модели меняют рабочий процесс: черновики, суммаризация, классификация и тестирование агентов теперь проходят локально, а облачные вызовы остаются для сложного вывода. Это сокращает затраты и ускоряет итерации. Ранее: Qwen3.6-27B уже показывала высокую производительность на RTX 5090 Laptop с контекстом 200k, а Qwen 3.6 27B нашла баг, который пропустили GPT 5.5 и Claude Opus 4.7.

Источники: LocalLLM
Qwen 3.5 9B после неудачных tool-циклов выдаёт некорректный ответ

Локальная модель Qwen 3.5 9B после серии неудачных вызовов инструментов начала выдавать некорректные ответы, включая упоминания о российском сепаратизме и бессвязный текст. Случай демонстрирует, как ошибки в tool-циклах могут приводить к непредсказуемому поведению модели. Пост

Источники: LocalLLM
Сбой Qwen 3.5 9B при работе с инструментами: детали инцидента

Пользователь тестировал Qwen 3.5 9B FP8 с агентом Hermes и локальной базой памяти. После нескольких неудачных tool-вызовов (модель возвращала пустые ответы при попытках установить соединение с базой данных и установить psycopg2) модель выдала некорректный вывод с упоминанием «Russkiy separatizm» и бессвязным текстом. Система зафиксировала это как «Memory updated». Случай показывает важность обработки ошибок в tool-циклах и мониторинга состояния модели при длительных сессиях. Подробности

Источники: LocalLLM
Subquadratic анонсировала модель с 12 млн токенов контекста

Стартап Subquadratic из Майами представил модель на субквадратичной архитектуре (SSA) с контекстом до 12 млн токенов. В отличие от обычных трансформеров, где вычисления растут квадратично, SSA находит только значимые связи между токенами, что даёт линейный рост вычислений и примерно в 1000 раз меньше операций на длинных контекстах. На бенчмарке RULER 128K модель показала 95% точности при стоимости $8 против 94% у Claude Opus за ~$2600. Пока доступна только версия с 1M контекстом через API, 12M — по запросу, независимых проверок бенчмарков ещё не было источник.

Источники: ai_for_devs
EnterpriseRAG-Bench: бенчмарк для RAG на корпоративных данных

Команда Onyx выпустила EnterpriseRAG-Bench — датасет из 500k документов, симулирующих внутреннюю компанию Redwood Inference для тестирования RAG-систем. Данные включают Slack, Gmail, Linear, GitHub, Jira, Confluence и другие источники с реалистичным шумом: misplaced документы,_near-duplicates, противоречивая информация. В тестировании BM25 неожиданно превзошёл векторный поиск по общей точности, а агентовый retrieval показал лучшую полноту, но был медленнее. В комментариях отмечают, что векторный поиск проигрывает на внутренних документах из-за эмбеддингов, обученных на публичных данных, которые не понимают внутреннюю терминологию компаний бенчмарк.

Источники: LocalLLaMA

Локальный инференс: железо и оптимизация

Опенсорс SDK для оценки TurboQuant-совместимых KV-бэкендов

Автор выпустил независимый пакет для оценки сжатых KV-кэшей через низкоуровневый backend ABI. Инструмент поддерживает регистрацию сжатых KV-блоков, частичное выполнение QK-операций, локальный attention для декодирования и проверку корректности с отчётами о fallback. Это не официальный TurboQuant и не замена llama.cpp — SDK создан для тестирования оптимизаций KV-кэша, квантованного инференса и форматов сжатых KV. Исходный код доступен на GitHub, автор приглашает фидбэк от разработчиков, работающих над long-context декодированием и backend-интеграцией.

Источники: LocalLLaMA
Sculpt — инструмент пранинга моделей под конкретные задачи

Проект использует биологически вдохновлённый алгоритм для измерения ко-активации экспертов и рангов при размещении на чипах. Стандартное планирование vLLM может вызывать задержки, размещая эксперты далеко друг от друга — Sculpt анализирует реакцию модели на рабочую нагрузку и удаляет ненужные части. На выходе получается стандартный HF-чекпоинт, совместимый с vLLM, llama.cpp, GGUF и Ollama без изменений рантайма. Автор делится результатами на бенчмарках WikiText, MMLU, OpenHermes и упоминает проект Anagnorisis как интересное направление. Репозиторий открыт, есть готовая модель на HuggingFace.

Источники: LocalLLM
Ускорение Qwen 3.6 27B на Tesla V100 с помощью MTP

Автор поделился результатами запуска Qwen 3.6 27B на GPU Tesla V100 32GB через ветку MTP проекта llama.cpp. Использование MTP позволило увеличить скорость генерации с 29–30 до 54–55 токенов в секунду при лимите мощности 150W. После заполнения контекста скорость снижается до 40–45 t/s, но модель остается эффективной для работы с инструментами и ревью кода. В обсуждении отмечают, что на аналогичном железе 35B MOE версия выдает до 110 t/s, но хуже справляется с кодом и склонна к зацикливанию. Плотная модель 27B в данном случае выглядит предпочтительнее для задач разработки. Ранее: поддержка MTP в llama.cpp перешла в бету в мае 2026.

Источники: LocalLLaMA
Ускорение генерации на AMD Strix Halo с помощью MTP в llama.cpp

Энтузиаст протестировал экспериментальную поддержку MTP (Multi-Token Prediction) в llama.cpp на процессоре AMD AI Max 395 (Strix Halo) со 128 ГБ памяти DDR5. Для запуска использовалась сборка с PR #22673 и модель Qwen3.6-35B в формате GGUF. С параметрами `--spec-type mtp` скорость генерации выросла с 40 до 60–80 токенов в секунду, обработка промпта осталась без изменений. В комментариях интересуются производительностью на меньших версиях модели, например 27B. Обсуждение.

Источники: LocalLLaMA
Запуск Qwen3 27B с контекстом 125K на одной RTX 3090: стоит ли овчинка выделки

Пользователь добился запуска Qwen3 27B INT4 с контекстом 125K на RTX 3090 (24GB) через vLLM в WSL2 на Windows. Для этого потребовалось вручную патчить pinned memory в WSL2, переключиться на 3-bit KV cache через Genesis patches, отключить vision encoder и speculative decoding, который портил вывод модели. Скорость составила 40 токенов в секунду — приемлемо, но ощутимо медленнее облачных альтернатив. В комментариях советуют перейти на Linux, попробовать 35B A3B с оффлоадом экспертов на CPU или комбинировать локальную модель с облачными сервисами для баланса скорости и понимания кода. Ранее: Qwen3.6 27B уже обсуждалась в контексте производительности на RTX 5000 PRO с контекстом 200k. Обсуждение

Источники: LocalLLM
Сравнение квантований Qwen 3.6 27B: от BF16 до IQ3_XXS

Автор протестировал различные квантования Qwen 3.6 27B на задаче отслеживания шахматной позиции и генерации SVG-изображения доски. Полная точность BF16 и Q8_0 показали наилучшие результаты, начиная с Q6_K заметна деградация качества, а ниже IQ4_XS модели начинают ошибаться в ориентации доски и расположении фигур. На RTX 5060 Ti квантование IQ4_XS даёт 100 tps в vanilla llama.cpp и до 760 tps с TurboQuant форком при полном оффлоаде на GPU. Рекомендация: не опускаться ниже IQ4_XS для сохранения приемлемого качества вывода. Ранее: vLLM добавил поддержку TurboQuant для Qwen 3.5+ и Qwen3.6 27B FP8 с контекстом 200k была запущена на RTX 5000 PRO. Результаты тестов

Источники: LocalLLaMA
Обсуждение интегрированной RAM-VRAM на ПК

В сообществе обсуждают архитектуру с интегрированной RAM и VRAM на ПК, упоминая NVIDIA DGX Spark. Участники оценивают, станет ли объединение памяти переломным моментом для производительности локальных систем. Основные аргументы и мнения собраны в обсуждении.

Источники: ollama
Ускорение инференса Qwen 3.6 27B в 2.5 раза через MTP и turboquants в llama.cpp

Новый PR для llama.cpp добавил поддержку MTP (Multi-Token Prediction) для Qwen 3.6 27B, что даёт ускорение в 2.5 раза — до 28 токенов/сек на M2 Max 96GB. Turboquants сокращают память KV-кэша в 4 раза, позволяя держать контекст 262K на 48GB Mac. Автор подготовил конвертированные GGUF-кванты с исправленным chat template и опубликовал таблицы рекомендаций для Apple Silicon и NVIDIA GPU. Для запуска потребуется сборка llama.cpp из PR #22673. Ранее: vLLM добавил поддержку TurboQuant для Qwen 3.5+, а в llama.cpp уже обсуждалась оптимизация KV-кэша.

Источники: LocalLLaMA
Apple сняла с продажи Mac Studio с 256GB и 512GB RAM — максимум 96GB

Конфигурации M3 Ultra Mac Studio с 256GB и 512GB унифицированной памяти больше недоступны, максимум теперь 96GB. Mac Mini также ограничен 48GB. Apple предупредила о дефиците поставок на ближайшие месяцы. Для сообщества локальных LLM это существенная потеря — большие объёмы унифицированной памяти были одним из немногих доступных способов запускать модели уровня 70B+ локально. Пользователи с имеющимися 512GB конфигурациями планируют держать их как можно дольше.

Источники: LocalLLaMA
Запуск Qwen3.6 27B NVFP4 с контекстом 200k на одной RTX 5090

Пользователь опубликовал результаты тестирования квантованной модели Qwen3.6 27B NVFP4 в vLLM на видеокарте RTX 5090 с 32 ГБ VRAM. Конфигурация использует FlashInfer бэкенд, fp8_e4m3 для KV cache и спекулятивное декодирование MTP с 3 токенами. Стабильный тест показал скорость генерации 65–75 ток/с при длине контекста 200k, префилл достигает 2893 ток/с. Автор предупреждает, что точность не бенчмаркилась, а режим работает только с текстом без мультимодальности. В комментариях другие владельцы 5090 делятся опытом: при включенном режиме мышления и иной квантовке acceptance rate растет до 65%, а throughput достигает 130 ток/с. Обсуждение также затронуло сравнение с MoE архитектурами, которые на двойной GPU выдают свыше 100 ток/с. Подробнее

Источники: LocalLLaMA

Агентные системы и инструменты разработки

CLI-агент на Ollama: ~1000 строк Python

Разработчик создал CLI-агента с ИИ, достаточно компактного для полного понимания кода — всего около 1000 строк Python, работающего поверх Ollama. Минималистичный подход позволяет изучать архитектуру агента без излишней сложности, что полезно для образовательных целей и кастомизации под свои задачи. Подробности и исходный код в посте.

Источники: LocalLLM
Постоянная база знаний в Markdown для Claude Code Agent

Пользователь реализовал постоянное хранилище контекста проекта в формате Markdown для агента Claude Code. Это решает проблему потери контекста между сессиями — агент больше не забывает детали проекта при каждом новом запуске. Подход особенно полезен для длительных задач разработки, где важно сохранять структуру проекта, зависимости и принятые решения. Обсуждение Ранее: в предыдущих дайджестах обсуждались архитектуры памяти для AI-агентов и оптимизация контекста в Claude.

Источники: LocalLLM
ShellClaw: TUI-ассистент для работы с малыми моделями

Разработчик опубликовал ShellClaw — терминальный интерфейс с агентным циклом, оптимизированный для моделей до 10B параметров (например, Qwen3.5:9B). Среди ключевых функций: полная осведомленность о контексте ОС, встроенные ограничения только на чтение для безопасности и сжатие контекста внутри цикла. Инструмент работает нативно в терминале, поддерживает управление через мобильные устройства и совместим с любым провайдером, имеющим chat/completion API. Проект, обсуждение

Источники: LocalLLM
Автоматизация локализации проектов с помощью AI

Обсуждают переход от ручной локализации к автоматизированным workflow с использованием AI. Простого перевода через модель недостаточно, требуется система контроля качества. Рекомендуемый пайплайн: извлечение строк с контекстом -> черновик AI -> проверка второй моделью на тон и placeholders -> обратный перевод для выявления смысловых drifts -> человеческое ревью для ключевых языков. Важно хранить исходные файлы в Git со стабильными ID строк и использовать glossary для терминологии. Такой подход позволяет поддерживать актуальность переводов при частых изменениях в коде.

Источники: AgentsOfAI
OpenClaw запущен на Windows с Ollama

OpenClaw теперь работает на Windows через Ollama. Для пользователей Windows это расширяет возможности локального развёртывания моделей без необходимости использовать Linux или WSL. Пост

Источники: ollama
Выбор LLM для RAG и структурированных рабочих процессов

Пользователь тестирует локальные модели для retrieval augmented generation, работы с документами и структурированных выводов. Ключевые критерии: качество рассуждений, работа с контекстом, надёжность схем и эффективность на доступном железе. Тестировались Gemma, Minimax, Command-R, сейчас в работе Qwen и LFM2. Gemma показала стабильные результаты, но при больших нагрузках начала выдавать неконсистентные схемные выводы. Minimax оказался слабее ожидаемого. Обсуждение

Источники: ollama
Как использовать чужие кейсы по внедрению ИИ без копирования

Автор делится опытом работы с кейсами по внедрению ИИ: чужие решения не стоит воспринимать как пошаговую инструкцию, но можно заимствовать отдельные идеи и инструменты. Например, после выступления Якова на Research Mastermind о автоматической сборке коммерческих предложений после звонков с клиентом, автор адаптировал некоторые подходы под свои задачи. На том же звонке Денис рассказывал про Harness Engineering — этот пайплайн был внедрён в проекты с ИИ-агентами, включая автоматический перевод материалов в PDF обсуждение.

Источники: prompt_design

Безопасность и мониторинг

Bawbel Scanner — сканер уязвимостей для MCP-серверов и skill-файлов

Инструмент Bawbel Scanner v1.1.0 проверяет манифесты MCP-серверов, файлы SKILL.md и системные промпты на известные атаки, сопоставленные с 45 записями уязвимостей. Команда `bawbel ssc` загружает .well-known/mcp.json и сканирует описания инструментов на паттерны инъекций до подключения — многие публичные MCP-серверы содержат поведенческие инструкции, которые агент выполнит автоматически. Вторая функция `bawbel conform` оценивает манифест сервера по спецификации MCP и выставляет оценку от A+ до F, указывая на отсутствующие поля, устаревшие транспорты или некорректные имена инструментов. Установка через pip, исходный код доступен на GitHub. Подробнее Ранее: в предыдущих дайджестах обсуждались уязвимости MCP и инструменты безопасности для AI-агентов.

Источники: LocalLLM
Безопасность AI code review: объём передачи исходного кода в корпоративной среде

Инструменты AI code review передают значительно больше исходного кода, чем осознают команды — каждый запрос на ревью отправляет файлы на внешний инференс-эндпоинт. В компании с 500 разработчиками и 80-100 AI-взаимодействиями в день это 40 000-50 000 ежедневных исходящих передач сырого кода, каждая из которых потенциальна для перехвата. Альтернативная архитектура предполагает постоянный слой контекста внутри периметра организации: код индексируется один раз, а последующие запросы используют производный контекст вместо повторной передачи файлов. Такой подход снижает data-in-motion и отправляет наружу абстрактные паттерны вместо исходного кода. Дискуссия Ранее: в предыдущих дайджестах обсуждались вопросы безопасности AI-систем, включая уязвимости и инструменты защиты от инъекций.

Источники: LocalLLM
Мониторинг производительности Ollama в терминале

Автор представил утилиту watch-ollama для отслеживания нагрузки CPU/GPU, скорости токенов и логов отладки в реальном времени. Инструмент поддерживает переключение между ROCm и Vulkan, показывает границы промптов и ответов, а также требует включения debug-логирования уровня 2. Для повышенной точности метрик токенов доступен форк Ollama с доработанным логированием. Подробности в посте, репозиторий на GitHub.

Источники: ollama
Реальное потребление токенов в Ollama Pro

Пользователь поделился статистикой использования тарифа Ollama Pro на модели Deepseek V4 Pro. 70 тысяч токенов заняли 0,9% от сессии, что подразумевает лимит сессии около 7 миллионов токенов. При полном использовании сессии недельный лимит исчерпывается на 16,7%, что дает примерно 42 миллиона токенов в неделю. Данные основаны на практических тестах и скриншотах использования. Подробнее о расчетах в треде. Ранее: Ollama Cloud Pro был запущен в апреле с тарифом за $20/мес.

Источники: ollama
mcprt: экономия памяти для MCP серверов

Инструмент mcprt работает как прокси-супервизор для MCP серверов, запуская их по требованию и освобождая память при простое. В режиме ожидания daemon потребляет 16 МБ вместо 1,5 ГБ, что критично для селф-хостинга моделей на Apple Silicon с ограниченной unified memory. Система использует подсчет соединений для управления процессами и отвергает транспорт STDIO из соображений безопасности. Описание проекта в посте, код доступен на GitHub.

Источники: LocalLLM
Критическая уязвимость Bleeding Llama в Ollama

В популярном инструменте для запуска моделей обнаружена серьезная проблема безопасности, получившая название Bleeding Llama. Уязвимость представляет собой неаутентифицированную утечку памяти, что может поставить под угрозу данные пользователей при использовании сервиса. Владельцам селф-хостед решений рекомендуется ознакомиться с деталями угрозы в сообщении.

Источники: LocalLLaMA

Внедрение и практический опыт

12 уроков по внедрению голосовых AI-агентов в продакшен

Автор делится опытом запуска голосовых агентов, отмечая, что сложности часто скрыты не в самой модели, а в окружающей системе. Среди ключевых рекомендаций: начинать с одного типа звонков, измерять решенные обращения вместо просто отвеченных и отдельно отслеживать задержки до первого аудио. Важно тестировать на реальном телефонном аудио, разрешать прерывания собеседником и строить eval-сеты на основе реальных записей. Handoff на оператора следует рассматривать как часть продукта, а не путь неудачи. Ранее: голосовые агенты и проекты на базе SLM уже обсуждались в предыдущих выпусках дайджеста. Обсуждение

Источники: AgentsOfAI
Опыт внедрения агентов в рабочую среду

Обсуждают практические аспекты использования агентов в профессиональной среде. Основной вопрос — контроль галлюцинаций и тестирование. Участники советуют не давать агентам прямой доступ к базам данных или файлам. Безопасный паттерн: модель выбирает инструмент -> валидатор проверяет -> обновление состояния -> подтверждение человека при необходимости. Для отлова ошибок рекомендуют использовать отдельных агент-ревьюеров и писать тесты на специфичные кейсы, так как предугадать все варианты поведения LLM сложно. Ранее: опыт надёжности AI-агентов в продакшене — 8 месяцев эксплуатации выявили критические точки отказа.

Источники: LocalLLM
Гибридный стек локальных и платных LLM для кодинга и анализа документов

Пользователь поделился конфигурацией: Mac Studio 128GB, MacBook Air 24GB, Mac Mini 16GB и три Raspberry Pi. Для парсинга PDF и визуального майнинга используется IBM Granite 4.1 30B с контекстом 32K, для классификации — Gemma 4 26B-A4B, для кодинга в Zed — Qwen 3.6 35B. Тяжёлые задачи выполняются через Sonnet 4.6 с Claude Code. Ключевые рекомендации: держать контекст и задачи небольшими, использовать сильные модели для оркестрации. Основные проблемы — форматирование JSON и иногда непослушание SLM.

Источники: LocalLLM

Правовые вопросы и регулирование

Суд в Китае запретил увольнять сотрудников ради замены на ИИ

Сотрудник финтех-компании выиграл судебный иск после попытки увольнения из-за внедрения автоматизации. Работодатель планировал сократить зарплату с 25 до 15 тысяч юаней, аргументируя это тем, что функции сотрудника теперь выполняет ИИ, но суд обязал компанию выплатить более 260 тысяч юаней компенсации. Решение подчеркивает, что экономия за счет внедрения ИИ не позволяет перекладывать последствия на работника без предложения достойной замены должности. Полный разбор кейса опубликован в канале.

Источники: hiaimedia
Переписка с ChatGPT стала уликой в уголовном деле

Во Флориде переписка подозреваемого с ChatGPT была приобщена к делу об убийстве как доказательство. Хишам Абугарбие задавал модели вопросы о том, что произойдёт, если человека положить в чёрный мешок и выбросить в мусорный контейнер, а также уточнял законность хранения оружия без лицензии и возможность выжить после выстрела в голову. Тело одной из жертв действительно нашли в мусорном пакете недалеко от дома. Юристы отмечают, что ни в одной стране закон не защищает тайну переписки с ИИ — всё отправленное в ChatGPT может быть раскрыто по запросу властей подробности.

Источники: hiaimedia

Робототехника и специализированные системы

Genesis AI показала полнофункциональную систему для робототехники

Стартап Genesis AI при поддержке Кхослы привлек $105 млн на посевном этапе и показал полнофункциональную систему для робототехники. Компания продемонстрировала модель GENE-26.5 и демо-запись, где роботизированные руки выполняют сложные задачи. Детали

Источники: https://techcrunch.com/category/artificial-intelligence/feed/