воскресенье, 24 мая 2026 г.

AI Digest: Qwen3.7-Max с контекстом 1M, DeepSeek снизил цены на 75% и GLM-5.1 выдаёт 400 токенов/сек

Alibaba выпустила Qwen3.7-Max с бесплатным доступом и контекстом 1 млн токенов. DeepSeek объявила о постоянном снижении цен на 75%. GLM-5.1 достигла 400 токенов/сек через API, Cerebras разогнала Kimi K2.6 до 1000 токенов/сек. Meta обучает ИИ на действиях сотрудников на фоне сокращений штата. Роботы Figure AI отработали 200-часовую смену на складе и почти превзошли людей в сортировке посылок.

Модельные релизы и скоростные рекорды

Alibaba выпустила Qwen3.7-Max — бесплатная модель с контекстом 1M токенов

Alibaba представила Qwen3.7-Max — бесплатную модель, которая обходит Kimi-K2.6 и Claude Opus 4.6 по всем бенчмаркам в режиме Max. Модель показывает сильные результаты в кодинге и агентных задачах, способна работать автономно десятки часов и поддерживает более 1000 инструментов. Контекстное окно достигает 1 миллиона токенов, что открывает возможности для обработки крупных документов и длинных диалогов. Источник

Источники: startupsi
Cerebras запустила модель Kimi K2.6 со скоростью 1000 токенов в секунду

Инфраструктурная компания Cerebras сообщила о запуске модели Kimi K2.6 с триллионом параметров на скорости генерации 1000 токенов в секунду. Ранее максимальным размером модели на их железе был GLM 4.7 на 358 миллиардов параметров. Доступ к новой мощности пока открыт только для энтерпрайз-клиентов. На прошлой неделе компания вышла на IPO, привлекла 5,5 миллиарда долларов и достигла оценки в 60 миллиардов. Подробности в сообщении.

Источники: ai_newz
GLM-5.1 выдает 400 токенов в секунду через API

Модель GLM-5.1 от Z.ai достигла скорости генерации 400 токенов в секунду, что превышает показатели большинства флагманских решений (80–120 токенов). Ускорение реализовано без потери качества благодаря переработке процесса работы на GPU: вместо последовательных операций используется непрерывный поток генерации. Технические детали оптимизации команда TileRT описала в отдельном блоге, а новости обновления собраны в источнике.

Источники: ai_for_devs
SupraLabs выпустила 50M-параметровую модель Supra-50M

SupraLabs анонсировала компактную языковую модель на 50M параметров в версиях BASE и INSTRUCT, обученную на 20 миллиардах токенов из fineweb-edu. Архитектура Llama-style включает 12 слоёв, hidden size 512, 8 голов внимания и 4 KV-головы (GQA), контекст до 1024 токенов. На бенчмарках модель показывает конкурентные результаты: 76.3% на BLiMP (лингвистика), 77.2% на SciQ (наука), превосходя GPT-2 (124M) и SmolLM-135M по ряду метрик при меньшем размере. Это первая модель плана масштабирования SupraLabs, далее запланированы Supra-124M и Supra-350M с поддержкой reasoning и coding. Модели доступны на HuggingFace, в комментариях пользователи добавляют модель в коллекцию foundation-моделей до 360M параметров. Анонс модели

Источники: LocalLLaMA
Вышла uncensored-версия G4-MeroMero-26B-A4B

Автор llmfan46 выпустил файн-тюнинг G4-MeroMero-26B-A4B-it-uncensored-heretic в форматах Safetensors и GGUF. Модель доступна для пользователей с ограниченными требованиями к VRAM/RAM по сравнению с 31B-версией. Оригинальный автор файн-тюнинга — zerofata. Модели размещены на HuggingFace: Safetensors и GGUF. В комментариях отмечают, что порядок применения Heretic и файн-тюнинга влияет на результат — лучше сначала Heretic, затем дообучение.

Источники: LocalLLaMA
LongCat-Video-Avatar 1.5: генерация видео с синхронизацией губ

Meituan LongCat выпустила версию 1.5 фреймворка для генерации видео с аудио-драйвеном. Модель использует Whisper-Large вместо Wav2Vec2 для более естественной лип-синхронизации, поддерживает 8-шаговый инференс через DMD2-дистилляцию и работает с аниме, животными и мульти-персонами. Веса распространяются под MIT License, что упрощает коммерческое использование. В комментариях отмечают практическую ценность релиза для создания talking heads. Страница модели

Источники: LocalLLaMA

Ценообразование и экономика ИИ-компаний

AI-стартапы завышают ARR для привлечения инвесторов

Некоторые AI-стартапы растягивают традиционные метрики выручки, когда публично говорят о прогрессе. Инвесторы полностью в курсе этой практики, но продолжают использовать завышенные показатели для оценки компаний. Это создаёт искажённую картину рынка и усложняет сравнение проектов по реальным бизнес-метрикам. TechCrunch

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Почему фронтирные модели дорожают

Автор спрашивает, почему фронтирные модели вроде Opus 4.7, GPT 5.5 и Gemini 3.5 flash становятся дороже. В комментариях объясняют, что цена растет из-за сужения конкуренции и дефицита вычислительных мощностей, но цена за единицу интеллекта падает. Задачи, которые раньше решали только дорогие модели, теперь доступны через более дешевые аналоги. Участники отмечают, что DeepSeek 4 flash показывает результаты уровня моделей полугодовой давности за значительно меньшие деньги. Обсуждение

Источники: singularity
DeepSeek снижает цены на 75% навсегда

В посте сообщают о постоянном снижении стоимости использования модели DeepSeek на 75% после окончания промо-периода. В комментариях подтверждают, что объявление официально опубликовано в китайских соцсетях. Участники называют модель исключительно эффективной и ожидают, что это создаст давление на выручку американских компаний. Также обсуждают, последуют ли провайдеры вроде OpenRouter этому примеру. Пост

Источники: singularity
Экономика OpenAI и Anthropic: разные пути к прибыли

Перед выходом на IPO инвесторы сравнивают экономику OpenAI и Anthropic. Данные показывают преимущество enterprise-сегмента: OpenAI может оставаться убыточной до 2029–2030 годов, тогда как Anthropic прогнозирует выручку $10,9 млрд во втором квартале 2026 года и операционную прибыль $559 млн. Корпоративные клиенты генерируют в 3–5 раз больше выручки на токен, их запросы дешевле в обработке, а контракты более стабильны. Остается вопрос, сможет ли OpenAI быстро сместить фокус и примут ли рынки текущие убытки. Обсуждение

Источники: singularity

Корпоративные разработки и робототехника

Meta обучает ИИ на действиях сотрудников на фоне сокращений

30 апреля Марк Цукерберг сообщил менеджерам, что обучение ИИ на действиях сотрудников значительно улучшит возможности моделей. Meta использует данные компьютерных сессий, код, движения мыши, клики и нажатия клавиш для обучения агентов. Компания считает, что интеллект её сотрудников даёт лучшее обучающее данные, чем внешние аннотаторы. Это часть инициативы Model Capability Initiative, о которой Reuters сообщил 21 апреля. Параллельно Meta объявила о сокращении 8000 сотрудников и переводе 7000 на роли в AI. Подробнее

Источники: startupsi
Роботы Figure AI отработали 200-часовую смену на складе

Компания Figure AI завершила эксперимент, в котором три робота обработали 249 560 посылок в рамках 200-часовой смены. Устройства работали по очереди, возвращаясь на индукционную зарядку при разряде батареи до 20%. Инженерам удалось добиться эффективного соотношения работы и отдыха: час на зарядном коврике обеспечивает пять часов непрерывной работы. Отчет о тестировании опубликован в канале.

Источники: prompt_design
Anthropic обновила данные по уязвимостям в проекте Glasswing

Anthropic выпустила обновление по проекту Mythos, где партнеры обнаружили десятки тысяч уязвимостей критического и высокого уровня в своем коде. Скорость поиска багов выросла более чем в десять раз, например, Cloudflare нашла 2000 уязвимостей в критических системах с низким уровнем ложных срабатываний. При сканировании 1000 крупных опенсурс-репозиториев выявили 6202 проблемы высокого риска, 90% из которых подтвердили независимые аудиторы. Среди найденных угроз — эксплойт для подделки сертификатов через библиотеку wolfSSL. Из-за рисков злонамеренного использования доступ к модели ограничен, а команды разработки запрашивают снижение темпов раскрытия багов из-за нехватки времени на патчи. Полный отчет доступен в источнике.

Источники: seeallochnaya
Робот FigureAI почти превзошел человека в сортировке посылок

В ходе 10-часового эксперимента робот FigureAI соревновался с человеком в сортировке пакетов, работая автономно без перерывов. Человек обработал 12 924 посылки, а робот — 12 732, при этом разница в средней скорости составила всего 0,04 секунды. Несмотря на законодательно обязательные паузы у человека, выносливость робота позволила ему почти сравняться с ним по производительности. Создатели заявили, что это был последний раз, когда человек оказался быстрее в этой задаче. Детали эксперимента в отчете.

Источники: startupsi
GitHub взломали через вредоносное расширение VS Code

19 мая GitHub сообщил о несанкционированном доступе к внутренним репозиториям. Через сутки на BreachForums группа TeamPCP заявила о продаже ~3800 приватных репозиториев — GitHub подтвердил масштаб утечки. Причина оказалась в вредоносном расширении для VS Code, которое сотрудник установил из маркетплейса. Скомпрометированная версия провисела 18 минут до удаления, но автообновление успело распространить её. Расширение скачивало обфусцированный скрипт и собирало токены GitHub и AWS, ключи npm, хранилища 1Password, конфиги Claude Code. Ирония в том, что GitHub пострадал от инфраструктуры собственной экосистемы Microsoft. Подробнее

Источники: ai_for_devs
Илон Маск отказывается от солнечной энергии на Земле

xAI Илона Маска полностью переключилась на природный газ, тогда как SpaceX сосредоточилась на концепции орбитальных дата-центров. Такой поворот означает отход от ранее обещанной «солнечно-электрической экономики» для земных проектов. В статье разбирается, что произошло с первоначальными планами по использованию возобновляемой энергии. TechCrunch

Источники: https://techcrunch.com/category/artificial-intelligence/feed/

Локальный инференс: квантование и оптимизация

llama3.1 8B на старом железе: 35 токенов/сек на GTX 1070 Ti

Пользователь протестировал llama3.1 8B на конфигурации Intel Core i7-4790S + GTX 1070 Ti 8GB + 16GB DDR3. Результаты: средняя скорость генерации 35.85 токенов/сек, скорость обработки промпта 5614 токенов/сек, общая длительность ответа ~17.5 секунд. Тестирование включало проверку на галлюцинации и цензуру. В обсуждении отметили, что 35 токенов/сек для 1070 Ti — солидный результат, который опровергает нарратив «нужна 4090 или не стоит пытаться». Также посоветовали попробовать Qwen 3.5 9B и использовать MTP из последних обновлений llama.cpp для ещё большей производительности. Пост

Источники: ollama
llama.cpp: квантование KV cache q8/q4 — текущие ограничения и рекомендации

В llama.cpp использование асимметричного квантования KV cache (например, -ctk q8_0 -ctv q4_0) приводит к обработке промпта на CPU вместо GPU, что сильно снижает pps. Обсуждение в GGML repo включает eval от пользователя sanmai: комбинация 8/4 бит теряет всего 1.3% точности по сравнению с f16/f16, но экономит более 50% памяти. В комментариях предупреждают, что q4_0 слишком агрессивен для tool calls и структурированных данных — рекомендуют q8/q8 или q8/q5_1. Для кодинга советуют не опускаться ниже q8, для креативных задач подойдёт q5_1. Обсуждение

Источники: LocalLLaMA
Сравнение квантования Qwen3-Coder: UD-Q5_K_M показывает лучшие результаты

Пользователь протестировал разные форматы квантования на Qwen3-Coder-Next с использованием 3× R9700 PRO (96 GB VRAM) и llama.cpp Vulkan. UD-Q5_K_M превзошёл остальные форматы по всем метрикам качества — 94.0% совпадения top-1 и минимальная KL-дивергенция 0.0217, при этом файл всего на ~10 GB больше MXFP4. Разница в 5% точности на токен экспоненциально влияет на длинные выводы: к 100-му токену вероятность идеального совпадения у MXFP4 составляет 0.0014%, у UD-Q5_K_M — 0.21%. Для интерактивной генерации кода скорость декодирования у UD-Q5_K_M лишь на 9% ниже, что делает его предпочтительным выбором для ежедневных задач. В комментариях отмечают, что MXFP4 действительно быстрее, но牺牲ует качество, а на RDNA4 некоторые форматы квантования работают нестабильно. Обсуждение

Источники: LocalLLaMA
Квантование Qwen-27B для видеокарт с 16GB VRAM

Автор cHunter789 выпустил квантование Qwen-27B-IQ4_KS, оптимизированное для NVIDIA GPU с 16GB VRAM. Модель занимает 14.1GB и использует KS/KSS кванты из проекта ik_llama.cpp от ikawrakow, которые пока не вошли в основной llama.cpp. С Q4_0 Hadamard KV cache достигается контекстное окно до 105k токенов. В тестах модель работает в 1.5-1.75 раза быстрее предыдущих версий, без проблем с пустыми выводами. PPL-тестирование показало значение 7.4040 на контексте 65536. В комментариях отмечают, что для оценки деградации качества лучше подходит KLD-тест, а не PPL. Поддержка ограничена NVIDIA CUDA и CPU — AMD и Apple Silicon не работают. Подробнее

Источники: LocalLLaMA
ByteShape кванты для Qwen3.6-35B-A3B на 6GB VRAM

Автор протестировал новые ByteShape кванты для Qwen3.6-35B-A3B на ноутбуке с RTX 3060 6GB. По сравнению с Unsloth UD-IQ4_XS, ByteShape CPU-5 показывает на 30% выше скорость генерации (33.1 vs 25.4 tok/s), хотя prefill немного медленнее (564 vs 585 tok/s). Размер модели — 18.3GB против 17.7GB у Unsloth. Тесты проводились на Linux Mint с llama.cpp версии 9203, контекст 65536. В комментариях отмечают, что при температуре 0.6 модель работает стабильно, а при 1.0 — выдаёт некорректные результаты. Также есть замечания по высокому ubatch size (2048) для 6GB VRAM. Тесты

Источники: LocalLLaMA
Qwen3.6-35B-A3B на 8GB VRAM: 30+ tps с контекстом до 1M

Пользователь запустил MoE-модель Qwen3.6-35B-A3B на RTX 3070 Ti с 8GB VRAM, достигнув 30+ токенов в секунду при контексте 262k. Благодаря архитектуре MoE в VRAM требуется только ~3.5B активных параметров (~3GB), что оставляет место для KV-кэша. Переход с Windows 11 на Ubuntu Server дал +25% к скорости инференса — 34-37 tps против 27 tps, плюс удалось запустить контекст до 1M. В комментариях отмечают флаг -cmoe для llama.cpp, который загружает экспертов по требованию и освобождает 2-3GB VRAM для KV-кэша. пост

Источники: LocalLLaMA
Кастомный pure-квант Qwen3.6 27B: 40 tok/s на 16GB VRAM

Энтузиаст создал кастомный pure-квант Qwen3.6-27B в формате Q4_K_M, который помещается в 16GB VRAM (15.1-15.4 GB против 16.5-18 GB у стандартных версий). MTP-версия выдаёт 40 tok/s при генерации и 195 tok/s при обработке промпта, non-MTP — 24 tok/s и 715 tok/s соответственно. Perplexity растёт незначительно: +0.17 для MTP и +0.10 для non-MTP относительно BF16. В комментариях предупреждают, что этот квант отклоняется от стандартного Q4_K_M и может путать пользователей. модель

Источники: LocalLLaMA
BeeLlama v0.2.0: ускорение генерации до 4.93x на RTX 3090

Вышло крупное обновление BeeLlama v0.2.0 с улучшенной реализацией DFlash. На RTX 3090 достигнута скорость генерации до 164 токенов/с для Qwen 3.6 27B (ускорение 4.40x) и до 177.8 токенов/с для Gemma 4 31B (ускорение 4.93x) по сравнению с базовой llama.cpp. Обновление включает полную поддержку Gemma 4 31B с vision, оптимизацию кэширования K/V проекций, улучшенную обработку префикса и более строгую валидацию черновиков. Скорость обработки промптов осталась на уровне базовой версии. Подробности в посте, документация на GitHub.

Источники: LocalLLaMA
Apex-квантование Gemma 4 26B показывает стабильность на длинном контексте

Пользователь протестировал квантование Apex от mudler для модели Gemma 4 26B A4B в формате GGUF. На видеокарте RX 9060 XT 16 ГБ через llama.cpp Vulkan удалось достичь 38 токенов в секунду на контексте 90 тысяч без циклических повторений и потери качества. Для сравнения, предыдущий квант Unsloth UD-Q5KXL объемом 21,2 ГБ начинал зацикливаться уже на 50 тысячах токенов. В обсуждении отмечают, что стабильность на длинном контексте сложнее высокой скорости генерации, и Apex-квант лучше справляется с давлением на KV-cache. Однако другие пользователи сообщают, что кванты от bartowski могут работать быстрее на аналогичном железе. Обсуждение

Источники: LocalLLaMA
Экспериментальная ветка llama.cpp для оптимизации MoE на слабых GPU

Энтузиаст опубликовал форк llama.cpp с экспериментальной реализацией загрузки экспертов вместо слоев для MoE-моделей. Решение ориентировано на карты с 12 ГБ VRAM, например RTX 2060, где плотные модели не помещаются целиком. На тестовой сборке с Qwen3.6-35B-A3B удалось достичь 26 токенов в секунду при попадании в кэш экспертов на 62%, что выше стандартных 19 тк/с. При попадании в кэш на 42% скорость сравнивается со стандартным методом, делая оптимизацию целесообразной. Сейчас проект тестировался только на Linux, автор ищет добровольцев для проверки на RTX 3060/4060. Подробнее

Источники: LocalLLaMA
Обновление VITRIOL: запуск Qwen3.6 35B на GTX 1070 Ti

Автор кастомного трансформера VITRIOL поделился результатами оптимизации. Модель Qwen3.6 35B A3B работает на старой видеокарте GTX 1070 Ti (8GB VRAM) со скоростью 15–20 токенов в секунду, с пиками до 25.1 tps. Стандартные методы оффлоада из llama.cpp не подошли из-за отсутствия AVX2 на процессоре, поэтому было разработано гибридное решение. Бэкенд «Chimera» автоматически переключается между Vulkan и CUDA в зависимости от железа, используя преимущества каждого для DMA и генерации. Подробности эксперимента и исходный код обсуждаются в посте.

Источники: LocalLLM

Железо и конфигурации для локальных LLM

Стрикс Хало + dual 3090 eGPU с NVLink: тестирование гибридной конфигурации

Энтузиаст собрал систему на базе Strix Halo (124 GB UMA VRAM) с двумя 3090 через eGPU и 2-слотовый NVLink, модифицировав охлаждение для размещения моста. Для плотных моделей 27B и 31B такая конфигурация даёт прирост PP/s и TG/s в несколько раз, особенно при работе с несколькими агентами кодирования. NVLink эффективно устраняет узкое место пропускной способности при высокой конкурентности и длинном контексте, хотя для llama.cpp layer split не даёт преимуществ — здесь vLLM на dual 3090 показывает лучшие результаты. По энергоэффективности 27B модели выгоднее на eGPU, а для 122B Strix Halo в одиночку через llama.cpp оказывается эффективнее комбинации из трёх GPU. Тесты проводились на Fedora 43 с различными рецептами квантования и типами KV cache, результаты варьируются в зависимости от конфигурации. Детали сборки

Источники: LocalLLaMA
PDL в llama.cpp даёт прирост 5-6% на Blackwell

Llama.cpp добавил поддержку Programmatic Dependent Launch (PDL) — функции GPU Nvidia с compute capability >= 90, включая Blackwell. Для активации нужно собрать llama.cpp с флагом '-D GGML_CUDA_PDL=ON', по умолчанию опция не включена. Бенчмарки на RTX Pro 4500 Blackwell 32GB показывают прирост 5-6% на генерацию токенов без влияния на prefill: Qwen 3.6 35B.A3B MXFP4 ускорился с 172.72 до 183.03 tg/s, UD-Q5_K_XL — с 162.24 до 177.11 tg/s. В комментариях уточняют синтаксис флага (без пробела: '-DGGML_CUDA_PDL=ON') и интересуются поддержкой в vLLM. Тесты PDL

Источники: LocalLLaMA
OpenBMB BitCPM-CANN: 1.58-битная модель для Huawei Ascend

OpenBMB представила модель BitCPM-CANN в 1.58-битной версии для платформы Huawei Ascend 910B. Коллекция на HuggingFace включает четыре размера модели в разных форматах. В комментариях пользователи отмечают ограничения: модель плохо говорит по-английски, основная специализация — китайский язык. На RTX 5090 достигается около 31 токена в секунду в llama.cpp. Сообщество надеется на появление 1-битных версий моделей большего размера (26B-35B) в этом году. Обсуждение

Источники: LocalLLaMA
Speculative decoding: черновик-модель на отдельной GPU

Обсуждается возможность запускать основную модель на CPU/iGPU, а draft-модель для speculative decoding — на отдельной NVIDIA GPU. В комментариях подтверждают, что это технически реализуемо: можно выбрать, на какой GPU живёт draft-модель. Меж-GPU коммуникация создаёт узкое место, но пока основная модель throttled, draft успевает генерировать токены, что даёт чистый прирост tok/s. Обработка промпта немного замедляется из-за дополнительного compute, но общий баланс положительный. обсуждение

Источники: LocalLLM
Две AMD GPU: 48GB VRAM через Vulkan backend

Пользователь собрал систему с двумя AMD-картами (R9700 AI PRO 32GB + 7800xt 16GB) на Kubuntu 24.04, получив 48GB VRAM для локальных LLM. ROCm не заработал с комбинацией RDNA4 + RDNA3, но Vulkan backend в llama-cpp server справился. Настройка развёрнута в Docker, суммарная стоимость апгрейда — около $300 за новый блок питания. В комментариях отмечают, что Vulkan работает, но уступает CUDA по скорости, однако решение подходит для задач, где важен объём VRAM. пост

Источники: LocalLLaMA
Ollama не использует Intel Arc GPU на Windows: проблема с LLaVA

Пользователь столкнулся с тем, что Ollama игнорирует видеокарту Intel Arc A380 на Windows при запуске LLaVA, падая обратно на CPU. Загрузка процессора достигает 50%, а GPU остаётся почти простым, используя лишь 1.2GB VRAM вместо требуемых 4.5GB для модели. Технически Ollama поддерживает Intel GPU через SYCL/oneAPI, но на Windows возникают сложности с распределением весов модели в видеопамять. В обсуждении ищут решения: недостающие переменные окружения, quirks драйверов или ручное переключение на SYCL-бэкенд. Тред

Источники: ollama
Запуск кодинг-агентов на Strix Halo и Radeon R9700

Вышло видео с тестированием локальных агентских инструментов для программирования на связке AMD Strix Halo и Radeon R9700. В обзоре разбирается работа pi и opencode с моделью Qwen 3.6, а также приводятся результаты бенчмарка SWE-bench mini. Материал будет полезен тем, кто оценивает производительность железа AMD для задач автоматизации разработки. Смотреть тесты

Источники: LocalLLM
Варианты использования RTX 5090 для локальных LLM и VLM

Пользователь ищет практические сценарии для мощной сборки с RTX 5090 и Ryzen 9950X, помимо генерации изображений. Основные интересы включают визуальное понимание моделей (VLM) для описания товаров и локальных кодинг-ассистентов. В обсуждении советуют запустить Qwen3.6-27B или 35B-A3B с минимальной квантовкой, так как карта потянет их без проблем. Также рекомендуют добавить связку neutts и faster whisper для организации локального голосового чата. Обсуждение

Источники: LocalLLM
Выбор железа для Qwen 3.6 и агентской разработки

Автор темы интересуется запуском Qwen 3.6 27B или 35B A3B для кодирования, так как 9B модели работают слишком медленно. В комментариях проводят грань между любительским vibe coding и профессиональной агентской разработкой, отмечая, что 9B недостаточно. Обсуждают целесообразность покупки Mac Mini M4 с 24 ГБ памяти versus GPU с 24 ГБ VRAM, учитывая необходимость оффлоада экспертов. Один из участников поделился опытом запуска 35B A3B на системе с 16 ГБ ОЗУ и 12 ГБ GPU, достигая 70 токенов в секунду после настройки. Читать ветку

Источники: LocalLLM
Выбор модели для кодинга на MacBook M4 Pro

Владелец MacBook M4 Pro с 64GB RAM искал локальную альтернативу Claude Code для задач программирования. В сообществе посоветовали использовать квантованные версии Qwen3.6 27B или 35B MoE через MLX, отметив, что они показывают хорошую производительность на чипах Apple. Также участники уточнили, что llama.cpp не работает в браузере по умолчанию, а поставляется с llama-server для селф-хостинга. Это позволяет интегрировать модель в VS Code через расширения типа Cline или Codex. Обсуждение конфигураций и рекомендаций ведется в посте.

Источники: LocalLLM

Агентные системы: архитектура и отладка

Память — главная проблема продакшен-агентов

Автор проанализировал запуск 25+ агентов и выявил, что основная ошибка происходит на третьей неделе: агент теряет контекст после перезапуска. Это приводит к повторной генерации данных и росту затрат на API, как в случае с агентом для недвижимости, где расходы сократили на 80% после внедрения памяти. Для продакшена рекомендуется стек: Claude Sonnet 4 или GPT-4, оркестрация через Pydantic AI или LangChain, отдельный слой памяти для аудита и обнаружения циклов. Можно настроить селф-хостинг pgvector и Redis, но готовые решения экономят недели инженерного времени. Важно понимать, что векторная база данных не заменяет полноценный слой памяти со снимками состояния и восстановлением. Обсуждение

Источники: AgentsOfAI
Архитектура AI SDR, которая бронирует встречи

Разбор рабочей системы для B2B-продаж, прошедшей четыре итерации перед стабильным релизом. Финальная версия включает слой квалификации сигналов, обогащение данных и генерацию Outreach с обязательной атрибуцией источников, что снизило галлюцинации с 12% до 2%. Ключевой элемент — human-in-loop: черновики проходят проверку в Slack перед отправкой, что исключает потерю доверия клиентов. Система приносит 22 встречи в месяц при затратах около $800, что эквивалентно 1.5 SDR. Автор предупреждает, что полная автономность — красный флаг, а человеческий контроль на выходе обязателен для продакшена. Подробности

Источники: AgentsOfAI
Проблемы браузерного слоя в продакшен-агентах

Инженер стартапа описывает сложности с интеграцией браузера в агент, который должен работать с авторизацией на сторонних сайтах. Локальный Playwright сталкивается с капчами и потерей сессий на сервере, а сервисы вроде Bright Data не подходят для stateful-сессий. В тесте находится связка Browserbase + Stagehand, где SDK позволяет управлять страницей через семантические команды вместо селекторов. Основные вопросы сообщества касаются обхода капч без задержек и готовности computer-use моделей для реальных задач. Автор ищет решения для работы с SaaS-порталами и eCommerce-бэкендами с агрессивной бот-защитой. Обсуждение

Источники: AgentsOfAI
Отладка AI-агентов: почему важно смотреть на весь путь выполнения

Проблема отладки агентов не в первом ответе модели, а в том, как изменения в retrieval, инструментах или состоянии влияют на весь пайплайн. К моменту, когда финальный вывод выглядит неправильно, полезный сигнал уже потерян среди нескольких шагов выполнения. Open-source платформа предлагает единый цикл для evaluations, tracing, симуляций и guardrails — всё в одном месте, от прототипа до продакшена. Такой подход позволяет отслеживать вызовы модели и инструментов пошагово, оценивать поведение на реальных задачах и симулировать edge-кейсы до выхода в прод. Особенно полезно для команд, работающих над агентами для поддержки, внутренних workflows или автоматизации, где разница между «выглядит нормально» и «действительно надёжно» критична. Обсуждение

Источники: AgentsOfAI
Ежедневный AI-агент для Google Calendar и почты

Автор запустил серию проектов по созданию AI-агентов каждый день с публикацией кода на GitHub. Первый агент подключается к Google-аккаунту и отслеживает ежедневные письма и встречи, отвечая на вопросы о расписании дня. Репозиторий включает пример инструментов, подробный README с пошаговой инструкцией по подключению через Google MCP, и хорошо закомментированный код для быстрого запуска демо. Подход полезен тем, кто хочет изучить практическую сборку агентов с реальными интеграциями. Репозиторий

Источники: AgentsOfAI
Минимальный размер модели для оркестрации в агентах: опыт с Qwen3.6-35B-A3B

Автор экспериментирует с local-first агентом на llama.cpp и исследует, насколько маленькой может быть модель для оркестрационного цикла (ReAct-loop: подумать, выбрать инструмент, выполнить, повторить). Тяжёлые задачи вроде генерации кода routed на отдельную большую модель, а цикл оркестрации работает на Qwen3.6-35B-A3B (MoE, ~3B активных параметров) — это минимальный размер, где цикл остаётся надёжным. Модель запускается на 12GB карте с 30 expert offload при 40 t/s. Ниже этого порога ломается не reasoning, а tool-call дисциплина: модели придумывают несуществующие параметры, вызывают отсутствующие инструменты, повторяют ошибочные вызовы. Автор пробовал выставлять точные сигнатуры инструментов в system prompt и добавлять repetition watchdogs — помогает, но это костыли. Обсуждение, репозиторий

Источники: LocalLLaMA
Архитектура LangGraph.js + MCP: один инструмент или много?

Разработчик спрашивает сообщество о лучшем способе экспонирования LangGraph.js-воркфлоу через MCP для внешних LLM-клиентов вроде Claude Desktop. Основной вопрос: оборачивать ли весь скомпилированный граф в единый MCP-инструмент или выставлять отдельные узлы как атомарные инструменты. Первый подход сохраняет внутреннюю машину состояний LangGraph, второй перекладывает оркестрацию на клиентский LLM. Также обсуждаются вопросы долгосрочной памяти агента и обработки задержек при сложных графах с условными циклами. Автор ищет практический опыт тех, кто уже продакшенил связку LangGraph и MCP. Обсуждение

Источники: AgentsOfAI
Почему AI-агенты тратят токены впустую при простых задачах

Пользователь описывает типичную проблему: при тривиальных вопросах вроде «как запустить dev-сервер» агент начинает выполнять grep-команды со случайными строками, открывать нерелевантные файлы и запускать странные команды в терминале. После этого он заявляет «теперь у меня полная картина» и выдаёт правильный ответ, который мог дать сразу. В комментариях предлагают spec-driven development как способ ограничения такого поведения. Другие участники отмечают, что модели не имеют реального понимания логики или истины — они просто хорошо притворяются умными. Тред

Источники: AgentsOfAI
Приватный локальный AI-агент для работы с продуктами

Автор построил приватный AI-агент для работы с продуктовой базой данных, используя пайплайн на базе LangChain и Ollama в качестве LLM-движка. Ключевая особенность — ни одного вызова сторонних API, вся инференс-часть работает на open-source решениях локально. Такое решение подходит для сценариев, где важны приватность данных и контроль над инфраструктурой. Пост

Источники: ollama
Сокращение контекста на 89% для локальных моделей с графовой памятью

Автор экспериментирует с workflow SiliconBrain, который сочетает Ollama для инференса, Memgraph для структурированной внешней памяти и LangGraph для оркестрации. Подход позволяет малым локальным моделям избегать перегрузки контекстом: в задаче генерации Python-кода на llama3.2:3b размер промпта сократился с 61 595 до 6 505 токенов. Система хранит факты и шаги воркфлоу в графе, подавая модели только релевантные данные вместо полного контекста. В репозитории есть Streamlit-дашборд, интеграция с Memgraph и готовый снапшот графа с знаниями по Python/Rust/TypeScript. Подробности

Источники: ollama

Инструменты и практическое внедрение

Google AI Studio теперь генерирует Android-приложения из промптов

Google добавил нативную генерацию Android-приложений в AI Studio. Пользователь описывает идею обычным языком, система пишет приложение на Kotlin. Сгенерированное приложение можно протестировать в браузерном эмуляторе и установить на реальное устройство. Разрыв между идеей и APK продолжает сокращаться, что упрощает прототипирование для разработчиков. Детали

Источники: startupsi
Практичный гайд по связке Obsidian и Claude для управления задачами

Автор описывает настройку автоматизированного дашборда на основе одной заметки в Obsidian с использованием Claude. Система ежедневно формирует шесть разделов: приоритеты на день, статус активных проектов с процентами готовности, дедлайны на неделю, риски по клиентам, незакрытые задачи и пульс выручки с MRR. Сборка конфигурации занимает один вечер и позволяет централизовать операционное управление проектом. Подробности реализации доступны в гайде.

Источники: prompt_design
AdminForth: админ-панель со встроенным AI-агентом для работы с базой данных

AdminForth — open-source фреймворк для создания бэк-офис админок поверх существующей базы данных. В отличие от обычных CRUD-генераторов, здесь встроен AI-агент, который понимает структуру ресурсов, поля, права доступа, плагины и бизнес-правила. Агент помогает с комплексными операциями над данными прямо внутри панели: запросы на естественном языке, агрегации, аналитика, безопасная работа с чувствительными полями. Поддерживает Postgres, MySQL, MongoDB и SQLite без изменений схемы. В комментариях отметили GitHub репозиторий проекта.

Источники: AgentsOfAI
OpenAI Codex теперь управляет заблокированным Mac со смартфона

OpenAI обновила Codex, добавив возможность отправлять задачи со смартфона для выполнения на Mac даже в заблокированном состоянии. Функция работает через плагин Computer Use: агент временно разблокирует систему в фоне, выполняет задачу и снова блокирует устройство. Сеанс немедленно прекращается, если пользователь коснется клавиатуры или мыши. Раньше агентам требовалась активная сессия рабочего стола. Источник

Источники: startupsi
Open-source маркетплейс для инференса

Представлен новый open-source маркетплейс для инференса, позволяющий монетизировать вычислительные ресурсы. Идея заключается в запуске собственного провайдера рядом с локальными экземплярами Ollama или vLLM. Участники сети могут получать оплату за каждый обработанный токен в рамках платформы. Решение направлено на создание децентрализованной инфраструктуры для запуска моделей. Это дает возможность владельцам мощностей участвовать в рынке инференса без сложных интеграций. Тема

Источники: ollama
Селф-хостед настройка Hermes + Ollama + OpenWebUI с fallback на OpenRouter

Пользователь поделился конфигурацией из двух VPS и рабочей машины для стабильной работы Hermes. На Windows-машине с RTX 5060ti 16GB работает Ollama с Gemma4 9GB, но только в рабочее время. Первый VPS (.95) держит Docker с Lite LLM, который переключается между локальным Ollama и OpenRouter API, плюс OpenWebUI с reverse proxy на Plesk. Второй VPS (.92) на AlmaLinux 10 запускает Hermes напрямую. Когда рабочая машина включена, Hermes использует RTX, иначе падает на OpenRouter API — это позволяет экономить деньги без потери доступности. Интеграция с OpenWebUI значительно улучшает UX. Пост

Источники: ollama
Brow: open-source Chrome side-panel агент для локальных моделей

Разработчик представил Brow — агент в боковой панели Chrome, который работает внутри реальной браузерной сессии. Поддерживает Claude/OpenAI и локальные модели через OpenAI-совместимые эндпоинты с кастомными base URLs. Brow умеет использовать браузерный контекст, вызывать браузерные инструменты, подключаться к MCP-серверам, обнаруживать WebMCP инструменты и записывать рабочие процессы как переиспользуемый контекст. Автор планирует оценить, насколько хорошо локальные модели справляются с browser-agent и tool-calling workflow, начиная с Qwen3.6-27B. GitHub проекта

Источники: ollama
GLM-5.1 для продакшена: опыт сообщества и альтернативы

Стартап из 6 человек ищет бюджетную альтернативу западным моделям для backend-разработки и длинных coding sessions с мультифайловым контекстом. Спрашивают о реальном опыте использования GLM-5.1 в продакшене. В комментариях отмечают, что основной недостаток GLM — лимит контекста, но для планирования задач модель работает хорошо. Один из пользователей делит задачи: GLM для планирования, DeepSeek или MiniMax для имплементации (DeepSeek считается лучше для реализации). Другие советуют не привязываться к одному вендору — OpenRouter позволяет миксовать модели, например Kimi 2.6. DeepSeek API сейчас со скидкой 75% до конца месяца. Тред

Источники: LocalLLM
Проблема с загрузкой MCP/Playwright в LM Studio

Пользователи столкнулись с зависанием LM Studio при загрузке MCP-интеграций — в частности, Playwright и filesystem не проходят стадию "Loading tools...". Даже после смены версий Node.js (20.x–24.x) и правки mcp.json проблема сохраняется, хотя Playwright отдельно запускается корректно. В логах видна регистрация tools provider, но дальше процесс не идёт. Обсуждение и возможные решения доступны в топе.

Источники: LocalLLM
ai-vmm: гиперавизор на Rust с управлением от локальной LLM

Разработан ai-vmm — нативный KVM-гиперавизор на Rust, где планирование виртуальных машин выполняется локальной LLM через OpenAI-совместимый эндпоинт. Система полностью air-gapped: модель генерирует JSON-план, который проверяется и ограничивается на уровне Rust с формальной верификацией через Kani. Протестированы Llama 3 8B и Qwen2.5 7B Instruct, оба справляются с задачей структурированного планирования. Исходный код проекта доступен на GitHub.

Источники: LocalLLM
Проблема с потреблением RAM в LMStudio при загрузке моделей

Пользователь столкнулся с полным заполнением оперативной памяти при запуске Qwen3.6 27B q8 в LMStudio, несмотря на наличие свободной VRAM. Система зависала, так как модель по умолчанию использовала системную RAM вместо видеопамяти. В обсуждении участники указали на настройку mmap, которая маппит веса модели в системную память для ускорения, но в данном случае вызывала проблемы. Рекомендуется отключить опцию «Keep model in Memory» и проверить настройки в режиме разработчика. Разбор ситуации доступен в треде.

Источники: LocalLLM
Переход на полностью локальный инференс для рабочих задач

Пользователь сообщил о полном переходе на локальные модели в автоматизированных процессах и генерации кода. В стеке используются Min Max 2.7 и Qwen 3.6, которые показывают достойные результаты для прототипирования и правок. В комментариях отметили, что интерес к локальным решениям растет на фоне изменений в тарифах Github Copilot. Участники обсуждения напоминают, что настройка homelab — процесс постоянный, и оптимизация конфигурации может продолжаться бесконечно. История перехода и детали стека описаны в сообщении.

Источники: LocalLLM
Локальный пайплайн для тестирования AI SEO через RAG

Автор развернул homelab-стенд для проверки GEO и AEO-концепций без отправки данных сторонним API. Пайплайн включает краулинг сайта, чанкинг контента, эмбеддинги в векторную БД и RAG-запросы через локальную модель в Ollama. Выяснилось, что страницы с чистой FAQ-структурой и короткими прямыми ответами извлекаются надёжнее, чем сплошной текст. Schema-разметка вроде FAQPage и HowTo помогает чанкеру держать когерентность, но на Google rich results это уже не влияет. Результаты сильно зависят от размера чанков, модели эмбеддингов и настроек перекрытия — без тюнинга выдача была нестабильной. Подробнее

Источники: LocalLLM
Использование подписки Claude Code как локального AI API

Короткая заметка о возможности использовать активную подписку Claude Code для доступа к API локально, без дополнительных затрат. Детали реализации и конкретные шаги в обсуждении не раскрыты, но тема может быть интересна тем, кто ищет способы интеграции Claude в локальные воркфлоу. Обсуждение

Источники: LocalLLM
VisionMCP: локальный MCP-сервер для on-device OCR через Apple Vision Framework

Разработан standalone MCP-сервер VisionMCP, который даёт AI-агентам возможности OCR без облака и API-ключей — всё работает на устройстве через Apple Vision Framework. Сервер обрабатывает PDF (через PDFKit + RecognizeDocumentsRequest) и изображения (VNRecognizeTextRequest), возвращая текст, таблицы, списки с оценками уверенности и SHA-256 хешем файла. Интеграция через stdio: достаточно зарегистрировать бинарник в MCP-совместимом клиенте и вызывать ingest_pdf или ingest_image. Ограничения: только macOS 26 Tahoe, Swift 6.3 с strict concurrency, нет поддержки Windows/Linux. Репозиторий

Источники: LocalLLM
Проблемы с MTP в LM Studio 0.4.14

Пользователь протестировал реализацию MTP в LM Studio 0.4.14 на Qwen 3.6 с разными квантованиями. На 27B модели MTP даёт прирост скорости (7.67 t/s против 6.77 t/s на q4_0), но на 35B A3B ситуация обратная — с включённым MTP скорость падает с 32.97 t/s до 7.17 t/s на q4_k_s. В комментариях предполагают ограничение по VRAM при контексте 128k и рекомендуют снизить до 10k. Другие пользователи сообщают о значительно более высоких скоростях на аналогичных конфигурациях, что указывает на возможные проблемы с настройками. Обсуждение

Источники: LocalLLM
Бесплатный Google Search MCP для локальных LLM без API-ключей

Разработан MCP-инструмент google-surf-mcp для поиска в Google без API-ключей, прокси и CAPTCHA-солверов. Работает через Playwright с прогретым Chrome-профилем, совместим с Cline, Continue.dev, Open WebUI, LM Studio MCP bridge и Claude Code. Поддерживает поиск, извлечение URL и академические PDF (arxiv, Nature, PubMed и др.). Режим abstract экономит токены — 7.5k символов на 5 результатов вместо 40k при полном извлечении, что критично для моделей с 8k контекстом. В комментариях обсуждают риски блокировки IP при бото-трафике и вопросы защиты от prompt injection. Инструмент на TypeScript, ~1100 строк, лицензия MIT. Репозиторий

Источники: LocalLLM

Безопасность и детектирование атак

Детектор prompt injection на DistilBERT: 99% F1, 65 МБ, работает в браузере

Автор обучил классификатор prompt injection с помощью агента ml-intern и DeepSeek v4 Flash. Модель на базе DistilBERT показывает F1 99%, весит ~65 МБ в ONNX int8 и запускается в браузере через Transformers.js v3. На обучение ушло менее $5 через API DeepSeek. Агент самостоятельно нашёл датасеты на HuggingFace, что сэкономило время — обычно сбор данных занимает 95% работы. Модель доступна для тестирования в HuggingFace Space. Автор отметил, что агент хорошо справлялся на стандартных архитектурах, но испытывал трудности с нестандартными конфигурациями.

Источники: LocalLLaMA