← все дайджесты

вторник, 5 мая 2026 г.

AI Digest: Qwen 3.6 обходит фронтир-модели, утечка Ryzen AI Max+ на 192 ГБ и новые инструменты для агентов

Qwen 3.6 27B нашёл баг, который пропустили GPT 5.5 и Claude Opus 4.7, подтвердив конкурентоспособность локальных моделей. Утечка AMD Ryzen AI Max+ 495 с 192 ГБ памяти обещает революцию в локальном инференсе. Sierra привлекла $950 млн на enterprise-решения, Anthropic и OpenAI создают совместные предприятия. OpenHawk представил Agent OS на Rust, Karpathy назвал агентную инженерию новой дисциплиной. Ollama Cloud Pro запущен за $20/мес, но пользователи сообщают о проблемах с GLM 5.1 и rate limiting.

Корпоративные сделки и рынок

Модели: бенчмарки и сравнения

  • Сложности создания бенчмарков для LLM: когда модели решают задачи слишком легко

    Автор работает над оценочными задачами в стиле SWE-bench: нужно создать тесты, которые падают на текущем коде репозитория, и патч, который их исправляет. Задача должна быть решаемой для моделей уровня Haiku примерно в 4 из 10 случаев, но не тривиальной. Проблема в том, что даже с цепочками условий и edge cases модели справляются надёжно — вероятно, баги слишком локальные и легко паттерн-матчатся. Ограничение: нельзя модифицировать кодбазу напрямую, только через тесты и патчи. Автор ищет советы по тому, какие паттерны действительно заставляют модели ошибаться и как правильно думать о сложности таких задач. Обсуждение

    Источники: LocalLLM

  • Бенчмарк Mistral-Medium-3.5-128B-Q3 на 3×RTX 3090 (72GB VRAM)

    Автор опубликовал замеры скорости работы Mistral Medium 3.5 в квантовании Q3_K_M на системе с тремя RTX 3090. Модель занимает 72GB VRAM и тестируется в различных форматах вывода (Python, SVG, HTML). В комментариях отмечают, что бенчмарки на SVG могут быть переобучены, а также спрашивают о скорости обработки промптов и сравнении с Gemma 4 31B и Qwen 3.6 27B. Результаты

    Источники: LocalLLaMA

  • Бенчмарк Mistral Medium 3.5 128B и Qwen 3.5 122B A10B на 4x RTX 3080

    На конфигурации из четырёх RTX 3080 по 20 ГБ протестировали запуск Mistral Medium 3.5 128B и Qwen 3.6-35B A10B. В llama.cpp использование tensor parallel (TP4) ускорило генерацию Mistral почти в два раза по сравнению с layer split — до 21.6 t/s против 10.4 t/s. Для MoE-модели Qwen тензорный параллелизм заметного прироста скорости не дал. В vLLM модель Qwen показала лучшую эффективность: пиковая пропускная способность достигла 416 tok/s при конвергенции 8, среднее время на токен (TPOT) составило 28.39 мс. Автор отмечает, что скорость Mistral приемлема для чата, но качество модели уступает меньшим аналогам вроде Gemma-4-31B. В комментариях пользователи уточняют, почему сравниваются dense и MoE архитектуры, и спрашивают обоснование критики Mistral. Ранее: Unsloth уже исправлял баги в Mistral Medium 3.5 и выходили GGUF-версии для 128B модели (см. AI Digest за 2026-05-01). Пост

    Источники: LocalLLaMA

  • Пять неожиданных особенностей модели Gemma 4

    Автор поделился наблюдениями о пяти неожиданных особенностях модели Gemma 4 после подробного изучения. Материал посвящён тому, как меньшие открытые модели могут конкурировать с крупными решениями на рынке. В статье разбираются конкретные преимущества, которые заставляют пересмотреть подход к выбору открытых моделей. Полный разбор доступен в статье, обсуждение в треде.

    Источники: LocalLLM

  • Простой тест для проверки возможностей локальных LLM

    Автор предлагает базовый тест для оценки практической полезности моделей: попросить написать Python-скрипт, который читает диск C: и сортирует папки по размеру от больших к меньшим. Локальные модели часто ошибаются — неправильно считают размеры файлов, создают рекурсивные функции внутри рекурсивных, выдают некорректный код. Облачные API тоже требуют проверки результата, но локальные решения пока чаще «умирают» на таких задачах. Пост

    Источники: LocalLLaMA

  • Открытые модели как альтернатива дорогим API в Cursor и OpenCode

    Пользователь Enterprise-тарифа Cursor потратил $10 за два промпта через GPT-5.5 и Claude-Opus, а в прошлом месяце сжёг $80 за неделю. При текущем ценообразовании облачных API единственное решение — переход на сравнимые open-source модели, которые стоят в 5-10 раз дешевле. Ожидается, что к концу года разрыв в качестве сократится достаточно для массового перехода. В комментариях отмечают риск прекращения открытого релиза моделей и делятся опытом покупки годовых подписок вроде MiniMax для фиксации затрат. Тема

    Источники: LocalLLaMA

  • Визуальные AI-модели дают в 6,5 раза больше загрузок, чем обновления чат-ботов

    Исследование Appfigures показывает, что добавление визуальных AI-моделей в приложения работает на привлечение аудитории лучше, чем апгрейды чат-ботов. Релизы функций для работы с изображениями дают в 6,5 раза больше загрузок, но большинство проектов не конвертируют этот интерес в выручку. Подробности в материале TechCrunch.

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

  • Qwen 3.6 27b находит баг, который пропустили GPT 5.5 и Claude Opus 4.7

    Пользователь протестировал локальную модель Qwen 3.6 27b против фронтир-моделей в задаче поиска багов в коде. Qwen с длительным обдумыванием обнаружил критическую ошибку, которую GPT 5.5 и Claude Opus 4.7 не заметили. После предоставления доказательств обе фронтир-модели признали ошибку. GPT 5.5 работает быстро, но как показывает этот случай, скорость не всегда означает лучшую точность. Обсуждение

    Источники: LocalLLaMA

  • Horus 1.5 Instruct: новая версия египетской LLM с контекстом 64K

    TokenAI и Assem Sabry представили Horus — первую полностью обученную с нуля LLM из Египта. Исходный код тренировки открыт на GitHub. Анонсирована версия Horus 1.5 Instruct: в 5 раз лучше предшественника, контекст 64K против 8K у Horus 1.0 4B, улучшенная архитектура. Параллельно разрабатывается специализированная модель для кибербезопасности, обучаемая на триллионах security-данных для детектирования и исправления уязвимостей. В комментариях спрашивают о локальной инфраструктуре для тренировки — Египет не входит в tier-1 по доступу к GPU. Ранее: TokenAI анонсировали первую египетскую LLM в апреле, теперь представили улучшенную версию 1.5 Instruct. Hugging Face

    Источники: LocalLLaMA

  • APEX MoE кванты: 30+ моделей и новый I-Nano тир

    Обновление коллекции APEX — MoE-aware mixed-precision quantization стратегии. С момента первого поста добавлено 25+ моделей across major families: Qwen 3.5/3.6 до 397B, MiniMax-M2.5/M2.7 (228B/24B active), Mistral-Small 4, Nemotron-3, Gemma 4. Новый тир I-Nano (IQ2_XXS) сжимает mid-layer experts до 2.06 bpw — на 20% меньше I-Mini. Пользователи отмечают, что I-Balanced и I-Compact сохраняют когерентность на 32K+ токенах, а код-кванты близки к F16 на реальных задачах. Qwen3.6-35B-A3B в APEX-I-Balanced работает быстрее unsloth UD-Q4_K_XL на Strix Halo. Ранее: APEX-кванты для GGUF анонсированы в апреле, с тех пор добавлены основные семейства моделей. Коллекция

    Источники: LocalLLaMA

  • Сравнение Qwen 3.6 27B и Qwen-3 Coder

    В сообществе обсуждают, какая модель лучше для локального использования: Qwen 3.6 27B или специализированный Qwen-3 Coder. Пользователи отмечают, что популярность сильно зависит от поддержки в инструментах вроде llama.cpp и совместимости с видеокартами, например AMD 7900xtx. В комментариях делятся ссылками на тесты, где сравнивают производительность кодинга, но напоминают, что достичь уровня Claude локально пока сложно из-за ограничений обучающих данных. Тред

    Источники: LocalLLM

  • Qwen3.6:27B против Claude Code в реальной работе

    Автор считает Qwen3.6:27B первой локальной моделью, способной конкурировать с Claude Code в задачах вроде рефакторинга и генерации тестов. Сложная архитектура всё ещё требует облачных моделей, но разрыв сокращается. Для комфортной работы через CLI агент потребовался fine-tuning настроек. В комментариях делятся опытом гибридных сетапов: локальная 27B для легких задач и облачные Sonnet или Opus для сложных. Некоторые пользователи отмечают скорость до 70 t/s для 35B модели на RTX 5080 при правильной настройке слоев. Обсуждение

    Источники: LocalLLM

Локальный инференс: железо и квантование

  • Первый селф-хостед LLM-сервер: 2×3060 12GB и производительность 15.5 токенов/с

    Пользователь собрал первую систему для локальных LLM: два GPU 3060 по 12GB, процессор Xeon W2225, 64GB RAM, NVMe. В качестве модели выбрана Qwen3.6-27b 4bit_k_xl от Unsloth с Hermes Agent поверх. При длине контекста 120k токенов и использовании TQ для кэша достигается скорость около 15.5 токенов в секунду. VRAM заполнена почти полностью. Автор сравнивает запуск с трактором: медленно стартует, но работу выполняет. Сообщество обсуждает, насколько эти результаты соответствуют ожиданиям для такой конфигурации. Ранее: в майских дайджестах уже освещались конфигурации селф-хостинга на разных GPU (R9700, RTX 3090, M3 Ultra) и производительность локальных моделей. Пост

    Источники: LocalLLM

  • Запуск Qwen2.5-32B на 12GB VRAM: 1.22 токена/с через асинхронную потоковую загрузку

    Разработан движок инференса MazeLoader для запуска 32B моделей на 12GB GPU без компромиссов качества. Решение использует два механизма: асинхронный ring-buffer streaming (VRAM как конвейер на 7 слотов с одновременной загрузкой NVMe → RAM → VRAM → compute) и спекулятивное декодирование с деревом из 2029 узлов. Первые 24 уровня постоянно закреплены в RAM, используется кастомный Triton AWQ-4 декод кёрнел в 5–6 раз быстрее eager PyTorch. В бенчмарке с генерацией ThreadPoolExecutor достигнуто 1.22 токена/с против 0.1 у AirLLM и 0.3–0.5 у llama.cpp. Пиковое потребление: 10.7/12.0 GB VRAM, 26.6/31.7 GB RAM. Проект открыт на GitHub. Детали

    Источники: LocalLLM

  • Запуск Qwen3.6-35B на ноутбуке с 6GB VRAM: практическая конфигурация

    Пользователь успешно запустил Qwen3.6-35B-A3B на 5-летнем ноутбуке Asus ROG Zephyrus G14 с RTX 2060 Max-Q (6GB VRAM). Модель работает на ~23 t/s, сохраняя 10+ t/s даже от батареи. В посте приведены полные команды llama-server с настройками кэша, потоков, контекста до 131k и спецификативным декодированием ngram-mod. В комментариях обсуждают оптимизацию offloading и делятся опытом на аналогичном железе. Гайд

    Источники: LocalLLaMA

  • Тестирование PrismML Ternary Bosai на Mac M4 и Windows CPU

    Пользователь протестировал модели PrismML Ternary Bosai на разных платформах. На Mac Mini M4 с MLX результаты впечатляют: Bonsai 1.7B выдаёт ~135 t/s, 4B — ~67 t/s, 8B — ~41 t/s при контексте 4K. На Windows с Ryzen 5700G (только CPU, llama.cpp fork) показатели значительно ниже: 1.7B Q2_0 — 8–9 TPS, 4B Q2_0 — 3.6 TPS, при этом время до первого токена (TTFT) очень долгое. Ожидается, что CUDA-версия покажет лучшие результаты. Тесты

    Источники: LocalLLM

  • TensorSharp: движок инференса LLM на C#

    Представлен TensorSharp — open source проект для локального инференса LLM, написанный на C#. Движок позволяет запускать модели локально без зависимости от Python-стека, что может быть полезно для .NET-разработчиков, работающих с локальными моделями. Проект

    Источники: LocalLLM

  • Как температура влияет на выбор токенов в LLM

    Автор эксперимента заметил, что GPT-4o выбрал токен с вероятностью 1.9% вместо варианта с 97.6% из-за параметра temperature. При значении выше нуля модель сэмплирует из распределения вероятностей, а не всегда берёт наиболее вероятный вариант. Для задач, требующих фактологической точности и стабильности, рекомендуется устанавливать temperature = 0, что делает вывод детерминированным. Подробный разбор математики softmax и влияния температуры на логиты доступен в обсуждении.

    Источники: LocalLLM

  • Проблемы квантования в llama.cpp ниже Q5

    Пользователь сообщает о некорректной работе стандартных квантов llama.cpp (например, Q4_K_M) на моделях семейства Qwen, указывая на галлюцинации и зацикливание. В сравнении с методом AutoRound Q2_K_Mixed, стандартные варианты показывают худшие результаты даже при большем размере файла. Автор рекомендует использовать AutoRound для квантования уровня Q1-Q4, пока сообщество не предложит альтернативы. В комментариях отмечают необходимость сравнения с BF16 и предлагают добавить поддержку AutoRound в треде.

    Источники: LocalLLaMA

  • Опыт использования 4090 для локальных моделей в OpenClaw

    Пользователь поделился опытом неудачной попытки настроить локальный инференс на MSI Liquid Suprim 4090. В течение недели тестировались Ollama, Gemma, Qwen и Mistral в связке с OpenClaw, но модели не справились с tool calling и рассуждениями на длинном контексте. В итоге автор перешёл на VPS и подписку Claude в собственном форке OpenClaw. Обсуждение возможных причин неудачи доступно в треде.

    Источники: LocalLLM

  • Сжатие внимания DeepSeek-V4 и квантование Gemma-4: возможна ли комбинация?

    Обсуждается вопрос совместимости двух оптимизационных техник — сжатого внимания из DeepSeek-V4 и квантования из Gemma-4. Участники дискуссии предполагают, что объединение этих подходов может сократить потребление памяти LLM в 20-30 раз в будущем. Пока остаётся открытым вопрос эффективной интеграции обоих методов в единую архитектуру. Обсуждение

    Источники: LocalLLM

  • Утечка: Ryzen AI Max+ 495 с 192 ГБ памяти

    Появились данные о спецификациях AMD Ryzen AI Max+ 495 (Gorgon Halo) с поддержкой до 192 ГБ памяти. Обсуждается целесообразность апгрейда с текущих моделей 395 на Medusa Halo в 2027 году. Участники отмечают, что увеличение объема RAM не решает проблему скорости префиллинга, поэтому устройство может быть эффективнее для запуска нескольких небольших моделей параллельно. Источник

    Источники: LocalLLaMA

  • Обновление GGUF моделей Gemma 4

    Исправлен шаблон чата для GGUF версий Gemma 4, рекомендуется обновить файлы моделей. Доступны варианты от bartowski и Unsloth, включая версии 31B, 26B-A4B, E4B и E2B. В обсуждении уточняют детали исправлений, некоторые пользователи отмечают стабильность предыдущих версий с флагом Jinja. Подробности

    Источники: LocalLLaMA

  • AMD Ryzen AI Max+ 495 (Gorgon Halo) с 192 ГБ памяти — утечка

    В сети появилась информация о новом APU AMD Ryzen AI Max+ PRO 495 с поддержкой до 192 ГБ памяти. Важно уточнить: это не видеопамять в классическом понимании, а унифицированная RAM на базе LPDDR5X, которая примерно в 12 раз медленнее GDDR7. Комментаторы отмечают, что увеличение объёма памяти без роста пропускной способности позволяет загружать более крупные модели, но скорость инференса остаётся ограниченной — модели с 10B+ активных параметров работают медленно. Следующее поколение Medusa Halo ожидается в 2027 году с потенциальными 256 ГБ. Подробнее

    Источники: LocalLLM

  • NVFP4 квантование теряет скорость при оффлоаде слоёв на CPU

    Пользователь столкнулся с неожиданным падением производительности при использовании NVFP4 квантования на GPU Blackwell (RTX 5070). Модель Qwen3.6 35B A3B Q4_K_XL выдавала 50 ток/с в стандартном режиме, но при переключении на NVFP4 с оффлоадом части слоёв на CPU скорость упала до 14 ток/с. Проблема в том, что модель не помещается полностью в 12 ГБ VRAM. Судя по обсуждению, NVFP4 показывает полную эффективность только когда модель целиком размещается в видеопамяти. Обсуждение

    Источники: LocalLLaMA

  • Сравнение производительности DGX Spark и M3 Ultra для локальных LLM

    Пользователь протестировал связку DGX Spark и M3 Ultra с использованием exo для разделения prefill и decode. DGX Spark показал прирост производительности от 1.4x до 3.4x в задачах prefill в зависимости от модели по сравнению с M3 Ultra. Для оптимальной работы llama.cpp на Spark критично установить параметр `mmap=0`, иначе время загрузки модели увеличивается с секунд до минут. Автор отмечает, что текущая конфигурация работает тише и компактнее ожидаемого M5 Ultra, и рассматривает добавление второго Spark через 200GbE. В комментариях обсуждают вероятность выхода M5 Ultra с 512 ГБ RAM и совместимость подхода со Strix Halo. Подробнее в посте

    Источники: LocalLLaMA

  • Поддержка MTP в llama.cpp перешла в бету

    В llama.cpp добавлена поддержка MTP (multi-token prediction) в бета-версии, что может сократить разрыв в производительности генерации токенов между llama.cpp и vLLM. На данный момент реализована поддержка MTP для моделей Qwen3.5, но ожидается расширение на другие архитектуры. Сообщество называет это потенциально крупнейшим изменением для проекта, особенно полезным для плотных моделей. В комментариях пользователи запрашивают сравнение методов спекулятивной генерации, таких как Eagle-3, DFlash и ngram, чтобы понять различия в требованиях к драфт-моделям. Обсуждение релиза

    Источники: LocalLLaMA

  • Эффективность оффлоада моделей в системную RAM

    Пользователь с RTX 5060 Ti (16GB VRAM) и 48GB оперативной памяти спросил о целесообразности запуска 30B моделей через оффлоад. В комментариях отмечают, что технология работает, но скорость генерации значительно падает при выходе за пределы видеопамяти. Для карт такого уровня рекомендуются квантованные модели 7B–14B, тогда как 30B будут работать заметно медленнее. Для MoE-архитектур советуют оффлоадить слои на CPU до освобождения места в VRAM, что показывает лучшие результаты. Дискуссия на Reddit.

    Источники: LocalLLM

  • Оптимизация Qwen3.6:35B на RTX 5080

    Пользователь тестирует MoE-модель qwen3.6:35b (36B) на RTX 5080 с 16 ГБ VRAM через Ollama. Скорость генерации около 11.5 t/s, часть весов уходит в системную память, контекст ограничен стандартными настройками. В обсуждении советуют перейти на llama.cpp для лучшего контроля над слоями и кэшем, так как Ollama может не давать нужной гибкости для MoE-архитектуры. Обсуждение

    Источники: LocalLLM

Агентные системы и оркестрация

  • Карпати: LLM — это «призраки», а агентная инженерия становится новой дисциплиной

    Андрей Карпати обсудил с партнером Sequoia Стефани Зан эволюцию подхода к программированию спустя год после введения термина «vibe coding». По его словам, он никогда не чувствовал себя настолько отстающим в программировании, как сейчас, но видит формирование серьезной дисциплины агентной инженерии поверх интуитивного кодинга. Карпати предлагает воспринимать LLM не как животных, а как «призраков» — статистические сущности, требующие вкуса и суждений для управления. В разговоре также затронули концепцию Software 3.0, пределы верифицируемости кода и мысль о том, что можно делегировать мышление, но не понимание. Обсуждение

    Источники: singularity

  • OpenHawk: Agent OS на Rust для управления локальными AI-агентами

    OpenHawk — локальная операционная система для агентов, которая управляет AI как реальными процессами с Copy-on-Write снапшотами, JSON-RPC шиной, песочницей на агента и шифрованием секретов. Вместе с ним автоматически устанавливаются 5 инструментов: Aura (память и доказательства), SQZ (компрессия контекста), Etch (детекция изменений API), GhostDep (поиск неиспользованных зависимостей), ClaimCheck (верификация утверждений агентов). SQZ уже показал статистику: 3003 компрессии, сэкономлено 178 442 токена, среднее сокращение 24.7%, максимум до 92% с дедупликацией. Стек позиционируется как инфраструктура, которая накапливает знания между сессиями вместо сброса контекста. GitHub Ранее: Aura упоминался как локальный демон для памяти и верификации действий ИИ.

    Источники: LocalLLM

  • Grove: ветвление чатов для Ollama как в Git

    Grove решает проблему «отравления контекста» — когда уход в сторону по теме сбивает модель с основной нити разговора. Интерфейс позволяет создавать ветки чата как Git-бранчи: исследование темы идёт в отдельной ветке, основная нить остаётся чистой и не видит сообщения из ветки. Под капотом каждый API-вызов к LLM остаётся stateless, Grove контролирует список сообщений на ветку. Есть веб-UI, CLI, REST API, сессии сохраняются в SQLite. В версии 0.3 планируются команды `/select`, `/prune`, `/replay`, `/move` для хирургического редактирования контекста. Репозиторий Ранее: упоминался другой инструмент Grove для распределённого обучения локальных LLM через автообнаружение узлов.

    Источники: ollama

  • Маршрутизация моделей: LiteLLM + llama-swap для локальных и облачных LLM

    Автор использует локально Qwen3.6 27b и 35b, Qwen3 Coder Next и Gemma 4, ищет оптимальную схему переключения между ними. LiteLLM не поддерживает загрузку моделей, поэтому для локального свопинга рассматривается llama-swap, а LiteLLM — для маршрутизации на облачные модели и сбора статистики использования. Основная проблема: если Hermes Agent должен программно переключать локальные модели (через cron и т.п.), соединение технически не разрывается, но модель загружается заново. Обычно свопинг обрабатывается через роутер вроде LiteLLM, поэтому автор сомневается в жизнеспособности подхода и ищет опыт других пользователей с похожей настройкой. Тема

    Источники: LocalLLM

  • Надёжность AI-агентов в продакшене: опыт 8 месяцев эксплуатации

    Пользователь делится опытом запуска AI-агентов в продакшене и поднимает вопрос о надёжности. Основная проблема: при сбое внешнего API агент может потерять контекст и начать работу заново, что приводит к ошибкам у клиентов. За 8 месяцев эксплуатации слой обвязки (ретраи, чекпоинты, лимиты бюджета, circuit breakers) может разрастись больше, чем сама логика агента. В обсуждении спрашивают о худших инцидентах в продакшене и о том, сколько кода уходит на обработку ошибок. Обсуждение

    Источники: AgentsOfAI

  • Архитектура систем самосознания в Thoth

    Автор проекта Thoth опубликовал архитектурные диаграммы для системы самосознания и управления контекстом. Это дополнение к описанию 6 базовых систем проекта, вызвавшему интерес в комьюнити. Схемы полезны для понимания реализации подобных механизмов на локальных моделях. Репозиторий на GitHub, обсуждение в посте.

    Источники: ollama

  • Автономная генерация аналитических отчётов с Hermes Agent и Qwen3.6-35B

    Исследователь с 15-летним опытом в государственном секторе протестировал Qwen3.6-35B-A3B в Hermes Agent для подготовки аналитических отчётов уровня McKinsey. Система работала 5 часов автономно, выполняя 6 итераций над 21-страничным документом: от черновика до диагностики проблем, исправлений и создания графиков. Производительность составила 28 ток/с на конфигурации Intel 12th Gen, 32 ГБ RAM, RTX 4060, LinuxMint. Результат оценён как «достаточно хороший для старта». Все промпты, скрипты и артефакты выложены в репозиторий, включая финальный отчёт о состоянии ИИ в Европе в форматах md, docx и pdf. Репозиторий

    Источники: LocalLLaMA

  • OpenAgentd: миграция с Openclaw и Hermes Agent

    Вышел инструмент миграции для перехода с Openclaw и Hermes Agent на OpenAgentd — селф-хостед систему мульти-агентов. Решение работает как локальный сервис с веб-интерфейсом, постоянной памятью и координацией между агентами. Все данные остаются на локальном оборудовании. Команды миграции: `openagentd migrate openclaw` и `openagentd migrate hermes`. GitHub

    Источники: ollama

  • Sentinel: local-first приложение для AI-кодинга с открытым кодом

    Разработчик Achaq анонсировал Sentinel — десктопный инструмент для работы с ИИ в локальных проектах с подходом local-first. Рабочее пространство привязано к папке на машине, каждый тред хранит историю репозитория, терминал, браузер, диффы и задачи вместе. Инструмент поддерживает 14 провайдеров, включая Ollama для локальных моделей, и интегрируется с Claude Code, Cursor и другими. Проект находится в альфа-версии, код полностью открыт и доступен для форка. Подробнее на Reddit, репозиторий на GitHub.

    Источники: ollama

  • Сравнение расхода токенов: PI Coding Agent против OpenCode

    В сообществе подняли вопрос эффективности использования токенов при выборе между агентами PI Coding Agent и OpenCode на одной локальной модели. Автор акцентирует внимание на том, чтобы не тратить лишние токены впустую во время задач кодинга. Конкретные метрики и результаты сравнения обсуждаются в ветке. Обсуждение на Reddit.

    Источники: LocalLLM

  • Oransim: симулятор причинно-следственных связей с локальными LLM

    Автор проекта представил Oransim — решение с лицензией Apache 2.0, сочетающее структурные причинные модели (SCM), процессы Хоукса и агентов на базе LLM. Инструмент позволяет запускать симуляции сценариев «что если» локально, используя ollama, vllm или lm studio через openai-совместимый шлюз. В основе лежит do-исчисление для чистоты семантики вмешательств и самовозбуждающиеся точечные процессы для учета вирусных каскадов. Авторы ищут обратную связь по вопросам идентифицируемости и калибровки параметров на синтетических данных. Описание проекта на Reddit, код на GitHub.

    Источники: LocalLLM

  • Crawl4ai против Firecrawl: опыт использования для пайплайнов данных

    Автор сравнил два инструмента для сбора веб-данных под LLM. Crawl4ai — бесплатный, open-source, работает локально через Docker, требует минимум 4GB RAM. Настройка заняла около часа, но периодически возникали проблемы с инфраструктурой, особенно на JS-тяжёлых сайтах. Firecrawl надёжнее, обрабатывает 96% веба включая Cloudflare и динамический контент, выдаёт чистый markdown. Стартовый план $16/месяц с 500 бесплатными кредитами для теста. В комментариях отмечают, что Docker-версия Crawl4ai со временем начинает дропать запросы, а у Firecrawl кредиты не переносятся на следующий месяц — помогает map endpoint для точечного краулинга. Обсуждение

    Источники: AgentsOfAI

  • Анализ жизнеспособности claw/assistant проектов по bus factor

    Пользователь проанализировал статус разработки популярных assistant-фреймворков через метрику bus factor — минимальное число контрибьюторов, на которых приходится более половины коммитов. Среди активных: picoclaw (bus factor 15, 7.6% от топ-автора), QwenPaw (6, 12.2%), zeroclaw (4, 26.5%). Проекты с bus factor 1 и высокой долей одного автора считаются рискованными для долгосрочного использования. В списке «мёртвых» проектов — 16 репозиториев с полным падением активности в апреле. В комментариях отмечают, что openclaw с 14.5k коммитами за апрель выглядит подозрительно, а для минимизации vendor lock-in стоит выбирать простые self-contained решения вроде Hermes. Пост

    Источники: LocalLLaMA

Ollama: облако и локальные проблемы

  • Ограничения Ollama при работе с thinking-режимом DeepSeek V4 Pro

    Пользователь спрашивает, можно ли настроить уровень thinking effort для DeepSeek V4 Pro через Ollama в opencode. В комментариях объясняют, что это ограничение архитектуры: DeepSeek API предоставляет нативные контроли уровня рассуждений, тогда как Ollama работает с thinking в режиме вкл/выкл без градаций усилия. Разница в слоях абстракции означает, что тонкая настройка effort level доступна только через прямой API провайдера. Тред

    Источники: ollama

  • Галлюцинации и зацикливание в Gemma 4:26b через Ollama

    Пользователь столкнулся с необычным поведением reasoning-модели Gemma 4:26b в Ollama — модель застряла в цикле многократного повторения одной фразы о промпте, постоянно утверждая «NO» и не могла выйти из этого состояния. В логах мыслей видно, как модель начала галлюцинировать содержание промпта и зациклилась на проверке собственного вывода. Такой кейс показывает, что даже современные reasoning-модели могут сталкиваться с проблемами стабильности при локальном запуске. Обсуждение

    Источники: ollama

  • Мониторинг скорости и аптайма Ollama Cloud

    Энтузиаст создал инструмент для отслеживания производительности облачных моделей Ollama — страница мониторит время ответа и доступность каждый час. Это позволяет оценить реальную скорость работы облачного хостинга Ollama перед использованием. Данные собираются автоматически и показывают фактические метрики производительности. Мониторинг

    Источники: ollama

  • Миграция на локальную LLM и лимиты контекста

    Пользователь поделился опытом перехода с Claude на локальную модель. На Mac Studio с 64 ГБ ОЗУ через Unsloth запустили Qwen 3.6, но при отправке CSV-файла с данными сразу возникла ошибка превышения лимита в 262k токенов. Автор спрашивает, нужно ли пересматривать workflow работы с контекстом при миграции на локальные решения. Обсуждение нюансов в посте.

    Источники: LocalLLM

  • Проблемы стабильности Gemma4 в LM-Studio

    Пользователи сталкиваются со стабильными вылетами LM-Studio при работе с Gemma4. На видеокарте 9070xt модель падает каждые несколько сообщений с ошибкой 'model has crashed without additional information'. Пробовали разные версии runtime, бета-релизы, Vulkan и ROCm, уменьшали контекст до 4k — проблема сохраняется. Подробности troubleshooting в треде.

    Источники: LocalLLM

  • Ollama Cloud Pro — облачный доступ к большим моделям за $20/мес

    Ollama запустила облачный сервис для работы с крупными открытыми моделями через API. Подписка Ollama Cloud Pro ($20/мес) даёт доступ к GLM-5.1, Kimi K2.6, DeepSeek-V4-Pro и другим моделям в инструментах вроде Claude Code, Hermes, OpenClaw, Copilot CLI. Можно добавить три модели в аккаунт. Есть ограничения: сессия длится 5 часов, также действует скользящий недельный лимит — срабатывает то, что исчерпается раньше. Для подключения нужно установить Ollama, войти в аккаунт ollama.com и запустить команду вида `ollama launch claude --model deepseek-v4-pro:cloud`. Настройка занимает около 10 минут. Документация Ollama Cloud

    Источники: prompt_design

  • Пользователи сообщают о проблемах с GLM 5.1 в Ollama Cloud

    Участники сообщества отмечают ухудшение качества ответов GLM 5.1 через Ollama Cloud. По наблюдениям пользователей, модель стала выдавать менее точные результаты по сравнению с предыдущими версиями. Точные причины изменений не уточняются, но пользователи советуют проверить используемую квантизацию и конфигурацию стека. Тред

    Источники: ollama

  • Задержки ответов в Ollama связаны с rate limiting API

    Пользователи столкнулись с длительными задержками при работе с Ollama — до 41 минуты ожидания. Проблема вызвана не замедлением моделей, а ограничением запросов API. После ожидания система возобновляет работу и завершает конфигурацию. В логах видно исправление префикса ollama-cloud/ в конфиге agent/config.yml. Обсуждение

    Источники: ollama

Голосовые и образовательные проекты

  • Voice Agents from Scratch: пошаговый туториал по созданию голосовых агентов

    Автор выложил репозиторий с полным пайплайном для голосовых агентов: захват микрофона → Whisper для STT → локальная GGUF-модель через llama.cpp → Kokoro для TTS → вывод на динамик. Ключевая особенность — потоковая обработка: TTS начинает говорить, не дожидаясь полного ответа от LLM, что создаёт ощущение живого разговора. Репозиторий разбит на 9 глав с запускаемыми скриптами и walkthrough для каждой. Проект написан на Python — автор отмечает, что экосистема Node.js пока не готова для таких задач (нет нормальной поддержки Whisper и обработки аудио). Репозиторий Ранее: в предыдущих дайджестах упоминались PATY (open-source голосовой ассистент с низкой задержкой) и сквозные локальные воркфлоу для создания аудио-контента.

    Источники: LocalLLaMA

  • 17-летний разработчик зарабатывает на AI-автоматизации через n8n

    Подросток создал автоматизацию на n8n, которая находит бизнесы с низкими оценками на Google Maps и отправляет им персонализированные письма с предложением услуг. Клиенты получают новый сайт или чат-бот, автор проекта за апрель заработал $1000 — больше, чем его старший брат в тот же месяц. Система находит, например, компании проката авто с жалобами на неудобный сайт и предлагает решение. История

    Источники: AgentsOfAI

  • Монетизация офлайн-приложений на локальном ИИ

    Обсуждается проблема тарификации использования локальных ИИ-приложений без постоянного подключения к сети. Автор предлагает схему с подписанными кредитными пакетами (Ed25519), которые верифицируются на устройстве и обновляются по истечении срока. В обсуждении выясняют, какие методы ограничения доступа используют разработчики сейчас и насколько критична возможность копирования токенов между устройствами. Обсуждение

    Источники: ollama

  • Поиск датасетов для дистилляции с фронтир-моделей

    Пользователь ищет крупные датасеты, дистиллированные с моделей уровня GPT-5.5 или Opus-4.6, отмечая нехватку объемных данных на Hugging Face из-за лицензионных ограничений. В комментариях советуют использовать расширенные фильтры поиска по размеру датасетов. Также предлагают альтернативу: генерацию данных через API OpenRouter на базе DeepSeek v4 Pro для создания собственных наборов данных. Тред

    Источники: LocalLLaMA

  • Учебный проект: голосовое управление через SLM

    Разработчик создал голосовую игру «Крестики-нолики» для отработки полного пайплайна ASR → SLM → Actions → TTS. Для парсинга интентов сделали fine-tuning Gemma4-4B на датасете из ~1000 примеров под вызов функций игры. Код проекта открыт, детали реализации в посте.

    Источники: LocalLLM

Эксперименты и специализированные применения

  • Эксперимент с архитектурой «reverse LLM» для улучшения кодогенерации

    Автор тестирует подход с добавлением небольшой вспомогательной модели к основной для генерации кода. Идея вдохновлена находками в нейробиологии из материала Repeat Yourself. Суть в «side car» модели, которая читает текст с конца и вставляет результат в начало цикла, что значительно улучшает синтаксис у компактных моделей. Сейчас идет обучение 9B версии после успешных тестов на 1.7B, планируется полная проверка на датасете HumanEval. В обсуждении идею назвали интересной, хотя некоторые сравнили её с технологией Ральфа Виггама. Подробности эксперимента в посте.

    Источники: LocalLLaMA

  • Агент для анализа CI-сбоев на связке Haiku и Opus

    Компания Mendral внедрила двухуровневую архитектуру агента, где дешёвая модель Haiku фильтрует 80% известных сбоев до обращения к Opus. Такой подход снизил общие затраты ниже уровня использования чистого Sonnet, сохранив эффективность анализа. Автор отмечает, что маленькие модели показывают высокую точность в чётко описанных сценариях с использованием SKILLs и MCP. Детали кейса с цифрами и архитектурой обсуждаются в канале.

    Источники: ai_for_devs

  • Запуск VLM на спутнике для предотвращения пожаров

    Разработан пайплайн предотвращения лесных пожаров, где Vision-Language Model работает непосредственно на спутнике на снимках Sentinel-2. Ключевое ограничение — пропускная способность: вместо выгрузки огромных матриц изображений на борту запускается 450M VLM, отправляющая на землю только JSON-профиль рисков. Модель анализирует сочетание RGB и SWIR-каналов, фиксируя влажность растительности как основной индикатор топлива для огня. Для доказательства концепции локально симулируется орбита через Docker, inference идёт на LFM2.5-VL-450M via llama-server, результаты визуализируются в Streamlit. В планах автора — раскрыть данные, evals и fine-tuning для улучшения качества модели. Исходный код и описание архитектуры доступны в Liquid AI Cookbook, подробности в посте.

    Источники: LocalLLaMA

  • Утилита claudely для локальных провайдеров в Claude Code

    Появилась утилита claudely, позволяющая запускать Claude Code против локальных LLM-провайдеров таких как LM Studio, Ollama или llama.cpp. Инструмент предназначен для работы с локальными моделями без изменения конфигурации основного Claude. Это даёт возможность тестировать локальные бэкенды в интерфейсе Claude Code. Подробнее о проекте в треде.

    Источники: ollama

  • LLMSearchIndex: локальный поисковый индекс для RAG

    Разработчик опубликовал библиотеку LLMSearchIndex для полностью локального поиска без платных API. Индекс основан на сжатых данных FineWeb и Wikipedia, занимает около 2 ГБ и работает на большинстве локальных железок для быстрой выдачи контекста. В обсуждении пользователи отмечают, что качество выдачи пока уступает Google и SearXNG, особенно в точности фактов, но проект перспективен для селф-хостинг решений. Некоторые рекомендуют альтернативы вроде Firecrawl для задач, где важна актуальность и точность данных. Обсуждение проекта

    Источники: LocalLLaMA