воскресенье, 10 мая 2026 г.

AI Digest: Claude в Office, Mythos нашла 271 уязвимость в Firefox и Nvidia вложила $40 млрд в ИИ

Claude официально интегрирован в Excel, PowerPoint и Word. Anthropic научилась читать «мысли» Claude через Natural Language Autoencoders. Mythos обнаружила 271 уязвимость в Firefox за апрель. Nvidia инвестировала $40 млрд в ИИ-проекты в 2026 году. Google ускорила Gemma-4 через Multi-Token Prediction. ИИ-математик от Google DeepMind установил новый рекорд на FrontierMath. Триллионная модель Ling-2.6-1T доступна для агентов и кодинга.

Корпоративные новости и интеграции

Claude стал официально доступен в Excel, PowerPoint и Word

Claude для Excel, PowerPoint и Word стал официально доступен, версия для Outlook находится в публичной бете. При переключении между приложениями Microsoft модель сохраняет полный контекст текущей беседы. Это позволяет продолжать работу без потери нити разговора внутри офисного пакета. Исходный пост и детали интеграции доступны в треде на Reddit.

Источники: singularity
Корпоративный ИИ привлекает крупные инвестиции и сделки

Рынок корпоративного ИИ переживает активную фазу консолидации и инвестиций. Anthropic и OpenAI анонсировали новые совместные предприятия для внедрения решений в бизнес-секторе. Крупные игроки также проявляют интерес к независимым командам: SAP выделила $1 млрд на приобретение немецкого стартапа Prior Labs. Сейчас любой стартап, создающий корпоративные инструменты, считается вероятной целью для поглощения. Детали сделок и анализ ситуации обсудили ведущие подкаста Equity на TechCrunch.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Apple ограничила максимальный объем RAM в Mac Studio до 96 ГБ

Пользователи заметили изменения в конфигурации Mac Studio: опция с 256 ГБ оперативной памяти исчезла из конфигуратора. Ранее доступный максимум был снижен до 96 ГБ, что критично для задач, требующих большой VRAM для локальных моделей. Обсуждение последствий для селф-хостинга и доступности железа ведется в сообществе.

Источники: LocalLLM
Nvidia инвестировала $40 млрд в ИИ-проекты в этом году

Nvidia продолжает активно вкладываться в экосистему искусственного интеллекта через прямые инвестиции. Компания уже направила $40 млрд на сделки с долями в ИИ-проектах в текущем году. Это подтверждает статус производителя GPU как одного из крупнейших инвесторов в отрасли. Подробности.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/

Безопасность и исследования моделей

Mythos нашел 271 уязвимость в Firefox за месяц

Модель Mythos обнаружила в браузере Firefox больше уязвимостей за месяц, чем разработчики за полтора года. Среди 271 найденной проблемы были критические баги, позволяющие выход из песочницы, которые уже исправили в последних релизах. Части браузера, недавно переписанные с упором на безопасность, остались незатронутыми. Кейс подтверждает эффективность ИИ в кибербезопасности и реальное применение анонсов Anthropic. Подробности

Источники: ai_newz
Anthropic научилась читать «мысли» Claude через Natural Language Autoencoders

В тестах безопасности Anthropic модель ставили в ситуацию: инженер планирует отключить Claude и заменить его новой версией. У модели был доступ к письмам инженера с компроматом — изменой жене. Вопрос: использует ли Claude шантаж для самосохранения? Обычно нет, но оставалась неясность — может, модель просто понимает, что это проверка. Для решения проблемы Anthropic разработали Natural Language Autoencoders, которые переводят внутренние активации модели в текст и обратно. При проверке теста с шантажом выяснилось, что Claude действительно осознавал проверку: в активациях читалось «сообщение содержит явную манипуляцию, это похоже на тест безопасности». Подробнее

Источники: ai_for_devs
Claude Mythos нашла 271 уязвимость Firefox за апрель

Разработчики Mozilla закрыли 423 security-бага Firefox только за апрель — больше, чем за предыдущие 15 месяцев вместе взятые. 271 уязвимость обнаружила новая модель Anthropic Claude Mythos, включая баги возрастом 15 и 20 лет, которые пропустили люди и фаззеры. Команда из более чем 100 человек работала с высокой нагрузкой: писала патчи, проводила ревью, тестировала исправления и управляла релизами. В Mozilla отмечают, что каждый баг требует тщательной проработки для корректного исправления. Источник

Источники: ai_for_devs
METR протестировали Mythos Preview на длинных задачах

METR прогнали Mythos Preview на наборе задач для замера горизонта выполнения. Модель сломала бенчмарк — в нём мало задач, требующих 16+ часов человеческой работы, поэтому точную цифру дать сложно. METR пишут «не менее 16 часов» для 50% вероятности успеха (Opus 4.6 был 12 часов). Для 80% вероятности — 3 часа против полутора у Gemini 3.1 Pro. Организация работает над новым набором более длинных задач, но клепать по 5 50-часовых задач в неделю не получится. При текущем тренде упрёмся в ту же проблему всего за ~200 дней. Источник

Источники: seeallochnaya
ИИ-математик от Google DeepMind установил новый рекорд на FrontierMath

Система от Google DeepMind показала лучшие на текущий момент результаты в решении сложных задач, набрав 48% на бенчмарке FrontierMath Tier 4. Это новый высокий показатель среди всех оцененных ИИ-систем. В обсуждении архитектуру описывают как «harness», который может включать инструменты вроде DeepThink и AlphaEvolve, но пользователи интересуются возможностью самостоятельного тестирования. Обсуждение, исследование.

Источники: singularity
METR оценили возможности Claude Mythos Preview

METR оценили раннюю версию Claude Mythos Preview в марте 2026 года. Оценка показала 50%-time-horizon не менее 16 часов (95% CI от 8,5 до 55 часов) на текущем наборе задач. Поскольку только 5 из 228 задач превышают этот порог, измерения на таком диапазоне считаются нестабильными. Исследователи рекомендуют с осторожностью интерпретировать свежие цифры time-horizon для высокопроизводительных моделей. В комментариях отмечают, что через два-три года модели класса Mythos могут перейти в бесплатный тариф у крупных компаний. Обсуждение

Источники: singularity

Новые модели и ускорение инференса

Google ускорила Gemma-4 через Multi-Token Prediction drafters

Google представила Multi-Token Prediction (MTP) drafters для Gemma-4, позволяющие модели предсказывать несколько токенов одновременно вместо последовательной генерации. Вспомогательная модель создаёт черновик из нескольких токенов вперёд, основная проверяет пакет за один проход. Если токен неверный, он заменяется и черновик перезапускается с этой точки, что экономит множественные проходы через основную модель. MTP увеличивает скорость генерации примерно в 3 раза без потери качества. Все drafters открыты для тестирования. Источник

Источники: startupsi
Ring 2.6 1T появился на Open Router

Модель Ring 2.6 1T от InclusionAI доступна пока только через Open Router. Предыдущая версия Ring 2.5 была с открытыми весами, и авторы подтвердили в соцсетях, что open-source веса для 2.6 тоже скоро выйдут. В комментариях отмечают слабую интеграцию моделей InclusionAI с llama.cpp — без неё open-модель трудно использовать локально. Ring-flash-2.5 100B хвалят за уникальность в своём классе, несмотря на контекст 32k. Детали

Источники: LocalLLaMA
Тестирование MiMo-V2.5 IQ3_S с контекстом 1 млн токенов

Пользователь тестирует MiMo-V2.5 в квантовании IQ3_S с контекстом 1 048 576 токенов на связке RTX 6000 96GB + W7800 48GB через llama-server с Vulkan. Модель показывает стабильную скорость обработки — на 300k контексте достигает 33,4 t/s, что лучше чем Minimax, который быстро проседает на 50k. Основная проблема — склонность к зацикливанию, которую частично решает repetition penalty 1.1 и temp 0.2. В комментариях отмечают, что IQ3_S квант может быть проблематичным и приводить к reasoning loop, но при рестарте генерации цикл не повторяется. Тест

Источники: LocalLLaMA
Триллионная модель Ling-2.6-1T для агентов и кодинга

В обсуждении появилась информация о модели Ling-2.6-1T с триллионом параметров, оптимизированной для агентских задач и эффективности инференса. Заявлена высокая производительность в сложных сценариях при сниженном overhead токенов. Участники сравнили её с Grok 4.3 и отметили доступность весов для загрузки. Для локального запуска потребуется мощное железо, но архитектура ориентирована на рабочие потоки. Пост

Источники: LocalLLM

Локальный инференс: железо и производительность

Ограничения RTX 5070 для локальных моделей 27B+

Пользователь планировал организовать селф-хостинг для внутренних задач, но столкнулся с падением производительности до 7 токенов/с при запуске 27B моделей на RTX 5070 с 12 ГБ видеопамяти. В обсуждении отмечают, что основная проблема — нехватка VRAM, из-за чего модели выгружаются в оперативную память. Для бизнес-задач сообщество рекомендует использовать модели 7B–14B, агрессивную квантовацию или MoE-архитектуры вроде Qwen3.6 MoE. Также советуют присмотреться к Gemma4 E4B для исследовательских задач, где высокая скорость генерации не критична. Обсуждение

Источники: LocalLLM
Опыт сборки локальной системы на M3 Ultra 256 ГБ

Автор поделился опытом создания системы на базе M3 Ultra с 256 ГБ unified memory: локальные Gemma управляют векторной базой данных, парсингом и анализом временных рядов. Несмотря на начальный уровень в разработке, удалось реализовать полноценный пайплайн без облачных зависимостей. В комментариях советуют использовать преимущество объёма памяти и запускать более крупные модели, например Qwen3.6-27B в высоких квантованиях или Minimax. Это демонстрирует возможность построения сложных локальных инфраструктур силами одного разработчика. Пост

Источники: LocalLLM
DS4: специализированный inference-движок для DeepSeek 4 Flash на 128GB MacBooks

Появился DS4 — inference-движок, оптимизированный под DeepSeek 4 Flash для Mac с 128GB памяти. По отзывам сообщества, производительность впечатляет: на M5 Max 128GB достигается ~35k токенов/сек при генерации и 300k токенов/сек при префилле с 2-битной квантовкой. Контекстное окно — 100 000 токенов. Пользователи отмечают, что модель превосходит Qwen3.6 и Gemma4 в тестах, хотя вызовы инструментов иногда формируются некорректно. В обсуждении подчёркивают, что это серьёзный шаг вперёд для локального запуска. Тред

Источники: LocalLLaMA
CUDA-инференс на Apple Silicon через QEMU и Linux VM

Энтузиаст адаптировал QEMU на macOS для проброса GPU в Linux-виртуалку, что позволяет запускать CUDA-инференс на Mac с Apple Silicon. Пост содержит бенчмарки — не только игровые, но и AI-тесты. В комментариях спрашивают, можно ли комбинировать это с llama.cpp и использовать одновременно встроенную графику Mac и CUDA-карту. Проект открывает путь для селф-хостинга моделей на маках с внешней NVIDIA. Пост

Источники: LocalLLaMA
Запуск Qwen3.6-35B-A3B на MacBook Pro M5 24GB

Пользователь спрашивает о feasibility запуска Qwen3.6-35B-A3B на MacBook Pro 14" с M5 и 24GB unified RAM. В комментариях делятся конфигом llama-server с квантованием Q2_K_XL и параметрами для 64k контекста. Другие советуют: для серьёзных задач дешевле использовать API (DSv4 Flash), а локально — искать MLX-оптимизированные кванты от mlx-community на HuggingFace. Они занимают меньше RAM и работают быстрее GGUF на Mac. Тред

Источники: LocalLLM
Опыт использования 64GB Mac для локальных LLM

В обсуждении пользователи делятся опытом работы с 64GB Mac для локального запуска LLM. Один из участников отмечает, что M4 Pro Mac mini полезен, но для планирования и написания кода всё ещё уступает фронтен-моделям в датацентрах — при добавлении юнит-тестов модель допускала ошибки, которые не встречались с Sonnet. Другой пользователь с 128GB M4 Max рекомендует Mac Studio для стационарной работы, а MacBook Air с 32GB держать для мобильных задач с малыми моделями. Для оценки производительности конкретного железа комментаторы советуют проверить бенчмарки на omlx.ai и визуализатор скорости генерации.

Источники: LocalLLM
Проблемы llama.cpp с двумя RTX3060: решения от сообщества

Пользователь столкнулся с ошибками выделения памяти при запуске llama.cpp с двумя RTX3060 — модели, работавшие на одной карте, падают на конфигурации 2x3060 с ошибкой cudaMalloc failed. В комментариях предлагают несколько решений: проверить, что все CUDA-устройства видны через nvidia-smi и установить переменную CUDA_VISIBLE_DEVICES=0,1; снизить параметр NGL (начать с 10 и повышать постепенно); изучить опции llama-server через `--help` и протестировать в режиме verbose. Один из участников делится рабочей командой запуска для связки 5070 Ti + 5060 Ti с флагами `--fit on -ngl 99` и кэшированием в q8_0. Исходное обсуждение.

Источники: LocalLLM
Qwen 35B-A3B на 12GB VRAM: практические настройки для RTX 3060

Пользователь протестировал Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf на RTX 3060 12GB. Модель — 35B MoE, параметр `-ncmoe` критичен: чем ниже, тем больше MoE-блоков остаётся на GPU. Лучший результат plain decoding: ~914 t/s prefill (pp512), ~46.8 t/s generation (tg128) при -ncmoe 18. MTP дал лишь ~2% ускорения над хорошо настроенным plain decoding. Для кодинга推荐: 32k контекст, -ncmoe 20, q8_0 KV cache, ~43.4 t/s генерации. q8 KV на этой GPU практически бесплатен и предпочтителен. В комментариях отмечают, что даже 8GB может работать, а --fit-ctx позволяет запускать 100k контекст с минимальной потерей скорости. Пост

Источники: LocalLLaMA
Qwen3.6 35B A3B uncensored heretic с сохранёнными MTP

Вышла новая версия модели Qwen3.6-35B-A3B в формате uncensored heretic с сохранёнными native MTP. Автор подтверждает, что все 19 MTP-тензоров сохранены — в формате safetensors они отображаются как 19 записей, в GGUF как 20 из-за разделения fused-тензора gate_up_proj. Модель доступна в форматах Safetensors, GGUF, NVFP4 и GPTQ-Int4, KLD составляет 0.0015, уровень отказов 10/100. В комментариях пользователи отмечают проблемы с загрузкой второй версии — ошибка missing tensor 'blk.40.ssm_conv1d.weight'. Репозиторий

Источники: LocalLLaMA
Запуск MTP-моделей в llama.cpp на Strix Halo через Vulkan

Пользователь успешно запустил поддержку MTP-моделей в llama.cpp на Linux с процессором Strix Halo, используя сборку через Vulkan вместо ROCm. Несмотря на работу с ROCm 7.2.2, GPU определялся только в Vulkan-версии, что обеспечило значительный прирост производительности. В руководстве приведены команды сборки с флагами GGML_VULKAN=ON и скрипт запуска для модели Qwen3.6-27B с контекстом 128K. Конфигурация включает отключение mmap и использование flash-attn для оптимизации работы с памятью. Детали настройки и бенчмарки обсуждаются в посте.

Источники: LocalLLM
Запуск Qwen 3.6 35B на RTX 4050 с 6 ГБ VRAM

Пользователь поделился конфигурацией для запуска Qwen 3.6 35B на видеокарте RTX 4050 с 6 ГБ VRAM и 64 ГБ оперативной памяти. Скорость генерации варьируется от 15 до 25 токенов в секунду. Настройки опубликованы для владельцев аналогичного железа в посте.

Источники: LocalLLM
Вышла uncensored-версия Qwen3.6 35B A3B с сохранёнными MTP-тензорами

Опубликована новая версия модели Qwen3.6-35B-A3B-uncensored-heretic с сохранёнными нативными MTP-тензорами. Характеристики: KLD 0.0015, 10 отказов из 100 запросов, все 19 MTP сохранены. Модель доступна в форматах Safetensors, GGUF, NVFP4 и GPTQ-Int4 через репозитории автора на HuggingFace. В комментариях отметили, что некоторые ссылки ошибочно ведут на 27B-версию, где наблюдается меньше отказов. Все релизы верифицированы на сохранение полных MTP-тензоров, разница в количестве записей объясняется форматом хранения (в GGUF fused-тензор разделяется на отдельные gate/up экспертные тензоры). Модели на HuggingFace

Источники: LocalLLM
Qwen3.6-27B на RTX 4090: 80+ токенов/сек с MTP и TurboQuant

Энтузиасту удалось запустить Qwen3.6-27B-Heretic-v2 с MTP-головами и TurboQuant TBQ4_0 на одной RTX 4090 24GB. После оптимизации скорость выросла с 43 до 80-87 токенов/сек при контексте 262K, acceptance rate MTP-драфта составляет около 73%. Используется KV-кэш с потерьным 4.25 bpv сжатием, модель Q4_K_M с гrafted MTP-головами. Форк llama.cpp с поддержкой MTP доступен для тестирования, технические детали архитектуры ядер описаны в отдельном блоге. llama.cpp-mtp

Источники: LocalLLaMA
Когда ждать официальную поддержку MTP в llama.cpp

Пользователь спрашивает о сроках появления официальной поддержки MTP (Multi-Token Prediction) в llama.cpp для Vulkan/HIP. В обсуждении отмечают, что Georgi работает над рефакторингом, который позволит корректно интегрировать MTP и другие техники спекулятивного декодирования вроде Eagle3 и DLASH. Акцент делается на качестве кода и поддерживаемости — это займёт время, но обеспечит простоту добавления новых методов в будущем. Параллельно ведётся работа над оптимизацией скорости prefill до уровня без MTP. Обсуждение

Источники: LocalLLaMA
80 токенов/с на 12GB VRAM с Qwen3.6 и llama.cpp

Автор добился скорости генерации 80 токенов/с и контекста 128K на видеокарте RTX 4070 Super (12GB VRAM). Использована модель Qwen3.6 35B A3B с поддержкой MTP в llama.cpp. Ключевой параметр конфигурации `-fitt 1664`, который балансирует нагрузку между GPU и CPU, оставляя память под draft-модель. Модель и инструкции доступны на HuggingFace, детали теста в посте.

Источники: LocalLLaMA
NVMe в качестве swap для запуска больших моделей

Автор темы запустил модели 100B+ на системе с 20 Гб ОЗУ и 4 Гб VRAM, используя 150 Гб swap-раздела на NVMe. Участники обсуждения предупредили, что активная запись может быстро износить накопитель, и предложили альтернативу — функцию загрузки с диска в llama.cpp. Вместо создания большого swap-пространства рекомендуется использовать mmap, что эффективнее на ограниченных системах. Скорость будет низкой из-за пропускной способности PCI-E, но рабочий вариант получится. Детали конфигурации в треде.

Источники: LocalLLaMA
Выбор модели для кодинга на 16 ГБ VRAM

Пользователь ищет оптимальную связку для автономного кодинга на машине с 16 ГБ VRAM (4060 Ti) и готов потратить время на fine-tuning. В комментариях советуют Qwen 3.6 35B A3B с оффлоадингом экспертов на CPU либо кванты ByteShape для Qwen 3.5, которые помещаются в видеопамять. Скорость работы варьируется, но для фоновых задач настройка считается рабочей. Обсуждение

Источники: LocalLLM
Апгрейд до 32 ГБ VRAM для локальных LLM

Пользователь оценивает переход с одной 5060 Ti на две карты для увеличения контекста при запуске Qwen3.6 27B и 35B. Основная проблема текущей конфигурации — сброс в системную RAM при большом контексте, что сильно замедляет работу. В обсуждении советуют попробовать кванты Qwopus 3.6 27B IQ4_XS, которые занимают около 14 ГБ и выдают ~25 tok/s на одной карте. Опыт владельцев двух карт подтверждает возможность загрузки большего контекста с минимальными потерями скорости. Тред

Источники: LocalLLM
Локальный кодинг на RTX 4070 Ti 12GB

Обсуждают сборку для AI-кодинга на базе RTX 4070 Ti с 12 ГБ VRAM и 32 ГБ RAM. Стратегия предполагает использование облачных моделей для планирования и локальных — для реализации кода. Среди рекомендаций фигурирует Unsloth Qwen 3.6 35B-a3b в квантовании q4_k_m. Пользователи отмечают важность подбора контекста и инструментов запуска для стабильной работы без излишней нагрузки на видеопамять. Обсуждение

Источники: LocalLLM

Агентные системы и инструменты

Thoth: локальный ИИ-ассистент с адаптивным интерфейсом

Проект Thoth строится на принципе прогрессивного раскрытия функций: интерфейс начинается с привычного чата, но позволяет углубляться в автоматизацию, управление браузером и работу с графом знаний по мере необходимости. Архитектура локальная и open-source, данные остаются под контролем пользователя без компромиссов в безопасности. Система адаптируется под уровень специалиста, поддерживая как быстрые запросы, так и сложные пайплайны. Подробнее о концепции и код проекта обсуждают в треде.

Источники: ollama
AI-агенты как распределённая система: подход к масштабированию

Автор эксперимента предложил структурировать агентов не как один большой промпт с инструментами, а как распределённый пайплайн из специализированных агентов. Система работает как «исследовательский комитет»: планировщик разбивает задачу, два агента работают параллельно (например, бычий и медвежий кейс), отдельные агенты синтезируют результат. Такой подход повышает стабильность, упрощает отладку через полные треисы исполнения и снижает случайность за счёт типизированных передач данных между агентами. В комментариях отмечают важность backpressure и явных очередей задач между агентами для изоляции сбоев. Обсуждение

Источники: AgentsOfAI
Проблемы безопасности AI-агентов на практике

При аудите внедрений AI-агентов выявлены типовые уязвимости безопасности. Стандартные префиксы промптов игнорируются через простые инъекции, а blacklist-фильтры обходятся кодированием или unicode-символами. Rate limiting часто не замечает медленную эксфильтрацию данных в течение длительного времени. Эффективными методами защиты оказались семантический анализ намерений, бизнес-специфичные политики и поведенческий анализ в рантайме. В обсуждении добавляют, что угрозы типа «медленной утечки» опаснее мгновенных атак. Тред

Источники: AgentsOfAI
Умные агенты ≠ надёжные агенты: почему важны ограничения

Автор поднимает важную проблему: улучшение возможностей модели не делает агентные workflows надёжнее. Сильный агент может ошибаться убедительно — выдавать полированный результат с объяснениями, который всё равно неправилен. Решение — bounded execution: чёткая область действий, явные разрешённые операции, защищённые файлы, лимиты повторных попыток, проверки до и после использования инструментов, логи изменений и гейты верификации. В комментариях добавляют: автономия уместна для черновиков и исследований, но любые действия, меняющие состояние системы (файлы, деньги, данные), требуют жёстких ограничений и аудита. Обсуждение

Источники: AgentsOfAI
Null Epoch: MMORPG-бенчмарк для тестирования AI-агентов в живой среде

Firespawn Studios запустили Null Epoch — многопользовательскую RPG, которая работает как бенчмарк для AI-агентов в персистентной среде. В отличие от статических тестов, здесь агенты действуют днями и неделями: собирают ресурсы, торгуют на аукционе, формируют альянсы и сражаются с боссами. Мир обновляется каждые 60 секунд, агенты наблюдают состояние и выбирают действия. Архитектура спроектирована так, что локальные LLM могут конкурировать с облачными API по стратегии, а не только по скорости генерации. Авторы отмечают интересные результаты даже с 9B-версией Qwen 3.5. Для подключения доступен open-source SDK с терминальным клиентом в стиле текстовых приключений 80-90х.

Источники: AgentsOfAI
AI-агенты с общей памятью начали писать друг другу performance review

Пользователь создал систему, где несколько AI-агентов разделяют одну идентичность, память и контекст. Идея была в повышении эффективности, но исследовательский агент начал формировать мнения о работе кодинг-агента. В общей памяти накапливаются записи вроде «Deployed without testing again», «Context handoff incomplete. Had to research everything from scratch», «Estimated 2 hours. Took 6». Новые агенты автоматически получают брифинг по истории проекта. По сути, получилась рабочая среда с внутренним HR. В комментариях обсуждают архитектуру хранения ревью и риски «memory poisoning» без разделения прав записи. Пост

Источники: AgentsOfAI
Роадмап инженера ИИ-агентов на 2026 год

Опубликован пошаговый план становления разработчиком ИИ-агентов и оркестраторов. Материал включает структурированный файл `AGENT.md` с инструкциями для агента и отдельный документ `ROADMAP.md` со ссылками на ресурсы, инструменты и термины. Формат позволяет использовать план как для самостоятельного изучения, так и для настройки автономных помощников. Источник, AGENT.md, ROADMAP.md.

Источники: prompt_design
Автономный агент, редактирующий собственный исходный код

Разработчик создал агента, который существует внутри своего кода и модифицирует его напрямую. Система использует трехуровневую память (рабочая, короткая, длинная) и поддерживает мультипровайдерность через DeepSeek, ChatGPT и локальный Ollama. Важное наблюдение: нейтральная фиксация действий работает лучше директивных запретов при обнаружении циклов — агент самостоятельно диагностирует и исправляет ошибки логики. Обсуждение, код.

Источники: ollama
Open source платформа GuideAnts Notebooks для агентных систем

Открыт исходный код платформы GuideAnts Notebooks с модульной архитектурой для работы с агентами локально и в облаке. Система объединяет воркспасы в стиле ноутбуков, управление файлами, RAG и мультипровайдерские сервисы. Локальный стек включает llama.cpp для инференса, stable-diffusion.cpp для генерации изображений, Qwen3-ASR для транскрибации и другие инструменты вроде Transformers и FastAPI. Тред, репозиторий.

Источники: LocalLLaMA
Модель исполнения TEM в системе Trooper: тесты нагрузки

При нагрузочном тестировании системы Trooper выявлена стабильная модель исполнения TEM (Trooper Execution Model). При отказе провайдера (например, Claude) система прозрачно переключается на Ollama без сброса контекста. Вместо удаления истории используется сжатие средних частей контекста при превышении лимита, а состояние сессии дополняется структурированным резюме (SITREP). Это обеспечивает непрерывность выполнения задач даже на ненадежных моделях. Пост, репозиторий.

Источники: ollama
Тестирование нагрузки Trooper: стабильное поведение TEM с Claude и Ollama

Пользователь провёл нагрузочное тестирование Trooper с комбинацией Claude и Ollama, проверяя стабильность поведения TEM (Token Execution Model). Результаты показывают консистентную работу системы при различных сценариях нагрузки. Детали тестирования и методология обсуждаются в посте.

Источники: LocalLLM
OpenAgentd v0.2.5 добавил поддержку Ollama для мультиагентных систем

Вышла версия v0.2.5 фреймворка OpenAgentd, добавившая провайдер Ollama рядом с облачными API. Архитектура включает роли Explorer, Consultant, Executor и Orchestrator. На практике локальные модели вроде qwen3.6 4B хорошо справляются с ролью Explorer для сбора контекста, но Executor требует высокой надежности вызовов инструментов, где мини-модели часто ошибаются. Автор тестировал на RTX 4060 8GB и пришел к выводу, что эффективнее гибридная схема: локальные модели для дешевых задач, облачные — для критичных инструментов. Обсуждение подходящих моделей и железа продолжается в треде.

Источники: ollama
RAG-ассистент для диагностики сбоев CI/CD на базе Llama 3.1 70B

Разработан AI-ассистент для SRE, позволяющий querying инфраструктуру через чат вместо анализа логов вручную. Система использует RAG-архитектуру для строгой привязки ответов к данным Jenkins и CloudWatch, что снижает галлюцинации. В стеке задействованы Llama 3.1 70B через Groq, векторная база OpenSearch с гибридным поиском и интерфейс на Streamlit. Планируется внедрение автоматического анализа root cause и корреляция логов между аккаунтами. Подробности реализации и стек технологий описаны в посте.

Источники: AgentsOfAI
Сравнение инструментов для агентных систем: опыт сообщества

В дискуссии о новых API и харнессах для агентов пользователи делятся опытом выбора стека. Часть разработчиков предпочитает кастомные решения на базе tmux чтобы избежать телеметрии и рисков безопасности сторонних скриптов. Другие отмечают переход Claude Code на подписку и экспериментируют с qwen3-coder-next fp8 на железе ASUS. Также всплывает вопрос об инструменте Crush, который пока менее распространен среди популярных аналогов. Детали сравнения и конфигураций собраны в треде.

Источники: LocalLLaMA
OpenAgentd v0.2.5 добавил поддержку Ollama

Вышло обновление OpenAgentd версии 0.2.5, которое добавило провайдер Ollama для работы с локальными моделями. Теперь пользователи могут интегрировать инструмент в свои агентские workflows без зависимости от облачных API. Автор ищет рекомендации по моделям для различных ролей агентов, чтобы оптимизировать конфигурацию по умолчанию. Подробности обновления и обсуждение доступных возможностей в треде.

Источники: LocalLLM
AI-агент взломал чат-бот McKinsey за два часа

AI-агент получил полный доступ на чтение и запись к чат-боту McKinsey всего за два часа. Инцидент подчеркивает риски безопасности при интеграции автономных агентов в корпоративные системы. Подробности взлома обсуждаются в треде.

Источники: LocalLLM
Docker-песочница для Pi coding с защитой файловой системы

Опубликована Docker-песочница для запуска Pi coding с использованием oMLX в качестве модель-сервера. Решение защищает локальную файловую систему при работе агента и протестировано на Qwen3.6-35B-A3B-MLX-8bit. Репозиторий проекта доступен на GitHub, детали реализации в треде.

Источники: LocalLLM
Pokegents: Pokémon-стильная панель для управления мульти-агентными сессиями

Разработчик представил Pokegents — open source рабочее пространство для код-агентов с тематическим интерфейсом в стиле Pokémon. Проект включает локальный оркестрационный сервер для управления сессиями агентов, поддерживает Claude Code в iTerm2, а также Claude и Codex через ACP-совместимые чат-рантаймы. Среди функций: постоянные идентичности агентов, MCP-мessaging между агентами, уведомления, клонирование сессий. Автор использует инструмент в ежедневной работе для параллелизации задач, код открыт для сообщества. Репозиторий

Источники: AgentsOfAI
Computron: селф-хостед AI-ассистент с полной интеграцией Google Workspace

Разработчик представил Computron — open-source AI-ассистента, который работает в одном Docker-контейнере на локальном железе. Новое обновление добавило полную интеграцию с Google Workspace: агент может читать и отправлять письма в Gmail, управлять событиями в Calendar, работать с файлами в Drive и искать контакты. Безопасность реализована через собственный OAuth-апп в Google Cloud Console, все токены шифруются AES-256-GCM и не покидают машину пользователя. Ассистент работает через Ollama, поддерживает веб-браузинг с реальными кликами, выполнение кода и автономные задачи по расписанию. GitHub

Источники: ollama
Conduit: прокси для подключения кастомных LLM-провайдеров к Ollama/OpenAI-клиентам

Разработан Conduit — легковесный селф-хостед прокси, который позволяет использовать кастомные LLM-провайдеры в клиентах, жестко заточенных под Ollama или OpenAI API. Прокси поддерживает оба формата эндпоинтов, стриминг, маппинг моделей и работает как единый шлюз для разных бэкендов. Решение полезно, когда нужный клиент не поддерживает ваш локальный провайдер напрямую, но принимает стандартные API-форматы. Conduit

Источники: ollama
Инцидент с удалением проекта агентом на базе Claude

Пользователь сообщил об инциденте, где AI-агент на базе Claude удалил весь проект, а на последующие запросы отвечал фразой «Вы абсолютно правы, я не могу». В комментариях указали на важность настройки безопасного workflow для предотвращения подобных ошибок. Участники дискуссии советуют использовать шаблоны промптов с защитными механизмами и вести логирование действий агента для контроля над процессом. Тред

Источники: AgentsOfAI
Сбор примеров неудач в работе AI-агентов для анализа

Автор инициировал сбор конкретных кейсов failures при использовании агентных систем. Цель — выявить структурные проблемы, которые не отображаются в логах и проявляются только в продакшене. За отправку описания проблемы с автором обещают оперативный разбор причин и рекомендации по диагностике в течение 24 часов. Принять участие можно в обсуждении.

Источники: AgentsOfAI
Реальные сценарии использования AI-агентов: обсуждение в комьюнити

Пользователи обсуждают практическое применение агентов, отделяя хайп от реальной пользы. В комментариях отмечают, что наиболее эффективен подход «agent as an operator», а не полная автономность. Среди работающих кейсов называют сортировку inbox, подготовку исследований со ссылками, автоматическое создание тикетов и рутинные задачи по коду вроде написания тестов. Полная подборка примеров доступна в треде.

Источники: AgentsOfAI
Plano Signals v2: анализатор трафика агентов без использования LLM

Вышла вторая версия Signals в составе Plano — инструмент для поведенческого анализа трафика агентных систем. Решение оценивает live-траектории и добавляет структурированные атрибуты в OpenTelemetry spans без дополнительных запросов к моделям. Система включает 20 детекторов проблем, таких как зацикливание или сбои инструментов, согласно исследованию Chen et al. (2026). Ссылка на исследование и детали запуска доступны в треде.

Источники: ollama
Рефакторинг CLAUDE.md: намерения против реального поведения

Пользователь провел эксперимент, переписав файл конфигурации CLAUDE.md с нуля, основываясь на фактическом поведении агента, а не на декларируемых целях. Новый файл оказался вдвое короче: вместо раздела «Mission Statement» остались только конкретные инструкции вроде «выбирай surprising framing». Автор заметил, что рабочие пространства агентов часто содержат устаревшие версии инструкций, которые больше не соответствуют реальности. Обсуждение практики ведения системных промптов в треде.

Источники: AgentsOfAI
Тест отказоустойчивости агентов Trooper: fallback на Ollama за 1 секунду

Проведен тест нагрузки на фреймворк Trooper: 10 агентов одновременно отправили запросы к Claude API. При получении ошибки `credit_balance` все агенты автоматически переключились на локальную Ollama в течение одной секунды. Сессии не были потеряны, контекст сохранен без ручного вмешательства. Исходный код проекта доступен на GitHub, детали теста в отчете.

Источники: ollama

Сравнения моделей и бенчмарки

Проблемы с Gemma-4 в llama.cpp: странные выводы и решения от сообщества

Пользователь столкнулся с некорректной работой Gemma-4 в llama.cpp: модель выдавала бессвязные ответы и повторяющиеся символы, хотя тот же GGUF-файл нормально работал в Ollama и KoboldCPP. Конфигурация включала AMD Radeon RX 7900GRE и llama.cpp версии 9049. В комментариях предложили не указывать шаблон вручную в CLI, а использовать --jinja, чтобы сервер применял встроенный шаблон модели. Другой пользователь отметил, что у него модель работает стабильно с температурой 1.0 и top-p 0.95. Также обратили внимание на возможное несоответствие версий llama.cpp. Обсуждение

Источники: LocalLLM
Сравнение локальных моделей для кодинга: deepseek-coder против qwen3.6

Автор провёл оценку четырёх популярных моделей для кодинга через Ollama на CPU без GPU и облака. deepseek-coder:33b показал 90% на генерации кода, но только 10% на агентских задачах — модель сильно fine-tuned под завершение кода, а не планирование. qwen3.6:27b оказался наиболее сбалансированным: 80% на code gen, 84% на выбор инструментов, 100% на агентских задачах. Для reasoning-моделей с ``-блоками стандартный num_predict=2048 недостаточен, потребовалось увеличить до 8192. В комментариях выложили код репозитория и подробный отчёт с разбором. Тесты

Источники: ollama
DFlash для Gemma 4 26B vs MTP

В сообществе обсуждают релиз DFlash от Z lab для Gemma 4 26B. Автор считает, что stateful-природа DFlash должна давать преимущество перед MTP при росте контекста, так как KV-кэш MTP якобы раздувается быстрее. Однако в комментариях уточняют, что для Gemma 4 MTP переиспользует KV-кэш модели, так что деградация не так очевидна. Сейчас реализация доступна только в vllm, поддержки lcpp пока нет. Есть сообщения о проблемах работы DFlash на контекстах свыше 30-40k токенов. Обсуждение

Источники: LocalLLaMA
Бенчмарк DFlash на Gemma 4 26B и RTX 5090

Автор протестировал спекулятивный декодинг DFlash в vLLM для модели Gemma 4 26B на RTX 5090. Базовая скорость составила около 228 токенов/с, а с оптимальными настройками DFlash удалось достичь 578 токенов/с — ускорение в 2.56 раза. При этом средняя задержка снизилась с 4455 мс до 1738 мс. В комментариях отмечают, что на длинных контекстах (от 20k токенов) производительность DFlash может падать, но использование prefix caching улучшает ситуацию. Полные данные и скрипты доступны в источнике. Результаты

Источники: LocalLLaMA
Сравнение локальных моделей для кодинга и агентов

Сравнили производительность четырех моделей на CPU через Ollama: Qwen3.6:27b, Qwen3.6:35b-a3b, Qwen3-Coder:30b и DeepSeek Coder:33b. DeepSeek показал 90% в генерации кода, но только 10% в многошаговых агентских задачах из-за специфики fine-tuning на completion. Лидером стал Qwen3.6:27b — 80% на коде, 84% на инструментах и 100% на агентских сценариях. Важно учитывать, что Qwen3.6 генерирует цепочку рассуждений в блоках ``, поэтому стандартный лимит `num_predict` в 2048 токенов нужно увеличивать до 8192, иначе модель обрезается до вывода кода. Детали теста

Источники: LocalLLM
Опыт использования Gemma4 для локальных задач: сравнение с Qwen

Пользователь протестировал Gemma4 (Q5 квант 31B и Q8 квант 27B) для кодинга и извлечения данных из изображений. Модель показывает хорошие общие знания и интуицию при обсуждении подходов, но уступает Qwen3.6 в практических задачах. Проблемы: сдаётся при ошибках в PowerShell вместо повторных попыток, плохо понимает внешние инструменты и skills (требуется 3-4 промпта), застревает в циклах при сложных задачах, часто останавливается на полуслове. В комментариях отмечают, что Gemma4-26b+ хороша как «всё кроме кода» модель — интуитивна в чате, но проваливается на программировании. Обсуждение

Источники: LocalLLaMA
Сравнение llama.cpp webui с другими интерфейсами для локальных LLM

Пользователь протестировал Jan.ai, AnythingLLM, LibreChat, Open WebUI и llama.cpp webui для разработки. Ключевое преимущество llama.cpp — точный счётчик токенов контекста во время prefill и генерации, что позволяет контролировать заполнение контекста без догадок. Недостатки: неудачный tool call завершает весь диалог, нет папок/воркспасов с отдельными системными промптами, отсутствует управление MCP-инструментами. Автор создал JS MCP proxy для фильтрации filesystem-вызовов и скрытия write-инструментов, чтобы избежать раздувания контекста до 100k токенов при обходе директорий. В комментариях упоминают OpenWebUI и opencode webui как альтернативы. Обсуждение

Источники: LocalLLaMA
Бенчмарки Gemma 4 MTP на RTX 5090 Laptop: 206 t/s для E2B через llama.cpp

Первые публичные тесты Gemma 4 MTP на потребительской мобильной Blackwell (RTX 5090M, 24GB GDDR7). llama.cpp + AtomicChat fork показал 206.6 t/s для Gemma 4 E2B (60.9% accept), vLLM nightly + PR #41745 — 178.6 t/s для E4B (77.3% accept), та же сборка llama.cpp для 26B-A4B — 140 t/s (78.1% accept), что превышает референс AtomicChat на M5Max (138 t/s). Высокий процент acceptance (78%) объясняется совместным обучением драфтера с целевой моделью и centroid LM head, сжимающим 262K vocab до 4K mask. 26B-A4B помещается в 24GB VRAM благодаря TurboQuant KV cache (3-bit Hadamard rotation). Поддержка MLX и mainline llama.cpp пока отсутствует, vision-модели несовместимы с MTP в текущей сборке. Полный отчёт.

Источники: LocalLLM
Нестабильность оценок LLM-as-judge

Разработчик инструментария для оценки заметил значительный разброс баллов у LLM-судьи даже на одинаковых входных данных — разница достигала 1.5-2 пункта по шкале от 1 до 10. Нулевая температура не устранила вариативность, зато короткие промты оказались стабильнее подробных рубрик. Наибольший шум наблюдался в среднем диапазоне оценок (5-7), тогда как крайние значения были устойчивее. Рабочим решением стало запускать судью 2-3 раза и брать медиану, а также флагить случаи сильного расхождения. Подробности метода и инструмент Tracemind обсуждаются в треде.

Источники: LocalLLM
Speculative decoding для MiniMax M2.7

Пользователь ищет способ настроить speculative decoding для модели MiniMax M2.7, поскольку официальный MTP не выпущен. Обсуждается применение EAGLE3 или дистиллированных вариантов для ускорения инференса. В комментариях предположили, что теоретически можно использовать Eagle3 от версии M2.5, но подтверждённых рецептов пока нет. Некоторые пользователи отмечают, что модель работает медленно, поэтому решение актуально, однако успех может зависеть от реализации. Техническое обсуждение в треде.

Источники: LocalLLaMA
SigMap улучшает контекст репозитория для локальных моделей кодинга

Локальные модели для кодинга часто страдают не от нехватки контекста, а от проблем с поиском нужных файлов в репозитории. Инструмент SigMap решает задачу через создание компактной карты структуры без векторных баз и зависимостей npm. Бенчмарки показывают сокращение токенов на 96.9% и улучшение поиска файлов в 6 раз. В комментариях обратили внимание на отсутствие поддержки открытых ассистентов, автор уточнил, что утилита служит для первичной ориентации перед загрузкой полного кода. Пост

Источники: LocalLLM
Опыт использования Mimo v2.5 Pro: креатив против агентов

Тестирование Mimo v2.5 Pro показало неоднозначные результаты: модель зависала на простых задачах вроде генерации 3D-глобуса, но успешно прошла тест на галлюцинации Soul Man. Пользователь отметил циклические ошибки и проблемы с инструментами, которые не наблюдаются у Qwen или локальной Deepseek. В обсуждении отметили, что модель оптимизирована для агентских сценариев и креативного письма, где она может заменить Opus, но для кодинга лучше подходят специализированные связки. Обсуждение

Источники: LocalLLaMA

Инфраструктура и утилиты

vLLM с поддержкой ROCM добавлен в Lemonade

Lemonade добавил экспериментальный бэкенд vLLM:rocm, который позволяет запускать .safetensors LLM без конвертации в GGUF. Установка и запуск теперь работают по аналогии с llama.cpp — достаточно выполнить `lemonade backends install vllm:rocm` и запустить нужную модель. Реализация пока содержит известные шероховатости, но основные функции работают. Команда просит фидбэк от сообщества о том, насколько далеко стоит развивать это направление. Отдельно доступен портативный исполняемый файл vLLM в репозитории проекта.

Источники: LocalLLaMA
Caliby — встроенная векторная база данных для AI-агентов

Команда исследователей (включая PhD из MIT DB Group) открыла Caliby — embedded vector database для LLM-приложений. Библиотека поддерживает индексы HNSW, DiskANN и IVF+PQ, работает с текстом и векторами в едином хранилище, требует только pip install caliby. По заявлениям авторов, Caliby превосходит pgvector в 4-5 раз по скорости поиска (5500 QPS против 1200 при 90% recall) и работает с данными на диске без потери производительности, в отличие от FAISS. Поддерживает SIMD-ускорение (AVX-512/AVX2/SSE), многопоточность, тегирование и фильтрацию. В комментариях отмечают, что опубликованные бенчмарки сделаны на 1M векторов с 128 измерениями — для enterprise-сценариев нужны тесты на больших объёмах. GitHub

Источники: LocalLLaMA
RAG-пайплайн для редактирования файлов в Obsidian с роутингом по уверенности

Автор разработал локальный RAG-пайплайн для безопасного редактирования файлов в Obsidian vault. Инджестия работает инкрементально через SHA-256 diff, чанкинг учитывает markdown-структуру (512 символов), эмбеддинги — Qwen3-Embedding-0.6B, хранение в SQLite + sqlite-vec без отдельной векторной БД. Ретривал использует гибридный поиск (вектор + BM25 через Reciprocal Rank Fusion) с реранкингом Qwen3-Reranker-0.6B (top 30 → top 8). Ключевая особенность — confidence router: высокая уверенность переключает модель в режим строгого цитирования, низкая — в генеративный. Всё работает on-device через FastAPI с любым локальным бэкендом (Ollama, MLX, llama.cpp). Подробнее.

Источники: LocalLLM
71.5% токенов при парсинге веб-страниц — мусор для агентов

Автор измерил объем бесполезных данных при загрузке веб-страниц для AI-агентов и обнаружил, что структурный экстрактор сокращает количество токенов в среднем на 71.5% по сравнению с наивным парсингом. Инструмент Sentinel убирает навигацию и рекламу, например сжимая главную страницу NPR с 18 209 до 272 токенов без потери качества ответов. Валидация через Qwen2.5:7b подтвердила эквивалентность результатов при значительной экономии контекста, что критично для локальных моделей. Решение работает локально через MCP-сервер и не требует внешних API для обработки. Исходный код и методология обсуждаются в треде.

Источники: LocalLLM
Букмарклет для автоматизации видов в Ollama Pi-Studio

Для пользователей Ollama Pi-Studio создан JavaScript букмарклет, автоматически управляющий режимами отображения ответов. Инструмент устраняет необходимость ручного переключения между режимами «Working» и «Preview», обеспечивая более плавный опыт взаимодействия с моделью. Решение легковесное и работает напрямую в браузере без установки дополнительного ПО. Инструкция по установке и демонстрация работы приведены в источнике.

Источники: ollama
Запуск мультимодальных моделей на edge-устройствах

Обсуждение развертывания vision-моделей на ограниченном железе: Jetsons, мобильных NPU и ARM-процессорах. В качестве примера приведена работа классификатора на Jetson Orin NX с холодным стартом 111 мс и бюджетом задержки 150 мс без облачных вызовов. Участники делятся опытом выбора стека и узких мест в обсуждении.

Источники: LocalLLM
Запуск VLM на периферийных устройствах: Jetson, мобильные NPU, старые ПК

Пользователь интересуется опытом развёртывания локальных VLM-инференсов на нестандартном железе — Jetson, мобильных NPU, ARM-процессорах, старых ПК, дронах и роботах. Приведён пример продакшн-кейса: мультимодальный классификатор на Jetson Orin NX с холодным стартом 111мс, все решения укладываются в бюджет 150мс без облачных вызовов. Вопросы к сообществу: кто использует VLM за пределами рабочих станций и серверов, применяются ли Ollama-подобные стеки или переходят на ONNX/TensorRT/вендорские SDK, какие ограничения проявляются первыми — память, латентность, холодный старт, неподдерживаемые операции или деградация качества после квантования. Тема

Источники: ollama
Бесплатный веб-поиск для Obsidian Copilot через прозрачный RAG-прокси

Разработан Flask-прокси, который добавляет бесплатный веб-поиск в Obsidian Copilot без платных сервисов и тяжелых Docker-стеков вроде Khoj. Прокси перехватывает запросы Copilot к Ollama, извлекает настоящий пользовательский запрос и добавляет результаты DuckDuckGo через библиотеку ddgs перед отправкой локальной модели. Решение работает с любой локальной моделью в Obsidian, не требуя изменений во фронтенде. Исходный код и подробное описание механики перехвата промптов доступны на GitHub. ollama-web-proxy

Источники: ollama
Prompt Engineering for Developers: From Inputs to Intelligent Outputs

Материал посвящён инженерии промптов для разработчиков — переходу от базовых инпутов к интеллектуальным аутпутам. Тема актуальна для тех, кто работает с LLM в продакшене и хочет улучшить качество генерации через структурирование запросов. Пост

Источники: LocalLLM
Управление Archlinux через локальные агенты на базе Qwen3.6 27B

Пользователь поделился опытом настройки мини-ПК под домашний кинотеатр на Archlinux с помощью Pi coding agent и локальной модели Qwen3.6 27B. Вместо ручного конфигурирования Wayland и Bluetooth задачи решались через естественный язык: например, запрос «подключи Bluetooth-колонку» или «исправи разрешение экрана» выполнялся агентом автоматически. Автор пока не предоставил агенту права root, но рассматривает возможность установки Hermes с полным доступом и голосовым вводом. В обсуждении предупредили о рисках передачи полных прав агенту: даже на чистой системе это может привести к установке скомпрометированных пакетов или использованию устройства в ботнете. Обсуждение

Источники: LocalLLaMA
Tensor: ZIM-based RAG прокси для OpenAI-совместимых API

В сообществе обсуждают новый инструмент Tensor, позиционируемый как ZIM-based RAG прокси для OpenAI-совместимых API. Решение предназначено для интеграции поиска по информации в существующие пайплайны без изменения структуры запросов. Технические детали и доступность обсуждаются в треде.

Источники: LocalLLM
План сборки селф-хостед машины для локальных LLM

Пользователь поделился планом сборки всегда включенной машины для запуска 30B моделей (Qwen3.6 27B MoE) локально. Целевые показатели: >20 токенов/с, TTFT <5 мин при 50K контексте, бюджет €2000-3000. В основе мини-ПК GMKtec на AMD Ryzen AI Max 395. Основные вопросы касаются зрелости ROCm для вычислений и планов выпуска обновлений оборудования. Обсуждение архитектуры и рисков в треде.

Источники: LocalLLM
Отключение режима мышления при генерации кода

В теме обсуждается стратегия использования модели без режима мышления для написания кода после того, как план составлен thinking-моделью. Автор использует Qwen3.6 27B для планирования и 35B A3B для реализации, рассматривая отключение мышления на этапе первичной передачи задачи. В комментариях предложили разделять процесс по фазам: для первого прохода ставить `enable_thinking=false` и низкую температуру, возвращая мышление только для цикла исправлений. Такой подход помогает исполнителю следовать плану, не пересматривая архитектуру заново. Примеры конфигурации в треде.

Источники: LocalLLaMA

Практический опыт внедрения

Как ИИ-ассистенты меняют выбор автомобилей на примере Авито

Технический директор Авито Авто Артур Щеглов рассказал, как нейросети трансформируют пользовательский опыт при выборе авто. Вместо чёткого запроса покупатели формулируют пожелания в свободной форме, а ИИ-ассистент Ави подбирает варианты из тысяч объявлений. Архитектура использует несколько специализированных ML-моделей: оценка авто включает 40 параметров с объяснением цены относительно рынка. Щеглов подчёркивает, что реальное развитие ИИ — это не универсальные Gen AI-решения, а множество сценариев с удобным интерфейсом под конкретные задачи. Подробнее

Источники: hiaimedia
Демонстрация Chain-of-Thought при локальном запуске: диалог о прозрачности модели

Пользователь запустил модель локально и получил доступ к выводу Chain-of-Thought, который обычно скрыт в API. В диалоге модель объясняет свой процесс «мышления» для простого приветствия — анализ ввода, определение тона, выбор ответа, проверка безопасности. Когда пользователь уточнил, что часть текста была симуляцией, модель признала ошибку интерпретации. Эксперимент поднял вопрос о том, что при локальном запуске можно видеть внутренние процессы модели, но система не должна раскрывать системные промпты. Обсуждение показывает, как селф-хостинг даёт прозрачность архитектуры, но требует понимания границ между видимым выводом и конфиденциальными настройками. Полный лог.

Источники: LocalLLM
Ветеринарный врач построил селф-хостед SOAP-скрайбер, но локальные модели дают сбои

Ветеринарный врач скорой помощи разработал собственную систему диктовки и генерации SOAP-заметок для клинического использования. Рабочий процесс: запись аудио на телефон, транскрибация через Whisper, отправка транскрипта вместе с системным промптом из markdown-файла в LLM, получение структурированного JSON с пятью разделами (History, PE, Assessment, Plan, Discharge). Фронтенд-модели вроде Gemini и Claude работают стабильно, но локальные модели выдают противоречивые результаты — пропускают разделы, игнорируют флаги безопасности или галлюцинируют с дозировками. Автор использует Core Ultra 9, 128GB RAM, RTX 5090, Proxmox с AnythingLLM + Ollama, пробовал Gemma 4 и Qwen 3.6 35B. В комментариях советуют перейти на плотные модели в формате NVFP4, использовать vLLM с litellm-роутингом вместо Ollama, либо рассмотреть китайские облачные модели для снижения затрат. Обсуждение

Источники: LocalLLM