воскресенье, 19 апреля 2026 г.

AI Digest: Qwen 3.6 доминирует в бенчмарках, GPT-Rosalind для биологии и IPO Cerebras

Qwen 3.6 35B-A3B показала рекордную производительность на потребительском железе с ускорением до 54% через новые флаги llama.cpp. OpenAI запустила специализированную модель GPT-Rosalind для биологии и фармакологии. Anthropic представила Claude Design для создания интерфейсов и презентаций. Китайские модели заняли 45% рынка запросов. Cerebras подала заявку на IPO. Kimi Linear снизила затраты на токены через распределение Prefill/Decode между дата-центрами.

Qwen 3.6: бенчмарки и оптимизация

Запуск Qwen 3.6 35B A3B MXFP4 на vLLM + ROCm с двумя R9700

Автор настроил селф-хостинг vLLM на системе с двумя Sapphire R9700, используя MXFP4-квантование для Qwen 3.6 35B A3B. После ручной доработки квантования (исправление обработки MTP и fused expert tensors) модель загружается в vLLM, работает с num_speculative_tokens 4 и выдаёт до 153 токенов в секунду. В основе — Docker-образ от tcclaviger и код квантования от olka-fi. Готовый MXFP4-квант Qwen 3.6 35B доступен на HuggingFace, docker-compose конфигурация приведена в посте. Ранее: Qwen 3.6 35B-A3B уже тестировалась на RTX 4090, 5090 и других NVIDIA GPU с различными квантованиями.

Источники: LocalLLM
Компрессия KV cache для Qwen 3.6 при контексте 1M

Продемонстрировано сжатие KV cache на модели Qwen 3.6 с контекстом 1 миллион токенов: объём уменьшился с 10.74 GB до 6.92 GB, V cache сократился с 5.37 GB до 1.55 GB (примерно в 3.5 раза). Ранние тесты на трёх сидах показывают близкое к нулю изменение perplexity. Автор интересуется мнением сообщества о структурированной компрессии против eviction-подходов для KV cache. Детали. Ранее: Qwen 3.6 35B-A3B активно тестировалась на локальном железе с различными конфигурациями контекста.

Источники: LocalLLaMA
Запуск Qwen3.6 GGUF на 16GB VRAM с динамической квантовкой

Пользователь запустил Qwen3.6 GGUF на конфигурации с 16GB VRAM и 32GB DRAM, используя unsloth dynamic quant с q8_0 квантованием KV cache на 200k контекста. Это позволяет работать с моделью при ограниченной видеопамяти за счёт выгрузки части данных в системную память. В комментариях отмечают выход Opencode 1.4.10 и обсуждают выбор квантования для таких условий. Пост

Источники: LocalLLaMA
Бенчмарк Qwen3.6-35B на RTX 5060 Ti 16GB с кастомной сборкой llama.cpp

Пользователь протестировал Qwen3.6-35B-A3B-UD-Q5_K_M на RTX 5060 Ti 16GB с AMD 9700x и 32GB RAM. Сборка llama.cpp вручную дала 10% прирост производительности по сравнению с prebuild-версией. Результаты: pp512 при контексте 131k — 628 tok/s, tg128 — 32.56 tok/s. Модель занимает 24.63 GiB, часть вычислений идёт через CPU из-за ограничений VRAM. В комментариях советуют попробовать IK llama для лучшего CPU offloading и Tom's turboquant для уменьшения KV cache на 20-30%. Бенчмарк Ранее: Qwen 3.6-35B-A3B тестировался на двух 5060 Ti (32 ГБ VRAM) с гибридным оффлоудом, показав 21.7 ток/с при контексте 90K.

Источники: LocalLLaMA
Сравнение Qwen 3.6 с 6 моделями в 5 агентских фреймворках на M3 Ultra

Автор протестировал Qwen 3.6 35B и ещё 6 моделей в 5 агентских фреймворках на Apple M3 Ultra с 256GB памяти. Qwen 3.6 показал 100% совместимость со всеми фреймворками и скорость 100 tok/s при 4-bit квантовании. Qwopus 27B получил лучший MHI Score (92), а smolagents оказался самым forgiving фреймворком — даже DeepSeek-R1 и Llama 3.3 70B достигли 100% tool calling через text-based code generation. Hermes Agent стал самым строгим тестом с 62 инструментами. Для селф-хостинга агентов рекомендуют Qwopus 27B как лучший баланс, Qwen 3.6 35B для скорости, и Qwen3.5-4B для 16GB MacBook. Тестирование

Источники: LocalLLaMA
Анализ abliteration техник: Heretic, HauhauCS и Huihui на моделях Qwen

Исследование сравнивает три техники abliteration (Heretic, HauhauCS, Huihui) на пяти моделях Qwen с бенчмарками, HarmBench и KL divergence. Утверждение HauhauCS о «lossless» не подтверждается: TruthfulQA падает на 2.17 пункта для 2B модели и до 8.2 для 27B. Heretic показывает лучшую стабильность — наименьший KL divergence и сохранение способностей на всех размерах, особенно на 27B где улучшает GSM8K на 7.7 пункта. Huihui нестабилен: на 4B гибридной архитектуре KL достигает 3.65 с катастрофическим падением MMLU, на 27B не удаляет safety behaviour полностью (88.8% ASR). Гибридная Mamba2+Transformer архитектура вносит свои особенности — HauhauCS редактирует linear_attn.A_log, чего нет в чистых Transformer. Бенчмарки

Источники: LocalLLaMA
Сравнение производительности GGUF квантов Qwen3.6-35B-A3B от Unsloth

Пользователь сообщил о заметном снижении скорости генерации у GGUF квантов модели Qwen3.6-35B-A3B от Unsloth при запуске на процессоре. В тесте на Debian 13 с последней версией llama.cpp файлы от Unsloth показали примерно на 30% меньше токенов в секунду по сравнению с аналогичными квантами от другого автора. Например, для квантования IQ4_NL задержка между ответами составила 25 секунд против 14 секунд у альтернативной версии при скорости 6.14 t/s против 8.71 t/s. В обсуждении другие пользователи подтвердили схожую картину: на модели Qwen3.5 35B с квантами Unsloth наблюдали 5-8 tps против 10-20 tps в режиме без рассуждений. Автор поста поделился логами загрузки и конфигурацией сервера для помощи в оптимизации. Подробнее с цифрами и выводами можно ознакомиться в треде.

Источники: LocalLLaMA
Вопрос об отключении режима мышления в Qwen 3.5 через modelfile

Пользователь интересуется возможностью отключения функции thinking для модели Qwen 3.5 при использовании инструментов вроде opencode. Обсуждается, можно ли реализовать это напрямую через конфигурацию modelfile в Ollama. Тема актуальна для тех, кто хочет контролировать поведение модели при работе с инструментами без лишней генерации рассуждений. Тред

Источники: ollama
Ускорение Qwen3.6-35B на 54% через флаг --n-cpu-moe в llama.cpp

Пользователь протестировал запуск модели Qwen3.6-35B-A3B (квантование UD-Q4_K_M) на связке RTX 5070 Ti (16GB) и Ryzen 9800X3D. Стандартный флаг `--cpu-moe` загружает видеопамять лишь на 3.5 ГБ, оставляя большую часть VRAM неиспользованной. Флаг `--n-cpu-moe 20` оставляет эксперты первых 20 слоев на CPU, остальные размещая на GPU, что поднимает скорость генерации с 51.2 до 79.3 t/s. Конфигурация также включает `-np 1` для экономии памяти и квантование KV cache в q8_0, позволяя работать с контекстом 128K. Автор отмечает, что настройку параметров выполнял автономно через Claude Opus 4.7 (подписка $20). Подробнее в посте. Ранее: Qwen 3.6 уже тестировался в llama.cpp в сравнении с Qwen 3.5 35B MoE.

Источники: LocalLLaMA
Производительность Qwen3.6 на M5 Max и сравнение с Opus

В обсуждении подтверждают высокую эффективность Qwen3.6 для рабочих задач, сопоставимую с Opus и Codex, хотя до их уровня модель еще не дотягивает. На платформе M5 Max с 128GB памяти достигнута скорость 3K токенов в секунду при обработке промпта и 100 токенов в секунду при генерации через oMLX и Pi.dev. Ключевое требование для стабильной работы — активация параметра `preserve_thinking`. Модель показывает достаточный уровень полезности для локального использования благодаря высокой скорости инференса. Обсуждение производительности.

Источники: LocalLLaMA
Бенчмарк Qwen 3.6 35B A3B на CPU в квантовании Q4_K_M

Протестирована MoE-модель с 35B параметрами (3B активные) на системе без GPU (32 vCPU, 125GB RAM). Скорость генерации достигла 22 токенов в секунду. Результаты бенчмарков: HumanEval — 47.56%, HellaSwag — 74.30%, BFCL — 46.00%. Комьюнити отмечает впечатляющую скорость для CPU, но критикует выбор квантования Q4 вместо Q8 для сравнения. Отчет Ранее: Qwen 3.6 35B-A3B тестировалась преимущественно на GPU (RTX 4090, 5090, 3080) с акцентом на локальный инференс.

Источники: LocalLLaMA
Ошибка парсинга thinking-токенов Qwen 3.6 в OpenWebUI

Пользователи сообщают о проблеме при запуске Qwen 3.6 через LM Studio и OpenWebUI. Кавычки в блоке рассуждений модели иногда ломают парсинг, что приводит к обрыву ответа или некорректным вызовам инструментов. Проблема наблюдается на RTX 5090 с включенной опцией preserve thinking. В комментариях подтверждают схожие симптомы, включая повреждение tool calls. Тред Ранее: флаг preserve_thinking упоминался как решение проблемы с KV-кешем в Qwen 3.6.

Источники: LocalLLaMA
Опыт запуска Qwen3.6-35B на мини-ПК

На базе Ryzen 7940HS и Radeon 780m с 32 ГБ DDR5 удалось достичь 16 токенов/с в модели Qwen3.6-35B-A3B. Автор использовал Debian Trixie и модифицировал параметры GRUB для выделения 28 ГБ памяти под VRAM через gttsize. Стабильную работу показал llama.cpp с Vulkan, тогда как ROCm вызывал сбои интерфейса. Подробные конфигурации и команды запуска опубликованы в сообщении. Ранее: Qwen 3.6 extensively tested on various GPUs including RTX 4090, 5090, 5060 Ti с гибридным оффлоудом.

Источники: LocalLLM
Сравнение Qwen3.6-35B и Qwen3.5-27B в задачах кодинга

Новая модель Qwen3.6-35B-A3B решила задачи, с которыми не справлялась предыдущая версия 27B, устраняя технический долг в проекте бюджетного приложения. На GPU 5070 Ti 16GB скорость генерации составила около 50 токенов/с при обработке до 320 токенов/с. Автор использовал субагентов для работы в окне контекста 128k, получая исправления багов в 1-2 шага. Сравнение эффективности и нюансы работы в Opencode описаны в посте. Ранее: Qwen 3.6 уже тестировался на RTX 5070 Ti с ускорением через флаг --n-cpu-moe в llama.cpp.

Источники: LocalLLaMA
Исправление дрейфа тензоров в квантованной версии Qwen3.6-35B с помощью метрики Вассерштейна

Автор модифицировал GGUF-версию модели Qwen3.6-35B-A3B, устранив дрейф тензоров в слоях `ssm_conv1d` через метрику Вассерштейна (W1). Этот подход оказался эффективнее метрики Куллбака-Лейблера для обнаружения численной нестабильности в слоях рекуррентной памяти. В обсуждении пользователи отмечают, что метрика Вассерштейна сложнее в интерпретации с точки зрения теории информации, но подтверждают полезность фикса. Для запуска рекомендуются специфические настройки сэмплирования в LM Studio, включая температуру 0.7 и Top K 20. Обсуждение

Источники: LocalLLaMA
Qwen 3.6 35B-A3B теперь в Ollama с оптимизацией под Mac

В namespace `batiai/` появились квантованные версии Qwen 3.6 35B-A3B для Ollama. Доступны три варианта: IQ3 (13 ГБ, для 16 ГБ Mac), IQ4 (18 ГБ, рекомендуется для 24 ГБ Mac) и Q6 (27 ГБ, для 36 ГБ Mac). Все теги поддерживают completion, tools и thinking — работа проверена через `/api/chat`. Для быстрых ответов передавайте `"think": false`, иначе модель тратит токены на блок `` перед выводом. На M4 Max 128 ГБ IQ4 показывает 46.5 t/s при 100% загрузке GPU. В том же namespace доступны эмбеддинг-модели qwen3-vl-embed (2B и 8B) и старые поколения вроде Gemma4 26B. Подробнее Ранее: Qwen 3.6 35B-A3B был выпущен под лицензией Apache 2.0 и уже доступен в Ollama с различными конфигурациями.

Источники: ollama
Qwen 3.6 на vLLM с двумя RTX 3090: конфиг и бенчмарки

Пользователь поделился рабочей конфигурацией vLLM в Docker для некоммерческого сервера с 2x RTX 3090. Модель cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit запускается с tensor-parallel-size 2, max-model-len 65536 и gpu-memory-utilization 0.85. В конфиге включены prefix-caching, reasoning parser для Qwen3 и auto tool choice. Результаты llama-benchy: при контексте 2048 токенов скорость генерации 103 t/s, при 32768 — 25.65 t/s, при 63000 — 12.85 t/s. Время до первого токена (ttfr) составляет 748 мс для коротких запросов. Полный docker-compose и тесты

Источники: LocalLLaMA
Бенчмарк Qwen3.6-35B на разных конфигурациях NVIDIA

Проведено сравнение четырех аппаратных конфигураций NVIDIA с использованием VLLM и модели Qwen3.6-35B-A3B в формате BF16. Тестирование выполнялось командой vllm bench serve с нагрузкой 10 запросов в секунду на 2000 промптов. Результаты показывают, что DGX Spark испытывал трудности при обработке большого количества запросов по сравнению с другими вариантами. В материале также приведены актуальные цены на оборудование для немецкого рынка. Полные данные бенчмарка доступны в отчете. Ранее: Qwen3.6-35B-A3B тестировался на RTX 4090 и GB10 Spark с полным контекстом, а также на RTX 5060 Ti 16GB с кастомной сборкой llama.cpp.

Источники: LocalLLM

Новые модели и платформы

Запуск SmolLM2 нативно в Roblox со скоростью 7 токенов в секунду

Энтузиаст реализовал инференс модели SmolLM2-1.35M-Q4 на серверах Roblox через Lua, веса подгружаются через HTTPService. Производительность Luau достигает около 2,6 млрд операций в секунду на ядро CPU для матричной математики int8, при этом квантование Q4 и распараллеливание добавили оверхед. Теоретически веса можно хранить внутри игры для запуска на клиенте, что сделает решение по-настоящему локальным. Ранее автор находил только данные об заброшенном проекте RoLLM 2024 года. Пост

Источники: LocalLLaMA
Дистилляция моделей на Amazon Nova через Bedrock

Пользователь изучает новые воркфлоу дистилляции на AWS, в частности обновление для Amazon Nova на платформе Bedrock. Автор подготовил технический разбор архитектурных изменений и процесса дистилляции, опираясь на спецификации из последних репозиториев. В обсуждении ищут тех, кто уже запускал бенчмарки на этой конфигурации. Обсуждение

Источники: LocalLLM
Anthropic запустила Claude Design для интерфейсов и презентаций

Внутри Claude появилась студия для генерации презентаций, интерфейсов и макетов на базе Claude Opus 4.7. Инструмент создает первую версию по текстовому запросу, позволяя редактировать результат через чат, комментарии или автоматические слайдеры для настройки цветов и отступов. Система умеет адаптироваться под стиль команды, анализируя существующие кодбазы и дизайн-файлы, а экспорт доступен в PDF, PPTX, HTML и Canva. Функционал доступен в режиме research preview для платных пользователей. Подробности Ранее: инструмент уже тестировался на создание сайтов по ссылкам на Telegram-каналы, показав высокую степень агентности.

Источники: startupsi
Китайские модели заняли 45% рынка запросов

MiniMax, Zhipu и Moonshot теперь обрабатывают 45% запросов, потеснив ChatGPT и Claude благодаря цене в 10-20 раз ниже гигантов. Производительность этих моделей сопоставима с решениями от бигтехов, что стимулирует миграцию пользователей. Рост доли рынка обусловлен агрессивным ценообразованием при сохранении качества генерации. Источник

Источники: GPTMainNews
OpenAI запускает специализированную модель GPT-Rosalind для биологии и фармакологии

OpenAI анонсировала GPT-Rosalind, модель рассуждений для поддержки исследований в биологии и разработке лекарств. Название дано в честь Розалин Франклин, внесшей вклад в изучение структур ДНК. Модель предназначена для синтеза доказательств, генерации гипотез и планирования экспериментов, что должно ускорить ранние этапы открытия препаратов, традиционно занимающие 10-15 лет. Источник

Источники: techsparks
Kimi Linear снижает затраты на токены через распределение Prefill/Decode между дата-центрами

Moonshot AI описала архитектуру, разделяющую процессы Prefill и Decode между разными дата-центрами и неоднородным оборудованием. Ключевым элементом стала гибридная модель Kimi Linear, уменьшающая размер KV cache и делающая передачу между центрами обработки данных практичной. Тесты на масштабированной модели показали рост пропускной способности в 1.54 раза и снижение задержки TTFT на 64%. В комментариях отмечают потенциал технологии для локального использования, например, когда мощные GPU генерируют KV cache для менее производительного железа. Тред

Источники: LocalLLaMA

Агентные системы и инфраструктура

Агентная система для оптимизации торговых стратегий

Разработана агентная система для самостоятельной оптимизации торговых стратегий без изменения гиперпараметров на этапе валидации. Агент генерирует гипотезы с экономическим обоснованием, тестирует их на исторических данных с 2010 по 2016 год и проверяет на периоде с 2017 по 2021 год. В результате комбинации сигналов тренда объема и взвешивания по волатильности удалось достичь Sharpe 0.86 против 0.67 у бенчмарка. Максимальная просадка составила 11.4% при обороте портфеля 28.1%. Автор планирует далее улучшить конвейер данных для автономного совершенствования системы. Пост

Источники: AgentsOfAI
Проблемы исполнения агентов важнее ошибок модели

Многие неудачи в работе агентов связаны не с ошибками рассуждений модели, а с проблемами исполнения на уровне системы. Часто причинами становятся устаревшее состояние, некорректный вывод инструментов или выполнение действий без должных границ подтверждения. Модель кажется виновником сбоя, так как она видимая часть, но реальные ошибки кроются в архитектуре вокруг нее. Автор призывает уделять больше внимания отладке окружения и потоков действий, а не только промптам. Обсуждение

Источники: AgentsOfAI
Общее рабочее пространство для координации AI-агентов

Использование нескольких кодирующих агентов (Claude Code, CrewAI, LangGraph) часто приводит к конфликтам файлов и работе с устаревшим кодом. Автор разрабатывает общее рабочее пространство в реальном времени, где изменения мгновенно видны всем, а операции с файлами остаются атомарными. Агенты используют стандартные инструменты работы с папками без дополнительных API, что упрощает интеграцию. Подробности

Источники: AgentsOfAI
AI-агент для парсинга визиток прямо в рабочем чате

Пользователь автоматизировал рутинную задачу по переносу контактов из визиток в CRM с помощью AI-агента в рабочем пространстве BridgeApp. Процесс занимает два шага: агент распознаёт текст с фотографии визитки и создаёт запись в базе, затем отправляет подтверждение. Можно добавить контекст встречи голосом или текстом в том же сообщении — например, «обсуждали партнёрство за кофе». Данные сразу попадают в структурированную базу с полями: имя, email, телефон, должность, компания и комментарий. Пост описывает настройку ролей агента и маппинг полей.

Источники: AgentsOfAI
soul-agent-validator: проверка Ollama-агентов перед деплоем

Инструмент soul-agent-validator проверяет репозитории с AI-агентами на соответствие 33 правилам перед запуском в продакшен. Правила разделены на 4 уровня: HARD (отклоняет хардкод ключей, запрещённые импорты, SSRF), SOFT (предупреждает об отсутствии rate limiting, PII-redaction), QUALITY (наличие README, CHANGELOG, SOUL.md) и A2A (карточка агента Google A2A). Утилита устанавливается через pip и выдаёт структурированный отчёт по любому GitHub-репозиторию. Правила хранятся в Markdown — их можно форкнуть и расширять без изменения Python-кода. Репозиторий открыт, инструмент совместим с LangGraph и CrewAI.

Источники: ollama
Фреймворк L.I.A. для локальных ассистентов с поддержкой MCP

Разработчик опубликовал проект L.I.A. (Local Intelligent Assistant) — мультимодальный фреймворк для работы полностью локально. Система использует MCP для плагинов на Python, позволяющих управлять ПК и приложениями, а также RAG для выбора топ-5 релевантных инструментов под запрос. Встроенная семантическая память на локальных эмбеддингах сохраняет факты между сессиями, есть поддержка зрения и синхронизация с аватарами VTube Studio. Магазин плагинов реализован через GitHub Issues, исходный код доступен в репозитории. Подробнее

Источники: LocalLLM
Сравнение платформ для ИИ-агентов по 17 параметрам

Автор подготовил подробный разбор популярных платформ для агентов, включая анализ проблем вроде внезапных счетов, сбросов сессий и ошибок памяти. Оценка охватывает 17 измерений, выделяя реальные слабые места проектов: риски ключевых разработчиков, непроверенные бенчмарки и ограничения платформ. Материал полезен для выбора инфраструктуры без скрытых нюансов эксплуатации. Материал

Источники: AgentsOfAI
Проблемы с диалогами разрешений при автоматизации через AI-агенты на macOS

Пользователь столкнулся с трудностями при работе Hermes Agent и Openclaw на Apple-системах: автоматизация постоянно зависает на диалогах запроса разрешений, даже после предоставления всех необходимых доступов. Например, запрос к Apple Calendar не выполняется из-за блокировок на уровне системы. Это распространённая проблема при селф-хостинге агентов на macOS, где sandboxing и privacy-контроль создают дополнительные барьеры для автоматизации. Обсуждение рабочих обходов и опыта настройки доступно в треде. Ранее: интеграция Openclaw и Ollama в Home Assistant обсуждалась как рабочее решение для локальной автоматизации.

Источники: LocalLLM
Изолированный бэкенд для выполнения кода AI-агентами в контейнерах

Разработан бэкенд для безопасного выполнения Python-кода, генерируемого AI-агентами в процессе рассуждений. Каждый запуск происходит в отдельном временном контейнере без доступа к сети, с read-only файловой системой и 30-секундным таймаутом — после выполнения контейнер уничтожается. Агент получает структурированные результаты, включая причины ошибок, что позволяет ему retry или выбрать другой подход. Есть интеграция с LangChain (около 5 строк кода для подключения). Детали архитектуры и приглашение к тестированию в посте.

Источники: AgentsOfAI
AI-агенты убирают последовательность из рабочих процессов: кейс с рекламными кампаниями

Тестирование агента на базе Claude + Ads APIs через MCP в реальном рабочем процессе показало, что работа перестает быть последовательной. Агент непрерывно pullит данные кампаний, раннее обнаруживает creative fatigue, предлагает сдвиги бюджета и генерирует отчёты параллельно с принятием решений. Время на отчётность и анализ сократилось с 2–3 часов до менее 30 минут, решения принимаются ближе к моменту появления свежих данных. Дашборды начинают выглядеть скорее как логи для людей, чем инструменты для решений. Подробнее о эксперименте в обсуждении. Ранее: тестирование агентности Claude Design и оптимизация Claude Code через LSP уже освещались в дайджестах.

Источники: AgentsOfAI
Проблема передачи файлов от AI-агентов

Пользователи сталкиваются с разрывом между генерацией контента и его доставкой: файлы в чатах быстро истекают, а лимиты размеров мешают работе. В качестве решения обсуждают интеграцию агентов вроде OpenClaw с облачными хранилищами через API. Например, автоматическая загрузка отчетов на Baidu Cloud создает постоянные ссылки для клиентов, убирая необходимость ручной загрузки. Обсуждение рабочих потоков и обходных путей доступно в треде.

Источники: AgentsOfAI
Надёжность tool calling в локальных моделях: опыт пользователей

В сообществе обсуждают реальную применимость tool calling в локальных LLM. Пользователь тестировал Qwen3.5 (27B и 35B), Qwen3.6 35B, Gemma4 26B и GPS-OSS 20B через Open WebUI + LM Studio. Результаты неоднозначные: модели часто сообщают о создании файлов, которых нет, или застревают в циклах `executing`. Qwen3.6, например, утверждал, что пустой .html-файт — это готовый к продакшену сайт. Вопрос остаётся открытым: это текущие ограничения небольших локальных моделей или проблема в настройке параметров. Обсуждение

Источники: LocalLLaMA

Локальный инференс и железо

Тесты гибридных моделей на M1 Max Pro с 64 ГБ RAM

Опубликованы материалы тестирования гибридных моделей на оборудовании M1 Max Pro с 64 ГБ оперативной памяти. Автор разместил скриншоты конфигурации и метрик в изображении внутри сообщения. Подобные данные помогают оценить производительность селф-хостед запуска на мощных ноутбуках Apple. Детали теста доступны в оригинальном посте. Пост

Источники: ollama
Решение проблемы с RX 6800XT и Ollama на Windows 11

Пользователь столкнулся с низкой производительностью RX 6800XT при запуске Ollama на Windows 11: при 100% загрузке GPU энергопотребление составляло всего 43W, скорость генерации — 7.31 токенов в секунду. Проблема решилась установкой HIP-драйверов для AMD, после чего карта заработала штатно. Обсуждение и детали в посте.

Источники: ollama
Использование игрового ПК для удаленного инференса LLM

Автор настроил схему, где игровой ПК с GPU обслуживает запросы от ноутбука через WAN. Стек включает libp2p, VPS-маяк для NAT piercing, Ollama в Podman и зашифрованный туннель. В обсуждении предлагают альтернативы: Cloudflare Tunnel, Tailscale с Open WebUI или WireGuard для прямого соединения. Также звучит рекомендация заменить Ollama на llama.cpp для снижения оверхеда. Обсуждение

Источники: LocalLLM
Сборка на RTX Pro 6000 Blackwell: Workstation против Max-Q

Автор выбирает между версиями Workstation и Max-Q для мульти-GPU системы на базе Threadripper PRO 9965WX. Основные вопросы касаются airflow в открытом корпусе, разводки PCIe 5.0 и энергопотребления. Планируется использование 3–4 карт для задач автоматизации бизнеса. Сообщество советует оставаться на версии Workstation и рассматривать кастомное водяное охлаждение для стабильности. Детали сборки

Источники: LocalLLaMA
Оптимизация контекстного окна для локальных моделей

При работе с локальными моделями контекстное окно 8K-32K заполняется быстро из-за повторных чтений файлов и verbose JSON. Автор инструмента `sqz` предлагает кэшировать контент по хешу, возвращая ссылку вместо полного текста при повторных запросах. Это сокращает расход токенов на 86% при многократном чтении файлов. Утилита написана на Rust и работает как промежуточный слой между инструментами и моделью. Обсуждение, GitHub

Источники: ollama
Веб-проверка совместимости железа с LLM

Проект `llmsizer` предлагает веб-версию для быстрой проверки, какие модели потянет ваше железо без установки софта. Инструмент полностью открыт и помогает оценить возможности конфигурации перед запуском. Удобно для планирования селф-хостинг окружения и тестирования разных квантований. Пост, Репозиторий Ранее: инструмент llmsizer уже упоминался 17 апреля как решение для проверки совместимости моделей с VRAM.

Источники: LocalLLM
Настройка потоков CPU в LM Studio для MoE

В сообществе обсуждают влияние размера пула потоков процессора на скорость генерации токенов при использовании MoE-слоев. Эксперимент затрагивает оффлоадинг части слоев на CPU в интерфейсе LM Studio и поиск баланса производительности. Детали тестирования и графики зависимости tk/s от настроек приведены в обсуждении.

Источники: LocalLLaMA
GHOST v2.1: запуск AI-моделей на AMD в нативной Windows

Вышло обновление GHOST — open source менеджера окружения для запуска высокопроизводительных AI-моделей на оборудовании AMD без Linux. Версия 2.1 добавила полную поддержку Windows: скрипт работает напрямую в PowerShell с виртуализацией, автоматически сканирует систему и подставляет нужный RDNA-архитектурный слой для CUDA-совместимости. Есть приоритизация дискретных GPU, защита от рекурсивных циклов и fallback на RDNA2 для неподдерживаемого железа. Во время загрузки модели можно играть в DOOM прямо в терминале. Репозиторий

Источники: LocalLLaMA
Настройка кэша и контекста в llama.cpp

Обсуждается вопрос оптимальной конфигурации размера KV-кэша и контекста для конкретных моделей и оборудования при использовании llama.cpp. Пользователи отмечают удобство инструмента ollama.ps для визуализации распределения модели и кэша между VRAM и RAM. Сейчас сообщество ищет аналогичные способы диагностики для llama-server чтобы подобрать наилучшие настройки производительности. Подробности обсуждения и предлагаемые решения можно найти в посте.

Источники: LocalLLM

Инструменты для разработчиков

Нишевый сервис для настройки OpenClaw и Ollama

Обсуждается идея запуска специализированного сервиса по настройке и ремонту связки OpenClaw и Ollama. Автор столкнулся с частой проблемой: у нетехнических пользователей селф-хостед конфигурация ломается после исчерпания облачных токенов, например, из-за бага с неверным статусом cooldown в OpenClaw. Решение часто требует правки файла `~/.openclaw/agents/main/agent/auth-profiles.json`, но клиенты готовы платить за удаленную помощь от $100 до $500 за полную настройку. В треде выясняют, есть ли устойчивый спрос на такие услуги вне фриланс-бирж. Обсуждение Ранее: проблемы производительности OpenClaw + Ollama и интеграция в Home Assistant обсуждались 17 апреля.

Источники: ollama
CCWhisperer — объяснение изменений кода от Claude через локальную Ollama

Разработан инструмент CCWhisperer, который перехватывает каждое событие Write/Edit от Claude Code, вычисляет diff и отправляет его на локальную модель Ollama для объяснения изменений на простом английском в реальном времени. Проект использует minimax 2.7 и CC framework, работает как PostToolUse hook. Сам Claude подтверждает соответствие условиям использования. Исходный код и документация доступны на GitHub.

Источники: ollama
Метод оценки uncensored-моделей через разделение перплексии

Автор предложил разделить разницу кросс-энтропии на положительные и отрицательные суммы при оценке перплексии uncensored GGUF-моделей. Отрицательный дельта означает, что модель предсказала текст лучше базовой — это коррелирует с улучшением после fine-tuning. Положительный дельта указывает на деградацию относительно референсной модели. Метод позволяет визуализировать контуры датасета в 2D, где ось X показывает gain, а ось Y — loss. Для вычисления использовались per-token signed deltas вдоль последовательности, а не усреднённый PPL. Детали включают технические нюансы работы с llama-perplexity.exe и обработку логитов.

Источники: LocalLLaMA
SDK Ondine для пакетной обработки данных на локальных моделях

Разработчик выпустил библиотеку Ondine для пакетной обработки DataFrame с помощью локальных LLM через Ollama или MLX. Инструмент решает проблему потери прогресса при сбоях благодаря чекпоинтам и автоматическим повторным попыткам, что критично при медленном локальном инференсе. Библиотека принудительно соблюдает Pydantic-схемы для структурированного вывода, снижая процент ошибок валидации JSON. Поддерживается работа оффлайн, лицензия MIT, репозиторий открыт. Пост

Источники: LocalLLM
Пользователь создал macOS-воркспейс TernBase для работы с локальными моделями

Разработчик столкнулся с фрагментацией инструментов при использовании локальных LLM — приходилось переключаться между Ollama, разными фронтендами и облачными API. Для решения проблемы был собран единый воркспейс TernBase под macOS, объединяющий локальные модели и специализированные приложения для письма, извлечения данных и анализа. Такой подход позволяет держать контекст и историю в одном месте, избегая передачи критических документов облачным провайдерам. Обсуждение

Источники: LocalLLM
Cloudflare открыла код инструмента сжатия LLM без потерь Unweight

Компания выпустила систему Unweight, которая уменьшает размер моделей на 15–22% без потери точности выводов. На примере Meta Llama-3.1-8B инструмент сэкономил около 3 ГБ видеопамяти на GPU Nvidia H100 за счет сжатия весов MLP. Cloudflare опубликовала техническую статью и выложила GPU-ядра на GitHub, планируя в будущем расширить поддержку на веса внимания. Источник

Источники: LocalLLaMA
Автоматизированный пайплайн для локальных LLM на TrueNAS

Пользователь с инженерным бэкграундом поделился опытом создания приложения на базе локальных моделей с полностью автоматизированным пайплайном. Для развертывания использовался Docker-контейнер на TrueNAS, оборудование включает GPU RTX 3090. Входные данные ограничивались лишь ключевым словом «raptor», после чего система генерировала контент самостоятельно. Автор ищет советы по улучшению качества результата и архитектуры решения. Обсуждение проекта доступно в треде.

Источники: LocalLLM

Бизнес и индустрия

Китайские модели заняли 45% рынка запросов

MiniMax, Zhipu и Moonshot теперь обрабатывают 45% запросов, потеснив ChatGPT и Claude благодаря цене в 10-20 раз ниже гигантов. Производительность этих моделей сопоставима с решениями от бигтехов, что стимулирует миграцию пользователей. Рост доли рынка обусловлен агрессивным ценообразованием при сохранении качества генерации. Источник

Источники: GPTMainNews
Cerebras подала заявку на IPO

Производитель AI-чипов Cerebras официально подал заявку на проведение IPO. Компания укрепляет позиции на рынке: недавно было анонсировано соглашение с Amazon Web Services на интеграцию чипов Cerebras в дата-центры AWS. Дополнительно сообщается о крупной сделке с OpenAI объемом более $10 млрд. Подробности выхода на биржу и контекст партнерств описаны в материале TechCrunch.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/