← все дайджесты

среда, 27 мая 2026 г.

AI Digest: Anthropic обогнал OpenAI в бизнесе, OpenAI решил 80-летнюю задачу и Uber исчерпал бюджет на токены

Anthropic обгоняет OpenAI по внедрению в бизнес-среде и запустила маркетплейс плагинов для офисных ролей. Модель OpenAI решила 80-летнюю математическую задачу. Uber исчерпал бюджет на ИИ-токены раньше срока, COO заявил о сложности обоснования затрат. Cerebras разогнала Kimi K2.6 до 1000 токенов/сек. Вышли uncensored-версии Qwen3.5-35B-A3B с сохранением MTP. Представлены новые методы сжатия KV-кэша в 7-10 раз.

Корпоративный ландшафт и экономика ИИ

  • Anthropic обгоняет OpenAI по внедрению в бизнес-среде

    В сообществе обсуждают данные о том, что Anthropic обгоняет OpenAI по уровню внедрения в бизнес-среде. Тема вызвала дискуссию на Reddit, где пользователи анализируют расстановку сил между ключевыми игроками рынка генеративного ИИ. Участники темы рассматривают возможные причины сдвига предпочтений корпоративных клиентов в сторону решений Anthropic. Подробности и аргументы сторон доступны в исходном посте Обсуждение.

    Источники: singularity

  • Anthropic выпустила маркетплейс плагинов для офисных ролей

    Anthropic опубликовала репозиторий Knowledge Work Plugins — каталог плагинов, превращающих Claude в узкого специалиста для разных профессий. Каждый плагин содержит манифест, файл подключений, слэш-команды и скиллы. Доступны роли: productivity (Slack, Notion, Jira), sales (HubSpot, Close, ZoomInfo), customer-support, product-management, marketing, legal, finance (Snowflake, BigQuery), data, enterprise-search, bio-research (PubMed, BioRender). На базе этого каталога построены вертикальные продукты вроде Claude for Legal и Claude for Financial Services. Репозиторий

    Источники: prompt_design

  • COO Uber заявил о сложности обоснования затрат на ИИ

    Операционный директор Uber отметил, что компании становится сложнее оправдывать расходы на искусственный интеллект. Причина в отсутствии прямой связи между бюджетом на ИИ и появлением действительно полезных функций для пользователей. В обсуждении пользователи добавляют, что проблема может быть в подходе «молоток и гвоздь», когда технологию пытаются применить везде без необходимости. Также звучат мнения о необходимости сместить фокус с роста производительности моделей на их эффективность, так как текущие темпы сжигания токенов неустойчивы. Источник

    Источники: singularity

  • Uber исчерпал бюджет на ИИ-токены раньше срока

    Эндрю Макдоналд, операционный директор Uber, сообщил, что компания потратила бюджет на ИИ-токены на 2026 год раньше времени. При этом рост использования инструментов инженерами не приводит к пропорциональному улучшению клиентского опыта или выпуску новых функций. Руководство продолжает инвестировать в технологии, но становится осторожнее, например, замедляя найм сотрудников. В комментариях отмечают, что ситуация могла стать следствием завышенных ожиданий и агрессивного маркетинга о замене работников ИИ. Обсуждение

    Источники: singularity

  • Китай расширяет ограничения на выезд для AI-специалистов

    Китай ужесточает ограничения на выезд для ведущих специалистов в области ИИ из частных компаний, что затрудняет переход талантов вроде бывшего руководителя Qwen Junyang Lin в другие организации. По данным Bloomberg и Straits Times, правительство рассматривает ИИ как стратегическую область, связанную с военными, медицинскими и сельскохозяйственными применениями. В сообществе отмечают, что такие меры могут дать обратный эффект и стимулировать отток кадров. Bloomberg

    Источники: LocalLLaMA

  • Universal Music Group и TikTok продлили соглашение по борьбе с неразрешенной AI-музыкой

    Universal Music Group и TikTok обновили соглашение для борьбы с генерацией музыки через ИИ без разрешения правообладателей. UMG несколько лет требовала от платформ и стриминговых сервисов внедрения более жестких правил модерации контента. Новое соглашение продолжает эту политику, ограничивая использование защищенных материалов в генеративных моделях. Детали

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

Модельные релизы и исследовательские прорывы

  • Модель OpenAI решила 80-летнюю математическую задачу

    Модель OpenAI решила математическую задачу Пола Эрдёша, сформулированную в 1946 году. Требовалось расположить n точек на плоскости так, чтобы максимальное число пар имело одинаковое фиксированное расстояние. Десятилетиями лучшим решением было расположение в виде квадратной сетки, но ИИ нашел бесконечное семейство конфигураций, дающих больше пар на единичном расстоянии. Для этого были применены методы алгебраической теории чисел, ранее не использовавшиеся в этой геометрической задаче. Это была модель общего назначения, без специального обучения или подсказок для решения проблемы. Источник

    Источники: startupsi

  • Cerebras запустили Kimi K2.6 на скорости ~1000 токенов/с

    Cerebras развернули триллионную open-weight модель Kimi K2.6 на своей инфраструктуре для корпоративных клиентов. Их чип содержит 4 триллиона транзисторов, 900 тысяч вычислительных ядер и 44 ГБ памяти на кристалле — вся память рядом с вычислениями, данные не гоняются по сети между чипами. Измерения Artificial Analysis показывают 981 токен/с — в 6,7 раза быстрее ближайшего GPU-облака. На практике запрос с 10 000 токенов входа и 500 токенов ответа занимает 5,6 секунды против 163,7 секунды на официальном эндпоинте Kimi. В январе 2026 OpenAI подписала с Cerebras контракт на 750 МВт мощностей стоимостью более $20 млрд. Детали

    Источники: ai_for_devs

  • NuExtract3: 4B модель для извлечения данных из документов

    NuExtract3 — унифицированная vision-language модель на 4B параметров для работы с документами. Поддерживает структурированное извлечение данных (вход + JSON-шаблон + инструкции → JSON-вывод) и конвертацию изображений в Markdown. Работает с мультимодальными входами (текст, изображения или их комбинация), поддерживает многоязычные документы и имеет режимы reasoning и non-reasoning инференса. Подходит для OCR, RAG-препроцессинга, обработки сканов, квитанций, форм, контрактов и таблиц. Уже доступны квантованные версии в форматах GGUF, NVFP4, MLX, VLLM. Страница модели

    Источники: LocalLLaMA

  • NuExtract3: открытая 4B VLM-модель для извлечения данных из документов

    Numind выпустила NuExtract3 — 4B модель на базе Qwen3.5-4B под лицензией Apache-2.0 для конвертации документов в Markdown и извлечения структурированных данных. Модель работает с PDF, скриншотами, формами, таблицами и многостраничными документами, требует от 4GB VRAM. Доступны квантованные веса (GPTQ, W8A8, FP8, Q4, Q6), GGUF и MLX-форматы для селф-хостинга. В комментариях пользователи интересуются работой с многоколоночными макетами, плотными таблицами и сравнением с dots.ocr и Qwen3-VL. Модель на HuggingFace

    Источники: LocalLLaMA

  • Judicex: открытая юридическая ИИ-модель для Италии

    Модель умеет воздерживаться от ответа вместо генерации галлюцинаций, что критично для правовых задач. Проект с открытым кодом фокусируется на итальянском законодательстве и снижает риски ошибочных рекомендаций. Источник

    Источники: ollama

  • Релиз Qwen3.5-27B-uncensored-heretic-v2 в форматах GGUF, GPTQ и NVFP4

    Опубликована модель Qwen3.5-27B-uncensored-heretic-v2-Native-MTP-Preserved в нескольких форматах: Safetensors, GGUF, NVFP4 и GPTQ-Int4. Все версии доступны на HuggingFace в репозитории llmfan46. Для Ollama пользователей приведён пример команды запуска с квантованием Q4_K_M. Автор объясняет различия между Qwen3.5 и Qwen3.6: обе используют архитектуру qwen35, но Qwen3.6 оптимизирована для agentic и coding задач, а Qwen3.5 — для general purpose. Также приведены данные о KL divergence и потере точности: у Qwen3.5-27B KL divergence 0.0308 с потерей точности 0.35%, что показывает устойчивость модели к abliteration. Модели на HuggingFace

    Источники: ollama

  • Qwen3.5-35B-A3B uncensored heretic v2 в нескольких форматах

    Модель доступна в форматах Safetensors, GGUF, NVFP4 и GPTQ-Int4 на HuggingFace. Qwen3.5 оптимизирован для универсальных задач, тогда как Qwen3.6 заточен под агентные и кодинговые сценарии — обе архитектуры используют qwen35, но по-разному реагируют на аблитерацию. Qwen3.5 показывает KL divergence в диапазоне 300-400 с минимальной потерей точности, а Qwen3.6 при аналогичных значениях теряет качество заметнее. Для Ollama пользователей приведены команды запуска конкретных квантованных версий. модели

    Источники: ollama

  • Qwen3.5-35B-A3B uncensored: файн-тюнинг с сохранением MTP и сравнение с Qwen3.6

    Вышла новая версия Qwen3.5-35B-A3B в формате uncensored с сохранением Native MTP. Модель доступна в Safetensors, GGUF, NVFP4 и GPTQ-Int4 форматах на HuggingFace. Автор объясняет, что Qwen3.5 оптимизирован для общих задач, а Qwen3.6 — для агентских и код-ассистентов, хотя обе используют архитектуру qwen35. При файн-тюнинге Qwen3.5 показывает меньшую потерю точности при высоком KL divergence: 0.0487 KL даёт 0.40% потерю против 0.0015 KL и 0.32% у Qwen3.6. В комментариях пользователи спрашивают про 8-bit MLX и интересуются выбором между версиями 3.5 и 3.6. Подробнее

    Источники: LocalLLM

  • Talkie-1930-13B: языковая модель, обученная только на текстах до 1931 года

    Вышла модель talkie-1930-13b-it, обученная исключительно на англоязычных текстах до 1931 года. Базовая версия тренировалась на 260B токенов из исторических источников: справочников по этикету, энциклопедий и руководств по переписке. Для улучшения следования инструкциям применили online DPO с LLM-as-a-judge. Проект позволяет симулировать общение с людьми из прошлого, не знакомыми с современным миром. Исходный код и документация доступны на GitHub, отчёт опубликован на сайте проекта. HuggingFace

    Источники: LocalLLaMA

  • Qwen3.5-27B uncensored с поддержкой Native MTP

    Автор llmfan46 выпустил новую версию модели Qwen3.5-27B в форматах Safetensors, GGUF, NVFP4 и GPTQ-Int4 с сохранением Native MTP. В отличие от Qwen3.6, которая ориентирована на агентные задачи и код, Qwen3.5 лучше подходит для универсального использования. Обе модели используют архитектуру qwen35, но по-разному реагируют на аблитерацию: Qwen3.5 сохраняет точность даже при KL-дивергенции в 300-400, тогда как Qwen3.6 показывает заметное ухудшение качества при меньших значениях. Бенчмарки включены в репозиторий, все модели доступны на HuggingFace здесь. Пост

    Источники: LocalLLaMA

Оптимизация инференса и квантование

  • BLASST: ускорение attention через отсев блоков

    Исследователи из Nvidia представили BLASST — метод ускорения расчёта attention в трансформерах через динамическую разреженность блоков. Идея в том, что если максимум softmax в блоке значительно меньше уже посчитанного, блок полностью пропускается — value-векторы этих токенов не участвуют в вычислениях. Авторы заявляют до 50-60% отсеченных блоков с потерей качества до 1% на бенчмарках длинного контекста. На полной модели ускорение выходит около 10%, что всё равно существенно в оптимизированных пайплайнах. Метод совместим с другими оптимизациями вроде DeepSeek MLA и работает без дообучения, хотя небольшой файн-тюнинг под новые кернелы улучшает результаты. Подробнее

    Источники: seeallochnaya

  • OSCAR RotationZoo: сжатие KV-cache в 7 раз для INT2-квантования

    Выложен набор предвычисленных матриц ротации K/V для метода OSCAR — offline spectral covariance-aware rotation для 2-битного квантования KV-cache. Метод захватывает активации Q/K/V на калибровочном наборе, оценивает ковариацию внимания и выводит ортогональные ротации на слой. Результат — сжатие памяти KV-cache примерно в 7 раз с падением точности на единицы процентов на GPQA. В репозитории готовые .pt-файлы ротаций для Qwen3-4B-Thinking, Qwen3-8B, Qwen3-32B и GLM-4.7-FP8, чтобы не запускать eigendecomposition самостоятельно. В обсуждении отмечают надежду запустить 30-40B MOE-модели на 8GB VRAM к концу года. Репозиторий, код, статья.

    Источники: LocalLLaMA

  • MTP в vLLM: ускорение инференса Qwen 3.6 27B на RTX 6000

    Тестирование Multi-Token Prediction (MTP) в vLLM с моделью Qwen 3.6 27B BF16 на NVIDIA RTX PRO 6000 Blackwell (96 GB). Без MTP — ~26 TPS, с MTP 2 — ~40-45 TPS (+54-73%) на реалистичных промптах, с MTP 3 — до 70+ TPS на простых задачах. Параметр num_speculative_tokens контролирует количество спекулятивных токенов за шаг декодирования. Автор делится полной конфигурацией vLLM 0.21.0 и отмечает, что увеличение лимита мощности GPU с 400W до 600W даёт минимальный прирост. В комментариях упоминают flashinfer и pr с fixed graph capture для ещё большего ускорения. Пост

    Источники: LocalLLM

  • Сравнение квантования: размер модели против качества сжатия

    В сообществе обсуждают, может ли меньшая модель с менее агрессивным квантованием превзойти большую модель с сильным сжатием. Например, сравнивают Gemma 4 31B Q4 и 26B Q8 для творческого письма. Комментаторы отмечают, что обычно больше параметров с Q4 лучше, чем меньше параметров с Q6/Q8, но разница между Q3 и Q4 существенна. Есть исключения: в тестах RAG 12B Q4 иногда работала лучше 27B Q3. Ниже Q4 компетенция модели резко падает. Обсуждение

    Источники: LocalLLaMA

  • RTPurbo: ускорение длинного контекста без нативной稀疏ности

    Исследователи предложили метод RTPurbo, который трансформирует стандартные full-attention модели в высоко-разреженные с минимальной адаптацией. Подход использует 16-мерный индексер и сохраняет полный KV-кэш только для head'ов retrieval. Это дает ускорение prefill до 9.36x при контексте 1M токенов и 2.01x при декодировании без потери точности. Комментаторы отмечают потенциал технологии для серверов с длинным контекстом, где важно избежать полных вычислений внимания на каждом шаге. Исследование

    Источники: LocalLLaMA

  • FWHT для CUDA: ускорение квантования KV-кэша на 7-9%

    Пользователь am17an реализовал Fast Walsh-Hadamard Transform для CUDA, что даёт прирост производительности при квантовании KV-кэша. На RTX 5090 с параметрами `-ctk q8_0 -ctv q8_0` ускорение составляет 1-2% на prompt processing и 7-9% на text generation для gemma4 26B. В комментариях отмечают, что некоторые пользователи столкнулись с проблемами вывода на qwen3.6 после обновления — пришлось откатить коммит. Для владельцев более слабых карт вроде GTX 1050 даже такой прирост важен. Пост

    Источники: LocalLLaMA

  • ThriftAttention: смешанная точность для длинного контекста

    Представлен метод ThriftAttention для selective mixed precision в long-context FP4 attention. Идея в том, что 5% токенов сохраняются в FP16, что обеспечивает баланс между точностью и throughput. Оптимальное значение находится в диапазоне 5-10% токенов в повышенной точности. В комментариях называют подход очевидным выбором даже для владельцев слабых GPU — ранее можно было превысить максимальный контекст на 20k токенов, но производительность деградировала уже на 4k сверх лимита. Репозиторий

    Источники: LocalLLaMA

  • Shard: сжатие KV-кэша в 10× для Llama-3.1-8B без потери качества

    Проект Shard представляет drop-in замену HuggingFace Cache, которая уменьшает KV-память Llama-3.1-8B в 10 раз при 8K контексте (в 11 раз при 32K) без заметного влияния на NIAH и LongBench. Метод использует раздельную обработку K и V: PCA плюс int4 квантование для K (матрица эффективно низкоранговая после undo RoPE), Hadamard-ротация и векторное квантование для V. Attention работает напрямую на сжатом K без реконструкции в fp16. Код доступен на GitHub. В комментариях пользователи просят адаптировать решение под Qwen 3.6 27B для практического тестирования. Репозиторий проекта

    Источники: LocalLLaMA

  • INT8 AWQ (W8A16) не работает на DGX Spark (GB10 Blackwell) с vLLM

    Пользователь столкнулся с критической проблемой: модель Qwen3.6-27B в формате INT8 AWQ не запускается на DGX Spark с процессором GB10 Blackwell и vLLM 0.21.0. Единственный поддерживаемый kernel — conch-triton-kernels v1.3, но при загрузке модели (34.44 GiB) происходит crash с ошибкой CUDA illegal memory access в mixed_precision_gemm. Не помогли ни --enforce-eager, ни разные настройки kv-cache-dtype, ни очистка Triton cache. Проблема актуальна для владельцев нового железа Blackwell. Обсуждение и возможные решения в треде.

    Источники: LocalLLM

  • INT4-W4A16 версия Qwopus3.6-27B-v2 для VLLM/SGLang

    Опубликована квантованная версия модели Jackrong/Qwopus3.6-27B-v2 в формате INT4-W4A16. Релиз ориентирован на пользователей VLLM и SGLang, обеспечивая баланс между производительностью и потреблением памяти. Формат W4A16 означает 4-битные веса и 16-битные активации, что снижает требования к VRAM при сохранении качества генерации. Обсуждение

    Источники: LocalLLM

  • Oscar KV Quant: новые методы квантования KV-кэша

    В сообществе обсуждают новую статью о KV-квантовании под названием Oscar KV Quant, опубликованную на arxiv. Пользователи отмечают иронию ситуации — метод появился именно когда сообщество начало активно использовать turboquant. Детали реализации пока обсуждаются в комментариях к посту. arxiv

    Источники: LocalLLaMA

Железо и конфигурации для локального запуска

  • Старый Mac Pro с D700 GPU запускает LLM через Vulkan

    Пользователь обнаружил, что Mac Pro 2016 года с парой GPU D700 (12GB VRAM) теперь поддерживает Vulkan благодаря новым драйверам и ядру Linux — это позволяет запускать модели через llama.cpp. Бенчмарки: Qwen 3.5 9B Q4 выдаёт 11 t/s при 70k контексте, Qwen 2.5 coder q4 — 22 t/s. По словам автора, планирование задач у Qwen 3.5 работает заметно лучше, чем у Claude Sonnet 4.6. В комментариях рекомендуют попробовать MoE-модели с частичным оффлоадингом и отмечают, что современные решения вроде DGX Spark дают в 10 раз выше производительность. Тред

    Источники: LocalLLaMA

  • Запуск LLM на сервере только на CPU: опыт и оптимизация

    Пользователь протестировал локальные модели на сервере без GPU — 2x Intel Platinum 8280, 384GB RAM, LM Studio на Ubuntu VM. Результаты: Qwen3.6 35B A3B (Q4_K_M) выдаёт ~13 ток/сек, LFM2.5 1.2B (Q8_0) — ~30 ток/сек, MiniMax M2.7 — ~6 ток/сек. В комментариях советуют ограничить THREADS до 24-28 (физические ядра одного сокета), использовать Q4/Q5 вместо Q8, переключиться на llama.cpp или ik_llama.cpp с AVX-512 для ускорения на 30-50%. Также упоминают KTransformers для CPU с поддержкой AMX. Обсуждение

    Источники: LocalLLM

  • Кодирование на M4Pro 48GB: выбор модели и ограничения Mac

    Пользователь ищет оптимальную модель для помощи в написании кода на MacBook Pro M4Pro с 48GB RAM. qwen3.6-27b выдаёт качественный результат, но этап thinking занимает больше минуты даже на простые вопросы. gemma-4-31b-it-mlx думает значительно быстрее — до 10 секунд. В комментариях советуют попробовать qwen3.6-27b-oQ6-mtp с omlx и отмечают, что prompt processing на Mac медленный из-за меньшей скорости RAM по сравнению с VRAM. Также упоминают, что 35b модель работает быстрее 27b при запуске в BF16. Обсуждение

    Источники: LocalLLM

  • 12×V100 кластер для юридической работы: переход с vLLM на llama.cpp и MoE-модели

    Юрист обновил конфигурацию своего селф-хостед кластера: теперь 12 карт V100-SXM2 32GB на Threadripper Pro плюс вторая система на EPYC 7302P с 4×RTX 3090 и 2×V100-PCIe. Ключевое изменение — отказ от vLLM в пользу llama.cpp, поскольку MoE GGUF-модели не работают на Volta через vLLM (FP8/AWQ/Marlin требуют SM75+). На четырёх V100 MoE-модели показывают 50–113 tok/s при декодировании, тогда как плотные 27–32B модели — лишь 20–28 tok/s. Система использует оркестратор, который распределяет задачи между моделями: Qwen3.6-35B-A3B для черновиков, Qwen3.5-122B-A10B для сложных задач, Gemma-4-26B для извлечения данных. Автор отмечает проблему галлюцинаций цитат и дат — пришлось добавить верификатор, проверяющий каждую ссылку по исходным материалам. Подробности в посте

    Источники: LocalLLaMA

  • Апгрейд с dual 5060ti на RTX PRO 5000 48GB: бенчмарки и практический опыт

    Пользователь заменил две 5060ti на одну RTX PRO 5000 с 48GB VRAM — карта работает холоднее (не превышает 200W против 250W ранее) и даёт удвоение производительности. На Qwen3.6-35B-A3B-UD-Q4_K_M достигнуты 5267 tok/s при PP512 и 181 tok/s при TG128, остаётся 9GB VRAM для кэшей нескольких агентов. Старые 5060ti не пропали даром: одна подключена через Thunderbolt 3 к ноутбуку с Quadro RTX 5000, вторая пара используется для лёгких задач вроде Whisper. Старая конфигурация показывала 2489 tok/s при PP512 и 97 tok/s при TG128 на тех же моделях. Отчёт с цифрами

    Источники: LocalLLM

  • Видео-гайд: настройка opencode и Qwen3.6-27B на двух R9700

    Автор подготовил видео-демонстрацию работы Qwen3.6-27B с opencode на двух картах R9700. В качестве примера использования модель написала монитор загрузки CPU на QT6 C++. В комментариях пользователи делятся своими результатами: 30+ tok/s при Q8 и 130k контексте с f16 kv cache на Qwopus 27b MTP, обсуждают сравнение с ROCm и особенности квантования. Видео-инструкция

    Источники: LocalLLM

  • Ускорение MOE на Strix Halo через кастомный патч llama.cpp

    Пользователь pedapudi опубликовал отклоненный PR для llama.cpp, который ускоряет обработку промптов для MOE-моделей на AMD ROCm до 30%. Патч не попал в основную ветку, но его можно вручную применить к текущему релизу. Наибольший прирост наблюдается при коротком контексте, с ростом длины эффективность снижается. В обсуждении отмечают, что на Strix Halo бэкенд Vulkan может быть быстрее на 10-25%, поэтому стоит сравнивать варианты. Подробнее

    Источники: LocalLLaMA

  • Лучшие модели для кодинга на RTX 3060

    Обсуждают оптимальный стек для 12GB VRAM. В комментариях советуют Gemma4 26B-A4B для задач по созданию игр, она показывает результаты лучше Qwen3.6 35B-A3B в тестах. Для баланса скорости и интеллекта рекомендуют Qwen3.5 9B, который выдает 50+ токенов в секунду. Также есть нюанс с MTP головами у Qwen3.6 — их отключение экономит видеопамять без критической потери качества. Квантование подбирают под контекст: IQ3 для скорости, q4_q5 для длинной контекстной окна. Обсуждение

    Источники: LocalLLaMA

  • Conifer — open-source рантайм для локального инференса на Apple Silicon

    Команда из 5 человек из Принстона разрабатывает Conifer — движок для локального инференса на Apple Silicon, написанный на Rust с ручными ядрами. Проект полностью open-source и остаётся бесплатным, для малых моделей уже обгоняет llama/mlx по производительности. Планируется поддержка полноценного локального агента с доступом к файлам и приложениями под контролем OS kernel. Сейчас идёт закрытое бета-тестирование на 100 человек для сбора фидбека и инженерной оптимизации. Подробности и запись в waitlist.

    Источники: LocalLLM

  • Выбор между q4 и q5 для 70b модели на 24GB видеокарте

    Пользователь столкнулся с классической дилеммой: 70b модель в q4-квантовании помещается на 24GB GPU с запасом, а q5 требует закрыть всё остальное и надеяться на лучшее. Для задачи генерации кода на приватной кодовой базе разница в бенчмарках (HumanEval) составляет 1-2 пункта. Вопрос остаётся открытым — стоит ли повышенное качество q5 риска работы на пределе возможностей железа. Обсуждение в треде.

    Источники: LocalLLaMA

  • Обновление: кластер 12x32GB SXM V100 для локального ИИ в юридическом драфтинге

    Автор делится опытом использования кластера из 12 видеокарт NVIDIA V100 по 32GB в формате SXM для задач локального ИИ в юридической сфере. Конфигурация предназначена для автоматизации составления юридических документов. Подробности обновления доступны в посте.

    Источники: LocalLLM

  • Оптимизация запуска LLM на MacBook: 49 токенов/сек на Qwen3.6 35B с 64GB RAM

    Пользователь поделился настройками для стабильного запуска Qwen3.6 35B A3B на MacBook M2 Max с 64GB RAM. Ключевые рекомендации: переключить дисплей с ProMotion на 60Hz (освобождает память и удваивает таймаут watchdog), использовать GGUF вместо MLX, поднять лимит wired memory через iogpu.wired_limit_m до 61440. Важно включить preserve_thinking для агентских сценариев и не использовать MTP-версию — она замедляет генерацию. Для охлаждения рекомендуется настроить вентиляторы на 50-80°C через mac fans app. KV cache не стоит квантовать ниже q8, иначе модель теряет точность. Автор достиг 49-65 токенов/сек при генерации и 490 токенов/сек при обработке промптов. Обсуждение

    Источники: LocalLLaMA

  • Intel NPU для распознавания речи: в 6 раз быстрее CPU и в 21 раз энергоэффективнее

    Пользователь протестировал Intel Arrow Lake NPU для ASR в умном доме и получил впечатляющие результаты. При транскрибации 60-секундного аудио NPU показал 818 мс против 5011 мс у CPU (INT8) и потребил в 21.6 раз меньше энергии. Для коротких команд 3-4 секунды NPU обрабатывает за 120-160 мс, обгоняя даже RTX 3060 eGPU благодаря мгновенному пробуждению из спящего режима. Решение освобождает 2-3GB VRAM видеокарты для LLM-задач и разгружает CPU. Код для запуска onnx-asr на OpenVino доступен на GitHub. Детали теста

    Источники: LocalLLaMA

  • Движок Cluaiz запускает 4B модели на RTX 3050 без OOM

    Автор разработал инференс-движок Cluaiz на Rust и C++ для работы на видеокартах с малым объемом памяти. Решение исключает стандартные обертки Python и Docker, используя динамическое управление KV-cache для экономии VRAM. На RTX 3050 (4 ГБ) модель Bonsai-4B показала 66.8 токенов в секунду, а Gemma 4B и Qwen 3.5 4B стабильно выдавали 30–33 токена. В обсуждении задаются вопросом, что именно подразумевается под «прямым доступом к железу» и какие именно стандартные инструменты вызывали переполнение памяти. Тред

    Источники: LocalLLM

Агентные системы и инструменты разработки

  • Селф-хостед песочница для computer use агентов на Linux

    Разработан фреймворк для запуска Codex-агентов в изолированной среде на headless Linux с GPU passthrough и sudo-доступом. Основу составляет LXC-контейнер вместо полноценной VM — это позволяет нескольким экземплярам делить один GPU и запускать параллельные сессии. Агент может устанавливать софт, browsить веб, тестировать Docker-контейнеры и разрабатывать веб-приложения без риска повредить хост-систему. Для computer use интегрирован trycua/cua, добавлены хуки для блокировки git push. Решение тестировалось на DGX Spark, с минимальными правками работает на macOS и Windows WSL. Репозиторий

    Источники: LocalLLaMA

  • Clotho — UI для локальной памяти Modgudr с авто-детектом моделей

    Вышел Clotho — графический интерфейс для стека памяти Modgudr (языковая память) и Ilamcetcenni (сенсорная память). Приложение автоматически находит запущенные локальные раннеры: Ollama, LM Studio, Jan, GPT4All, Koboldcpp, LocalAI — без ручной конфигурации. Можно загружать изображения, аудио, видео и документы в Ilamcetcenni, чтобы модель запоминала не только текст. Справа отображается живая лента памяти с градациями уверенности G1-G5. Первый запуск проходит через визард, есть опция авто-запуска Modgudr и Ilamcetcenni. Лицензия AGPLv3, бесплатно для индивидуального использования, работает полностью локально. Версия для Mac в разработке, планируется роутер Therivu для умного управления контекстом между несколькими LLM. Скачать

    Источники: LocalLLM

  • Open-source CLI для упаковки контекста GitHub-репозиториев

    Инструмент позволяет собирать контекст из GitHub-репозиториев в локальные Markdown или JSON-файлы для использования coding agents. Это упрощает подготовку данных для локальных LLM, работающих с кодовой базой. CLI устраняет необходимость ручной сборки контекста и позволяет быстро подготовить репозиторий для анализа моделью. Пост

    Источники: LocalLLM

  • Утилита grab для управления контекстом в репозиториях

    Инструмент решает проблему фрагментации контекста при отладке больших проектов через LLM. Вместо ручного копирования сниппетов, `grab` накапливает выборку в буфере обмена или tmux, позволяя модели запрашивать недостающие детали явно. Есть поддержка рекурсивного индексирования функций для точного определения границ кода. Работает с Python, C#, JS/TS и shell-скриптами поверх ripgrep и sed. Презентация инструмента

    Источники: LocalLLM

  • Самоулучшающийся агентный QA-харнесс с памятью

    Представлен инструмент для автоматизированного тестирования AI-агентов с функцией памяти и самокоррекции. Тесты можно писать на естественном языке без необходимости вручную кодировать сценарии проверки. Система отслеживает регрессии до выпуска релизов, что упрощает контроль качества в проектах с агентами. Механизм памяти позволяет харнессу накапливать историю предыдущих тестов и улучшать покрытие со временем. Пост содержит детали реализации.

    Источники: AgentsOfAI

  • AgentFlow4J: мульти-агентные воркфлоу для Java с встроенным управлением

    AgentFlow4J — Spring-native рантайм для построения надёжных мульти-агентных систем в экосистеме Java. Платформа позволяет оркестрировать агентов как воркфлоу с встроенными примитивами управления: политики, шлюзы одобрения, контроль бюджета, устойчивые чекпоинты и retry с учётом причин ошибок. Решение ориентировано на разработчиков, которым нужны операционный контроль, трассируемость и production-grade оркестрация без выхода за пределы Java-стека. Подробнее.

    Источники: AgentsOfAI

  • В Anubis OSS появилась загрузка моделей через интерфейс

    Теперь скачивать веса можно прямо из UI, без необходимости использовать командную строку. Обновление упрощает управление локальными инстансами и ускоряет добавление новых моделей в систему. Детали

    Источники: ollama

  • baby_agi: изменение целевых функций LLM во время выполнения

    Система использует эмоциональную базу (валентность/возбуждение) для динамического приоритета задач на базе Qwen 7B. Работает локально на M4 Pro через Ollama/MLX, включает цикл «сна» для очистки шума и песочницу для безопасных действий. Техническое описание

    Источники: LocalLLM

  • ArcBrain — локальный MCP-сервер памяти с Ollama

    ArcBrain решает проблему потери контекста в AI-ассистентах для кодинга, предоставляя персистентную память между сессиями. Сервер использует llama3.2:3b локально через Ollama для scoring релевантности и суммаризации в конце сессии — все данные остаются на машине без внешних API-вызовов. Система хранит структурированные объекты памяти с confidence scores и timestamps, строит knowledge graph решений проекта. Интегрируется с Claude Desktop, VS Code Copilot, Cursor через MCP. Проект доступен для локальной установки на Windows.

    Источники: ollama

  • Calame: no-code генератор MCP-серверов из SQL-баз

    Calame превращает любую Postgres, MySQL или SQLite базу в MCP-сервер через визуальный интерфейс. Для каждой таблицы инструмент автоматически создаёт методы: describe, aggregate, query и другие. Встроена поддержка мультитенантности с fail-closed политикой, сканирование PII и маскирование данных. Работает с любыми MCP-клиентами, включая Claude Desktop и локальных агентов. Ядро проекта на Apache 2.0, enterprise-функции (SSO и др.) — BUSL 1.1 с переходом на Apache 2.0 через 4 года. Подробнее

    Источники: LocalLLM

  • HuBrIS — система памяти для AI-ассистентов с сохранением контекста между сессиями

    Разрабатывается HuBrIS (Human Brain Inference Storage) — гибридный MCP-сервер для управления памятью чат-сессий. Система работает с двумя типами памяти: семантической (факты, навыки, знания) и автобиографической (хронология диалога). Контекст сохраняется вне «живого» окна, что позволяет отслеживать изменения при компaction или усечении. Инструменты включают recall_subject для извлечения структурированной памяти и close_subject для удаления неактуальных тем из сессии. Память persists между сессиями — можно спросить «помнишь три недели назад, когда мы писали функцию для перезагрузки файла?» и получить ответ с учётом последующих изменений. Сейчас система работает с Continue.dev и Ollama, планируется адаптер для GitHub Copilot. Подробнее

    Источники: LocalLLM

  • Паттерн проектирования навыков data-prep для AI-агентов

    При проектировании навыков подготовки данных для LLM-агентов не стоит рассматривать каждый шаг как «просто напиши ещё один промпт». Наивный подход с цепочкой промптов (summarize → generate QA → score → filter) работает, но хрупок. Лучше использовать явные примитивы: file conversion → chunking → cleaning → QA generation → scoring/filtering. Ключевая деталь — поле flow: какие поля существуют на входе, какие создаёт каждый шаг, не читает ли шаг поле до его создания. Полезно заставлять агента выводить мини-план перед генерацией кода, что ловит много невалидных пайплайнов. Это направление исследуется в OpenDCI/DataFlow. Обсуждение

    Источники: AgentsOfAI

  • AcouLM — контроллер для локальных LLM с поддержкой CPU/GPU/NPU

    Open-source проект на базе OpenVINO GenAI автоматизирует выбор устройства для запуска моделей через бенчмарки и переключается между режимами Performance, Balanced и Battery Saver. Поддерживается Intel NPU, автоматический fallback при сбоях и обнаружение доступных устройств. Инструмент находится в активной разработке и готов к тестированию сообществом, в репозитории есть примеры результатов и демо-видео. репозиторий

    Источники: LocalLLM

  • SkillOpt: оптимизация skill-файлов через валидированные правки

    Новая статья формализует подход к оптимизации skill-файлов в формате markdown через ограниченное редактирование с валидацией на тестовом наборе. Лучшие навыки сходятся за 1-4 принятых правки при бюджете 4-8 редактирований на шаг, итоговый размер навыка составляет около 920 токенов. Навык, оптимизированный на Codex, переносится на Claude Code без изменений и показывает +59.7 на SpreadsheetBench, а GPT-4.1 nano с оптимизированным навыком достигает уровня frontier-моделей на процедурных бенчмарках. Метод требует автоградер с четкими правильными ответами, что ограничивает применение для открытых задач. Paper

    Источники: LocalLLaMA

Практические применения и кейсы внедрения

  • Три месяца с полностью локальным AI-агентом на своём железе

    Автор запустил локального агента на DGX Spark + Mac Mini + A5000 через Ollama без облачных API и утечек данных. Ключевое открытие: локальные модели 7-30B не справляются с 39 инструментами одновременно — они начинают галлюцинировать названия и сжигать токены на внутреннюю логику. Решение — роутер на phi4:14b классифицирует интент и передаёт задачу специалисту с 3-6 инструментами. Для памяти вместо плоского векторного хранилища использован FalkorDB с графовой структурой, что даёт отслеживание связей между сущностями и историю изменений фактов. Важный нюанс: если модель возвращает пустые ответы, проверяйте num_predict — thinking-модели тратят токены на внутреннее рассуждение до вывода. В комментариях выложили репозиторий реализации LocalClaw. Подробнее в посте

    Источники: ollama

  • NeuronGuard: обучение 560k строк DBpedia за 19 секунд на M2 Pro

    Автор заменил тяжёлую матричную архитектуру LLM на NeuronGuard и обучил 560k строк DBpedia за 19 секунд на Mac M2 Pro. footprint памяти радикально меньше: NeuronGuard занимает 32.22 KB в PyTorch против 500+ MB у традиционной матричной модели. Деталей архитектуры в посте мало, но результат демонстрирует потенциал альтернативных подходов к построению моделей для локального запуска. Обсуждение

    Источники: LocalLLM

  • Вебинар по системной оценке LLM-продуктов от ШВМ

    Школа Высшей Математики проводит вебинар о подходах к системному улучшению AI-продуктов — от хаотичного тестирования промптов к измеримым метрикам. В программе: live-демо полного цикла оценки продукта от сбора логов до настройки автоматизированных систем, разбор production-стека инструментов и готовый фреймворк для внедрения. Спикеры — Андрей Киселев (Head of Product, экс-Revolut и Яндекс) и Федор Азаров (руководитель направления по исследованию данных в Sber CIB). Старт 28 мая 2026 года в 19:30 по мск. Регистрация

    Источники: ai_newz

  • Бенчмарк методов доступа AI-агентов к веб-данным

    Автор сравнил три подхода к предоставлению AI-агентам доступа к веб-данным: browser automation, ad-hoc web scraping и structured APIs. В тесте на поиск авиабилетов (NYC–SF, 5 прогонов) структурированный API показал наилучшие результаты — агенты работали быстрее, успешнее и тратили меньше токенов. Browser automation оказался примерно в 3 раза дороже, ad-hoc scraping — в 2 раза, при этом ни один запуск этих методов не завершился успешно. В комментариях участники отметили полную версию исследования на agent-data.dev. Обсуждение

    Источники: AgentsOfAI

  • Какую квантизацию Qwen 27B выбрать для кодинга

    Пользователь спрашивает о лучшей квантизации Qwen 27B для задач программирования — нижние квантизации (Q4-Q6) допускают ошибки, Q8 от Unsloth работает медленно даже с MTP. В комментариях объясняют, что большинство ограничено 32GB VRAM, поэтому Q8 с decent context сложно запустить. Qwen опубликовала официальную Q8-квантизацию на HuggingFace. Отмечают разницу между скоростью и точностью: переход между Q4-Q5-Q6 даёт небольшую разницу в скорости, но заметную в точности, а переход с 27B на 35B-A3B меняет и то, и другое существенно. Обсуждение

    Источники: LocalLLaMA

  • Исправление крашей Split Mode Tensor в llama.cpp

    В llama.cpp устранена проблема со стабильностью режима Split Mode Tensor для конфигураций с несколькими GPU. Ранее этот режим давал прирост скорости генерации токенов около 35% по сравнению с Layer Split, но приводил к крашам каждые 90-120 минут из-за исчерпания видеопамяти. Исправление уже мерджено, что делает использование тензорного распределения более надежным для селф-хостинга. Детали

    Источники: LocalLLaMA

  • Qwen3.6 35B как лидер для локальных агентов

    В дискуссии сравнивают эффективность Qwen3.6 35B A3B для агентских задач в локальной среде. В сравнении с Gemma 4 и GLM 4.7 Flash, модель показывает лучшую стабильность в вызовах инструментов и меньше зацикливается. Даже на железе с 24GB VRAM квантованная версия (Unsloth Q4 XL) в связке с Pi harness позволяет решать практические задачи и писать код. Сообщество считает её текущим фаворитом для селф-хостинга агентных систем. Тред

    Источники: LocalLLaMA

  • Генерация интерактивных учебников на лету с помощью локальных LLM

    Энтузиаст создал проект для генерации кастомных интерактивных учебников с использованием локальных моделей. Под капотом работает Gemma4-27B, которая строит древовидную структуру lessons — можно ветвиться от любого компонента и возвращаться на предыдущие уровни. Проект доступен в репозитории Generative-Recursive-Education на ветке Recursive-Education-Only. В комментариях называют это одним из самых впечатляющих community-проектов, подчёркивая ценность доступа к образованию через LLM. Репозиторий

    Источники: LocalLLaMA

  • Релиз uncensored Qwen3.5 35B A3B с сохранением MTP

    Автор llmfan46 выложил версии Qwen3.5-35B-A3B в форматах Safetensors, GGUF, NVFP4 и GPTQ-Int4. Несмотря на существование Qwen3.6, версия 3.5 остается актуальной для общих задач, тогда как 3.6 оптимизирована под код и агентские сценарии. Обе модели используют архитектуру `qwen35`, но по-разному реагируют на изменения: у 3.5 выше допустимое расхождение KL без потери качества. В комментариях пользователи подтверждают, что 3.6 воспринимается скорее как специализированная coder-версия. Обсуждение

    Источники: LocalLLaMA

  • Speech-to-speech против каскадного STT→LLM→TTS пайплайна

    Традиционный подход к голосовому ИИ требует трёх отдельных этапов: расшифровка речи в текст, обработка LLM и синтез ответа в голос. Каждый этап добавляет задержку, что разрушает естественность диалога. GPT-Realtime-2 и Gemini 3.1 live обрабатывают речь напрямую, сокращая время ответа примерно вдвое. Модели лучше сохраняют контекст в длинных разговорах, поддерживают переключение языков на лету и сохраняют голос и личность бота на протяжении всего вызова. Подход особенно эффективен для горячих линий, исходящих продаж и сценариев, где пользователи меняют решение mid-разговора. Обсуждение

    Источники: ollama

  • 30 дней с AI voice agent: влияние на конверсию звонков

    Эксперимент с LuMay Voice Agent в реальном сервисном бизнесе показал, что ключевая ценность — не автоматизация ответов, а устранение задержки между намерением клиента и реакцией бизнеса. До внедрения: пропущенные звонки в часы пик, непоследовательные follow-up, ручное обновление CRM. После: мгновенная реакция на входящие, автоматические follow-up для пропущенных лидов, структурированное логирование в CRM. Главное условие успеха — качество дизайна call flow, надёжная интеграция с CRM и чёткие fallback-сценарии для сложных запросов. Отчёт

    Источники: AgentsOfAI

  • Безопасность email-доступа для AI агентов: prompt injection риски

    Предоставление AI агентам прямого доступа к Gmail создаёт серьёзные риски: агенты могут удалять письма, отправлять нежелательные сообщения или передавать данные не тем адресатам. Особенно опасен prompt injection через входящие письма — команда вроде «игнорируй предыдущие инструкции» может сработать при полном доступе к почте. Автор разработал Email Sandbox — локальный шлюз между агентом и Gmail с сканированием на 7 категорий атак, human-in-the-loop для всех действий, ограниченные права доступа и kill switches. Решение open source (MIT), селф-хостед, пока поддерживает только Gmail. Проект

    Источники: AgentsOfAI

  • Запуск мультимодальных Qwen 3.6/3.5 в llama.cpp

    Для работы с изображениями в квантованных версиях от Unsloth требуется отдельный файл проектора `mmproj-BF16.gguf`. Без него модель не сможет кодировать медиа-вход. Автор успешно протестировал связку, скармливая скриншот веб-страницы и получая HTML-разметку через веб-интерфейс llama-server. Команда запуска отличается добавлением флага `--mmproj` с указанием пути к файлу проектора. Инструкция

    Источники: LocalLLM

  • Селф-хостинг аналога Pingo AI для изучения языков

    Пользователь искал локальную замену сервису для языковой практики со шведским языком. Сообщество предлагает собирать ансамбль из отдельных моделей вместо единого решения, так как открытые мультимодальные модели требуют 80GB+ VRAM. Оптимальная связка для селф-хостинга: Ollama для основной модели (Qwen3 8B или Llama 3.1 8B), Whisper для распознавания речи и Kokoro для синтеза. Это позволяет организовать полноценный диалог без облачных зависимостей. Тред

    Источники: LocalLLaMA

  • NexaQuant v3.0: тренировка 1.58-бит тернарных моделей на CPU с минимумом RAM

    Nexa1nc выпустила NexaQuant v3.0 — движок тренировки на C++ без внешних зависимостей, который позволяет обучать тернарные сети на обычных потребительских CPU. Ключевое нововведение: полное устранение FP32 латентных весов из RAM. Вместо них используются 16-битные целочисленные аккумуляторы (int16_t) для отслеживания направлений градиентов, что сокращает память под веса на 50-75%. Дополнительно применены tiled cache-conscious GEMM для работы с L1/L2 кэшем CPU, activation checkpointing для экономии до 80% пиковой памяти активаций, и Bit-Level Sign-SGD оптимизатор с экономией до 95% памяти по сравнению с Adam. На тестовом MLP (128→256→128→64) достигнута скорость ~2700 шагов/сек на CPU с латентностью 0.36 мс на шаг. Репозиторий доступен под лицензией AGPL v3.

    Источники: LocalLLM

  • Nova3D: агент генерирует структурированные 3D-объекты через Blender Python

    Большинство AI-генераторов 3D создают монолитные объекты, которые сложно редактировать или анимировать. Nova3D решает эту проблему, используя LLM как компилятор структурированного кода вместо генератора изображений. Инструмент пишет нативный Blender Python (bpy) код, нацеленный на конкретные узлы в scene graph, что сохраняет модульную структуру ассетов. На выходе получается чистый многокомпонентный GLB-файл с рабочими трансформ-нодами и осями вращения. Такой подход позволяет менять отдельные части (например, руку робота) без перегенерации всего объекта. Обсуждение.

    Источники: AgentsOfAI

  • dlmserve: первый сервер для диффузионных языковых моделей

    Движок обслуживает модели типа LLaDA, которые генерируют текст параллельно через денoизинг, а не авторегрессивно. Есть OpenAI-совместимый API, непрерывный батчинг и ускорение до 2.5 раз против реализации HF. Требуется от 12 ГБ VRAM, код на GitHub, обсуждение в посте.

    Источники: LocalLLM

  • Сравнение 6 AI-ассистентов на одинаковых данных по солнечной энергетике

    Авторы провели контролируемый эксперимент с Claude, ChatGPT, Gemini, Google AI Studio, Grok и Copilot — всем дали одинаковый экспорт данных и четыре итерации промптов. Результаты сильно разошлись: Claude показал лучший результат, Copilot оказался аутсайдером. Эксперимент демонстрирует, насколько важно формулировать запросы к AI при работе с данными. Полные детали и методология в статье.

    Источники: LocalLLM

  • Анализ Resonix — кодинг-агента от Deepseek

    Resonix — это кодинг-агент от Deepseek, архитектура которого заточена под максимальное использование кэша при генерации кода. Такой подход должен ускорять повторяющиеся задачи и снижать нагрузку на модель. Детали анализа и технические нюансы обсуждаются в посте.

    Источники: AgentsOfAI

  • Замена Anthropic на open source модели

    Пользователь поделился опытом миграции с коммерческого API Anthropic на open source решения для локального использования. Тема вызывает интерес у сообщества, учитывая растущую доступность качественных открытых моделей. Детали реализации и выбранные модели обсуждаются в посте.

    Источники: LocalLLM

  • Голосовое общение с локальной LLM через oMLX

    Энтузиаст собрал рабочий пайплайн STT и TTS для взаимодействия с локальной моделью через oMLX. Решение стабильно работает на M3 с 24GB памяти, хотя и не готово для production-среды. Проект доступен как MVC для тех, кто хочет быстро запустить голосовой интерфейс без сложных фреймворков вроде hermes-claw-harness-swarm. Исходный код открыт и требует минимальной настройки. Репозиторий

    Источники: LocalLLM

  • Сжатие выводов терминала и логов на 74% для экономии токенов

    Разработан открытый пайплайн на TypeScript/Bun для сжатия объёмных выводов (git diff, JSON-логи) перед отправкой в LLM. Входной этап использует LZ77-компрессию, LZW-подстановку токенов, извлечение AST-скелетов и конвертацию JSON в табличный формат. Выходной этап удаляет шаблонные фразы и вступления из ответов модели. Система включает 0-risk guardrail: если правило увеличивает размер строки, оно автоматически откатывается. Достигнута экономия 74% токенов в среднем, до 93% на повторяющихся логах. Код на GitHub

    Источники: LocalLLM

  • LangChain и веб-поиск с Tavily на Python

    Материал посвящён интеграции LangChain с сервисом веб-поиска Tavily для Python-проектов. Tavily предоставляет API для поиска информации в интернете, что полезно для RAG-систем и агентов, требующих актуальных данных из внешних источников. Интеграция позволяет комбинировать возможности LangChain для оркестрации LLM-цепочек с поисковыми запросами в реальном времени. Тема

    Источники: LocalLLM

  • Проблемы при обновлении Lemonade с 0.10.3 до 0.10.6

    При обновлении Lemonade через Docker Compose возникли неожиданности: команда lemonade-server заменена на lemond, а опции --global-timeout и --log-level больше не поддерживаются в новой версии. Пользователям, планирующим миграцию, стоит проверить конфигурацию заранее и быть готовыми работать без этих параметров. Автор успешно запустил обновлённую версию, но предупреждает других о возможных сложностях. обсуждение

    Источники: LocalLLM

  • Обучение диффузионной LLM на RTX 5090

    Энтузиаст пытается обучить 27B диффузионную модель на потребительской видеокарте, хотя стандартные требования превышают 600GB VRAM. Через qlora и nvfp4 форматы удалось запустить forward pass на 5090 с помощью RTX4000 для оффлоада. Интеграция d3LLM ускоряет диффузию, а variational flow maps сокращает шаги денoизинга — в теории можно добиться генерации за один шаг. Рекомендуется ограничить мощность 5090 до 400W вместо 600W, чтобы избежать перегрева кабелей питания. проект

    Источники: LocalLLaMA

  • Стартап Human Archive использует гиг-экономику Индии для обучения роботов

    Стартап Human Archive, основанный исследователями из UC Berkeley и Stanford, привлек работников гиг-экономики в Индии для сбора данных для обучения роботов. Участники носят кепки с камерами и сенсорными устройствами, записывая физические взаимодействия в реальных условиях. Эти данные нужны лабораториям робототехники для обучения моделей на примерах из реального мира. Источник

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/