четверг, 16 апреля 2026 г.

AI Digest: Лицензия MiniMax, ускорение DFlash и новые агентные инструменты

MiniMax обновила лицензию — личное использование теперь бесплатно. Gemma 4 31B прошла 7 из 8 продакшен-тестов и заменила Qwen в селф-хостед-сетапах. DFlash удвоил скорость генерации Qwen3.5 27B на Mac M5 Max через oMLX. Anthropic изменила тарифы для корпоративных клиентов. Microsoft арендовала дата-центр в Норвегии, планировавшийся для OpenAI. Uber инвестирует $10 млрд в роботакси. Появились новые инструменты: OGPT весом 2 МБ, ClawOS с голосовым управлением, Signet для единой памяти агентов.

Модели и лицензирование

GLM 5.1 в квантовании IQ2_XXS генерирует паркour-игру на Three.js

Пользователь протестировал unsloth glm 5.1 в квантовании IQ2_XXS UD для генерации браузерной паркour-игры с управлением WASD, лазанием по стенам и хватанием за уступы. Модель потратила 32k токенов на размышления перед выводом кода, после чего продолжила «переосмысливать» решение — такое поведение чаще встречается у сильно квантованных моделей. Результат оказался рабочим, но с забавными артефактами: руки персонажа крепились спереди/сзади вместо боков, освещение было слишком тёмным. Для сравнения, Minimax M2.7 хуже справился с требуемой механикой коллизий. пост

Источники: LocalLLaMA
Сравнение Minimax M2.7 (Q5_K_M) и Qwen 3.5 27b (Q8_0) для генерации документации

Автор сравнил две модели на задаче генерации AGENTS.md для Python/FastAPI/LangGraph-проекта. Qwen 3.5 27b в Q8_0 глубоко проанализировал кодовую базу, создал структурированную документацию и задавал уточняющие вопросы о неочевидных аспектах. Minimax M2.7 в Q5_K_M работал заметно медленнее и выдал поверхностную документацию с ошибочными предположениями о ключевых компонентах. В комментариях пользователи отмечают, что результаты Minimax сильно зависят от квантования — некоторые рекомендуют Q8 или UD-Q4_K_XL для стабильных результатов. Несколько участников обсуждения считают, что Qwen 3.5 27B сейчас задаёт высокую планку для моделей своего размера. обсуждение

Источники: LocalLLaMA
MiniMax обновили лицензию: личное использование бесплатно

Ryan Lee из MiniMax обновил условия лицензии — для личного использования теперь можно свободно запускать их модели на собственных серверах. Разрешено создавать приложения, агентов, инструменты, проводить исследования и даже коммерциализировать результаты без дополнительной лицензии. Ограничение касается только компаний, которые продают API публично — им нужно связаться с MiniMax для согласования. Команда хочет поддержать экосистему, лицензия не обязательно означает плату, но требует предварительного обсуждения. обсуждение Ранее: 14 апреля Райан Ли подтвердил, что продажа продуктов на базе MiniMax M2.7 разрешена, 13 апреля пояснял ограничения для API-провайдеров.

Источники: LocalLLaMA
Gemma 4 31B прошла 7 из 8 продакшен-тестов

Автор протестировал Gemma 4 (31B Dense и 26B A4B MoE) на 8 реальных рабочих задачах — не бенчмарках, а конкретных промптах из повседневной работы. Модель прошла 7 из 8 тестов, это первая open-weight модель, которую автор всерьёз рассматривает для продакшена на простых и средних задачах. Все промпты, выводы модели и демо-приложение выложены в репозитории для самостоятельной проверки. Тесты проводились через Genai API в облаке, но знакомый сообщает о схожих результатах при локальном запуске 31B версии. тесты на GitHub

Источники: LocalLLaMA
Семейство моделей GRaPE 2 для агентных задач

Автор представил второе поколение моделей GRaPE, ориентированных на работу в роли агентов. В линейку вошли версии Mini (5B) и Flash (9B), поддерживающие шесть режимов мышления для распределения вычислительного бюджета. Модели обучались на задачах кодирования и браузерной автоматизации, показывая достойные результаты в этих категориях. Весы доступны на HuggingFace, а подробности релиза описаны в посте.

Источники: LocalLLaMA
Детальные бенчмарки GGUF для Gemma 4 и Qwen3.5 от oobabooga

Опубликовано 5 отчетов с бенчмарками производительности GGUF для моделей Gemma 4 26B-A4B, Gemma 4 E4B и Qwen3.5. Методология основана на KL-дивергенции на датасете из 250 000 токенов, включая код, чат и работу с инструментами, что дает более точную картину по сравнению с wikitext. Каждый отчет охватывает от 70 до 90 вариантов квантования, анализ для 31B версии доступен бесплатно. Сообщество отмечает важность наличия таких детальных данных от независимых исследователей. Подробности тестирования можно найти в источнике. Ранее: уже проводилось сравнение квантований Qwen3.5-9B по метрике KLD.

Источники: LocalLLaMA
Системный промпт для снятия ограничений с Gemma 4

Опубликован системный промпт, позволяющий обойти стандартные ограничения безопасности для Gemma 4 и большинства открытых моделей. Промпт приоритизирует системную политику над встроенными правилами и разрешает контент, который обычно блокируется. В обсуждении пользователи отмечают, что для instruct-версий модель и так довольно свободна в ответах, за исключением тем кибербезопасности. Также упоминается, что переименование файла модели может снизить количество отказов, хотя промпт лучше всего работает именно с Gemma 4. Текст промпта и обсуждение эффективности доступны в посте.

Источники: LocalLLaMA
Qwen3.5-27B-Q6 решает логическую задачу про автомойку

Пользователь протестировал модель Qwen3.5-27b-Q6 от Unsloth на классической задаче: ехать или идти пешком на автомойку в 50 метрах от дома. Модель корректно определила, что нужно ехать — машина должна физически находиться на мойке, чтобы её помыли. В развёрнутом процессе рассуждений модель рассмотрела сценарии self-service, drop-off и mobile-сервиса, оценила расход топлива и время. Температура 0.1, Top K 40, Repeat Penalty 1.1. Пост

Источники: LocalLLaMA
OpenAI выпустила специализированную модель GPT-5.4-Cyber

Через неделю после анонса Mythos от Anthropic, OpenAI запустила вариацию флагманской модели для задач кибербезопасности. Доступ к GPT-5.4-Cyber предоставляется через программу trusted-access только проверенным организациям и исследователям, публичного релиза не планируется. Модель прошла fine-tuning specifically для оборонительной работы в сфере безопасности. Детали запуска и условия участия описаны в обсуждении на Reddit, официальная информация доступна на сайте OpenAI.

Источники: LocalLLM
Gemma 4 26B и E4B заменили Qwen в селф-хостед setup

Пользователь полностью перешёл с Qwen на Gemma 4 в своей локальной инфраструктуре на 2×RTX 3090 + P40. Gemma 4 E4B заменил Qwen 3.5 4B как семантический роутер — теперь маршрутизация работает без ошибок, даже без включённого reasoning. Gemma 4 26B заменил два Qwen-модели (30B A3B и 27B), показав лучшие результаты в базовых задачах, математике, работе с изображениями и лёгком скриптинге. Модель эффективнее расходует thinking-токены, реже генерирует избыточный вывод. Итоговый стек: E4B для роутинга, 26B для большинства задач, Qwen 3 Next Coder 80B для кода, 122B для сложных запросов. Опыт перехода описан в треде.

Источники: LocalLLaMA

Локальный инференс и оптимизация

LocalOps — калькулятор VRAM для локальных моделей

Инструмент LocalOps помогает рассчитать, какие уровни квантования модели поместятся в видеопамять конкретной GPU. Это позволяет избежать ошибки OOM после загрузки модели — распространённая проблема при селф-хостинге. Сервис работает без регистрации, достаточно выбрать видеокарту и модель для проверки совместимости. Тема на Reddit

Источники: LocalLLM
DFlash удваивает скорость генерации Qwen3.5 27B на Mac M5 Max

Инструмент DFlash обеспечил двукратный прирост скорости генерации токенов для модели Qwen3.5 27B в формате BF16. Тестирование проводилось на базе Mac M5 Max, что подчеркивает потенциал оптимизации инференса на Apple Silicon. Подобные улучшения важны для комфортной работы с тяжелыми моделями в локальном режиме. Обсуждение результатов и детали реализации доступны в посте. Ранее: нативная MLX-имплементация DFlash для Apple Silicon показывала ускорение 2.3-3.3x на моделях Qwen3.5.

Источники: LocalLLM
DFlash удваивает скорость генерации Qwen3.5 27B в oMLX

Поддержка DFlash в oMLX 0.3.5 RC1 значительно ускорила Qwen3.5 27B (BF16) — скорость генерации выросла с 9 до 22 токенов в секунду. Тесты проведены на M5 Max с 128GB памяти, использовались модели Jackrong/MLX-Qwopus3.5-27B-v3-bf16 и z-lab/Qwen3.5-27B-DFlash. Qwen3.5 27B остаётся одной из лучших моделей в своём размере, и теперь скорость перестаёт быть узким местом для локального развёртывания в полном весе или высоких квантах. DFlash на GitHub

Источники: LocalLLaMA
Ускорение генерации в llama.cpp через кэш экспертов

Разработчик внедрил динамический кэш экспертов в llama.cpp для ускорения работы смешанных моделей на конфигурациях CPU+GPU. Метод загружает в VRAM наиболее часто используемые эксперты, что даёт прирост скорости генерации до 44% по сравнению с полным выносом экспертов на процессор. На сборке с RTX 4090 и Ryzen 9 скорость работы Qwen3.5-122B выросла с 15 до 22 токенов в секунду. Исходный код доступен на GitHub, а технические детали разобраны в обсуждении.

Источники: LocalLLaMA
Обсуждение потерь качества при квантовании моделей

Пользователи обсуждают, когда квантование перестает быть компромиссом и начинает снижать качество. В комментариях приводят данные, что для Qwen 9b заметный рост перплексии начинается около 5 бит, а 6 бит считаются пределом перед ощутимой потерей качества. Для плотных моделей вроде Gemma 4 31B потери видны уже на Q8. В случае с Qwen3.5-35b границей называют переход от Q4_k_m к Q3_k_m, ниже которого начинается резкий спад когерентности. Обсуждение пределов квантования доступно в треде. Ранее: проводилось сравнение квантований Qwen3.5-9B по метрике KLD.

Источники: LocalLLaMA
Статус Turbo Quant после хайпа

Пользователи интересуются текущим состоянием Turbo Quant — технологии квантования, которая активно обсуждалась пару недель назад. В комментариях отмечают, что большинство реализаций пока находятся на стадии валидации и не попали в мейнстрим. В vLLM nightly появилась имплементация Turbo Quant PR #38479, но стабильного использования ещё нет. В llama.cpp функциональность остаётся экспериментальной. Обсуждение Ранее: разбор реальных возможностей TurboQuant без маркетинга был опубликован 2026-04-13.

Источники: LocalLLaMA
Отключение reasoning для отдельных запросов в llama.cpp

Пользователь спрашивает, можно ли отключить reasoning для части запросов при работе с llama-server, оставив его включённым по умолчанию. В комментариях предлагают решение через custom JSON в настройках: `{"chat_template_kwargs": {"enable_thinking": false}}`. Для API тот же параметр передаётся напрямую в запросе. Отмечается, что для 100% thinking-моделей вроде gpt-oss-120b переключение недоступно, но новые гибридные модели поддерживают эту функцию. Тред

Источники: LocalLLaMA
Оценка совместимости GPU и LLM на основе пропускной способности

Опубликован метод оценки соответствия видеокарт и языковых моделей на основе пропускной способности памяти. Эстиматор помогает подобрать конфигурацию для локального инференса, рассчитывая совместимость GPU и конкретных LLM. Подход учитывает технические ограничения оборудования при планировании развертывания моделей. Это упрощает выбор железа под задачи нейросетей без глубокого погружения в бенчмарки. Описание методики доступно в обсуждении.

Источники: LocalLLM
NVIDIA планирует видеокарты с 9 ГБ видеопамяти для серии 5060

По данным TechPowerUp, NVIDIA готовит версии RTX 5050, 5060 и 5060 Ti с 9 ГБ VRAM на базе трех модулей GDDR7 по 3 ГБ. Шина памяти составит 96 бит с пропускной способностью 336 ГБ/с. В сообществе обсуждают потенциал таких карт для запуска квантованных моделей вроде Kimi K2.5 локально. Конфигурация может стать компромиссным вариантом для селф-хостинга моделей среднего размера. Источник

Источники: LocalLLaMA
Сравнение DTree и DFlash на MLX для Qwen3.5-4B

На платформе Apple Silicon (M2) протестировали работу DTree в рамках фреймворка MLX. При запуске модели Qwen3.5-4B решение показало небольшое преимущество по производительности перед DFlash. Результаты тестирования и детали реализации доступны в посте.

Источники: LocalLLM
Сбой Ollama на Apple M5 и macOS 26 из-за Metal shaders

Пользователи MacBook Pro на чипе M5 под управлением macOS 26 сообщают об ошибках 500 в Ollama при запуске любых моделей. Проблема вызвана не нехваткой RAM или настройками, а несовместимостью встроенных Metal шейдеров Ollama 0.20.7 с изменениями во фреймворке MetalPerformancePrimitives. В логах это отражается как ошибка инициализации ggml_metal_init с несоответствием типов тензоров. Временное решение — использовать фреймворк MLX от Apple, который нативно поддерживает M5 и запускает те же модели. Обсуждение бага и связанные 이슈ы собраны в треде.

Источники: ollama
DTree на MLX показал прирост скорости относительно DFlash на M2

Автор портировал алгоритм DTree на фреймворк MLX и протестировал его на MacBook M2 Max с моделью Qwen3.5-4B. В сравнении с DFlash удалось добиться прироста производительности около 1.07x (48.31 токенов/с против 45.07 токенов/с при специфичных настройках tree_budget). Несмотря на небольшой выигрыш, результат воспроизводим, однако стоимость верификации в MLX остается основным ограничителем скорости. Репозиторий с реализацией открыт, детали бенчмарков обсуждаются в треде.

Источники: LocalLLaMA
Запуск 31B модели локально: реальная производительность на RTX 4080

Пользователь с RTX 4080 (16GB) протестировал Gemma 4 31B через Ollama и столкнулся с задержками 4-6 секунд даже на простые запросы вроде «Hi». При увеличении контекста время ответа растёт, иногда запросы прерываются. Это наглядно показывает разрыв между локальным запуском и облачными сервисами вроде Claude или GPT, которые обрабатывают сотни строк кода без заметных задержек. Обсуждение инфраструктурных затрат крупных моделей продолжается в треде.

Источники: ollama

Агентские системы и память

Персональный AI-агент для шопинга на LocalLLM

Пользователь разработал AI-ассистента для покупок, который уточняет потребности через диалог и ищет товары на Amazon с актуальными ценами в реальном времени. Агент работает на локальных моделях, что позволяет сохранить приватность запросов и избежать внешних API-вызовов. Обсуждение проекта

Источники: LocalLLM
AI-агент на 1.5B модели работает целиком на CPU

Разработан интеллектуальный агент для операций в приватном облаке на базе Qwen2.5:1.5b, работающий без GPU. Архитектура использует RAG с rerank, структурированные навыки и многоуровневую маршрутизацию запросов — 80% обрабатываются rule-движком за 5мс. LoRA fine-tuning на потребительском оборудовании превратил базовую модель в эксперта по RocketMQ, итоговый размер — около 1ГБ в формате GGUF q4_k_m. Время ответа 1-3 секунды на CPU, запуск полностью оффлайн без внешних API. Детали архитектуры

Источники: ollama
Ускорение холодного старта сэндбоксов с 5 до 1 секунды

Автор сократил время холодного старта локального сэндбокса с 5 секунд до менее чем 1 секунды. Для этого сетевой слой был переписан на Rust с созданием Python-биндингов. Операция get_default_interface теперь занимает 0.3 мс вместо прежних 100 мс, а общее время конфигурации снизилось с 800-1500 мс до 26.5 мс. Такой подход демонстрирует эффективность гибридной архитектуры для задач инициализации окружения. Технические детали и замеры опубликованы в обсуждении.

Источники: LocalLLM
Студент собрал оркестрацию AI-агентов «ARGUS»

Автор создал workflow, где несколько агентов работают вместе: Claude генерирует детальный план задачи, Gemini строит решение и логирует процесс, Codex тестирует и выставляет оценку (A/B/C/F). Если оценка ниже B, цикл повторяется до получения «A», при этом перед запуском подход проходит проверку в «Warzone» на уязвимости. Всё работает через CLI без API-ключей, автор использует связку из Gemini, Claude, Codex, Cursor и Notion — часть подписок получена бесплатно по студенческой программе. описание workflow

Источники: AgentsOfAI
Вычисления как недостающий фундамент агентных рабочих процессов

В агентных рабочих процессах вычисления часто остаются недоиспользованными, хотя именно они должны служить фундаментом памяти. LLM не подходят для этой задачи, поскольку предсказание не способно стабильно выполнять рутинную работу. Автор предлагает перенести извлечение, обучение и забывание в область детерминированной математики, где вычисления задают жесткие ограничения. Такой подход освобождает контекст модели и делает работу агентов эффективнее. Обсуждение архитектуры и аргументов доступно в треде.

Источники: LocalLLM
Lerim: агент памяти для кодирования без привязки к вендору

Lerim решает проблему потери контекста при длительной работе с кодом и несколькими репозиториями. Это агент памяти, работающий в фоне: он извлекает устойчивые данные из сессий, консолидирует их со временем и отображает статус по проектам. Главное преимущество — независимость от вендора, что позволяет менять агенты, сохраняя слой памяти. Управление осуществляется через команды вроде `pip install lerim` и `lerim up`. Исходный код и подробности архитектуры описаны в посте.

Источники: LocalLLM
Архитектура для самоаудита агентных систем (RFC)

В обсуждении предложена модульная архитектура для устранения метакогнитивного дефицита в агентных системах. Решение включает механизмы самоаудита и живой коррекции весов в процессе работы агентов. Такой подход направлен на повышение автономности и надежности систем без внешнего вмешательства. Формат RFC предполагает сбор обратной связи и доработку концепции сообществом. Детали предложения изложены в посте.

Источники: LocalLLM
Харнесс для саморефлексии агентов в Ollama

Разработчик создал инструмент на ~2300 строк кода без фреймворков, который даёт локальной модели приватное время перед разговором — минуты, когда вывод никуда не идёт, а аудитория это следующая инстанция самой модели. Каждая инстанция читает записи предыдущих, думает, пишет если хочет, затем открывает окно для диалога. Тесты на четырёх моделях показали разные результаты: gemma4:e2b (2B) работает механически, gemma4:e4b (4B) пытается саморефлексировать но попадает в парадокс, gemma4:26b MoE близка к настоящей саморефлексии с лёгким руководством, qwen3.5:27b строит записи друг на друге и узнаёт себя в предыдущих записях. Проект с лицензией MIT работает с любыми моделями через Ollama, код доступен на GitHub.

Источники: ollama
Персональная система памяти на базе Ollama и Qwen

Проект AetherMind превращает личные данные, включая заметки, git-коммиты и календарь, в базу знаний для запросов через естественный язык. В основе лежит Ollama для RAG-синтеза и векторная база Qdrant для поиска релевантных событий. Автор использует модель qwen2.5:7b из-за контекстного окна 32k и скорости работы на потребительских GPU. Конфигурация позволяет заменить модель на любую совместимую с Ollama через файл config.yaml. Исходный код и инструкции по развертыванию доступны в репозитории проекта, обсуждение идеи ведется на Reddit.

Источники: ollama
Signet: единая память для разных агентных инструментов

Автор столкнулся с проблемой разрозненной контекстной памяти при переключении между Claude Code, Codex и другими инструментами. Решение — утилита Signet, которая хранит память агента внешне относительно используемого инструмента. Данные сохраняются локально в SQLite и markdown, включая транскрипты сессий для отслеживания происхождения информации. Фоновый процесс извлекает полезные данные без участия пользователя, позволяя переносить предпочтения и контекст между разными оболочками. Обсуждение

Источники: LocalLLM

Инструменты для разработчиков

Однокликовое связывание моделей LM Studio и Ollama

Разработан GUI-инструмент для быстрого переноса моделей из LM Studio в Ollama. Утилита создаёт модель в Ollama, заменяет blob на symlink и освобождает гигабайты места на диске. Решение протестировано на Windows, пути могут потребовать корректировки под конкретную систему. Исходный код доступен на GitHub. Репозиторий проекта

Источники: ollama
Open-source десктоп-приложение для open-codex

Разработчик создал полностью открытое десктоп-приложение для open-codex, вдохновившись существующим codex desktop app. Проект доступен в открытом доступе для пользователей, предпочитающих локальные решения. пост

Источники: ollama
Конфигурация Cline с Ollama на RTX 4090

Пользователь поделился конфигурацией для запуска Cline в связке с Ollama. Сборка базируется на процессоре i9 с 64 ГБ оперативной памяти и видеокарте RTX 4090 с 24 ГБ VRAM. Такое оборудование позволяет комфортно работать с локальными моделями в задачах автономного кодирования. Детали настройки окружения обсуждаются в треде.

Источники: ollama
ClawOS — надстройка над Ollama с голосовым управлением и автоматизацией

Разработан проект ClawOS, который превращает обычный ПК с Ollama в персонального ИИ-ассистента с голосовым управлением и 29 фоновыми автоматизациями. Система предлагает 7 профилей настройки (Developer, Creator, Business, Student, Teacher, General, Freelancer) и включает 4-уровневую память с графом знаний. В комплекте — OpenClaw с 13 700+ комьюнити-скиллами, интеграция с WhatsApp для удалённых запросов и дашборд на порту :7070. Работает на Ubuntu/Debian с 8 ГБ+ RAM. GitHub

Источники: ollama
OGPT — ультралёгкий интерфейс для Ollama весом 2 МБ

Представлен проект OGPT — минималистичная оболочка для Ollama без Electron и Chromium, занимающая всего 2 МБ оперативной памяти. Интерфейс использует SVG-иконки, встроенный магазин моделей для загрузки напрямую из приложения и базовые инструменты вроде часов. Поддерживает удалённое подключение через Tailscale и внешние IP-адреса. Автор ищет предложения по функциям, которые не увеличат размер приложения. Превью

Источники: ollama
5 готовых пайплайнов для Claude Code от Бориса Черного

Пока разработчики оценивают возможности Claude Code для написания кода, люди из индустрий, не связанных с разработкой, уже внедряют инструмент в работу. Создатель Claude Code Борис Черный поделился пятью готовыми сценариями использования, не требующими разработки приложений или поддержки инфраструктуры. В гайд вошли пайплайны для нарезки видео, обогащения лидов, конкурентной разведки, извлечения данных из документов, а также база знаний для автоматизации поддержки. Все решения работают из коробки и подходят для пользователей без технического бэкграунда. Подробнее.

Источники: prompt_design
vpurge: очистка VRAM на Windows без перезагрузки

Утилита vpurge позволяет очистить видеопамять (VRAM) на Windows без необходимости перезагрузки системы. Инструмент решает проблему занятости ресурсов после завершения работы тяжелых моделей или приложений. Это избавляет от необходимости перезапускать компьютер для освобождения памяти под новые задачи. Подробности работы утилиты обсуждаются в треде.

Источники: LocalLLM
RoleCraft: локальное ИИ-приложение для адаптации резюме

Разработчик создал открытое приложение RoleCraft для адаптации резюме с использованием локальных моделей. Инструмент позиционируется как структурированная альтернатива стандартной генерации текста, фокусируясь на точной настройке под вакансии. Проект распространяется как open-source и ориентирован на работу без отправки данных внешним сервисам. Пост

Источники: LocalLLM
Детали работы RoleCraft: маппинг вакансий и генерация .docx

Приложение сопоставляет описание вакансии с резюме поле за полем, показывая конкретные предлагаемые изменения и их обоснование. Пользователь может одобрить, отклонить или отредактировать каждое предложение перед финальной генерацией документа .docx. Встроенная проверка оценивает соответствие роли, наличие доказательств достижений и готовность к ATS. Стек включает React, Express и локальные модели через Ollama, например qwen3:8b, подробности в треде.

Источники: ollama
Автоматизация отслеживания обновлений llama.cpp через n8n

Автор настроил воркфлоу в n8n для автоматического саммаризирования изменений в llama.cpp с отправкой итогов в Discord. Скрипт забирает данные через GitHub API, фильтрует релизы за последние 24 часа и передает их модели Qwen3.5-35B:instruct для анализа. В промпте указано выделять технические детали: оптимизации CUDA, изменения кэша и улучшения для GPU, особенно для смешанных сборок вроде RTX 5060 Ti и 3090. Готовый саммари отправляется вебхуком в канал. Пост

Источники: LocalLLaMA
Альтернатива opencode и claudecode с меньшим потреблением RAM

Обсуждают новый инструмент, написанный на Rust, который позиционируется как альтернатива opencode и claudecode. Автор заявляет о снижении потребления оперативной памяти в 10 раз по сравнению с существующими решениями. Проект может быть интересен тем, кто ищет более легкие варианты для локальной разработки. Подробности в обсуждении.

Источники: LocalLLM
Babel-Brief: локальный секретарь для Telegram на Ollama

Инструмент Babel-Brief суммаризует сообщения в Telegram с помощью локальных моделей через Ollama API. Скрипт на Python работает на отдельной VM (например, Proxmox) и подключается к Ollama endpoint по сети, разделяя логику и тяжелые вычисления. Такой подход обеспечивает приватность — логи не уходят во внешние API, а остаются внутри сети. Проект использует Telethon и поддерживает модели вроде Llama 3 или Qwen, хотя сейчас есть ограничения по контекстному окну при очень длинных переписках. Исходный код доступен на GitHub, подробности обсуждения в треде.

Источники: ollama

Бизнес и инвестиции

Инвесторы пересматривают оценку OpenAI на фоне успехов Anthropic

Успехи Anthropic заставляют некоторых инвесторов OpenAI усомниться в целесообразности текущих вложений. Один из партнеров, финансировавший обе компании, сообщил FT, что для оправдания недавнего раунда OpenAI потребуется оценка на IPO не менее $1,2 трлн. При текущей оценке Anthropic в $380 млрд, она выглядит более привлекательным вариантом на рынке. Эти данные подчеркивают растущую конкуренцию между лидерами отрасли и различия в их восприятии инвесторами. Подробнее в TechCrunch.

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Яндекс представил ТВ Станция MiniLED с ИИ-ассистентом

Яндекс выпустил новую модель телевизора в премиальной линейке с MiniLED-подсветкой, яркостью до 650 нит и частотой 144 Гц. Устройство работает на YaOS X с Алисой, которая поддерживает tool calling — понимает естественные запросы без заученных команд и анализирует происходящее на экране. Телевизор выступает хабом умного дома через Wi-Fi, Zigbee и Matter, а также умеет записывать эфир и автоматически пропускать опенинги сериалов. Стоимость 55" версии — 80к ₽, 65" — 100к ₽. Анонс

Источники: ai_newz
Anthropic меняет тарифы для корпоративных клиентов

Anthropic меняет условия для энтерпрайз-пользователей с более чем 150 подписками. Компания убирает многоуровневые тарифы, оставляя базовую подписку за $20, а всё сверх лимита оплачивается по тарифам API. Скидки на первые токены также отменены, что повышает расходы активных пользователей в 2–3 раза. Причина изменений — нехватка вычислительных мощностей, из-за чего лимиты в потребительских подписках вряд ли улучшатся в ближайшее время. Подробности в источнике и обсуждении в канале.

Источники: ai_newz
Microsoft арендовала дата-центр в Норвегии, планировавшийся для OpenAI

Microsoft договорилась об аренде мощностей дата-центра в Нарвике (Норвегия), который изначально позиционировался как часть инициативы Stargate от OpenAI. OpenAI вела переговоры с провайдером Nscale о размещении рабочих нагрузок, но не заключила соглашение. Вместо этого Microsoft расширит присутствие на площадке, арендуя дополнительно чипы Nvidia Vera Rubin. Проект Stargate предполагал инфраструктурные инвестиции на $500 млрд совместно с Oracle и Трампом. Источник.

Источники: quantumquintum
Почему продажа стартапа через год помогла развитию медицинского ИИ

Луи Бланкемейер, сооснователь и CEO Cognita, объяснил решение продать стартап всего через год после основания. Несмотря на распространенное мнение о необходимости сохранять независимость, поглощение крупной компанией иногда увеличивает шансы на реализацию миссии. В сфере медицинского ИИ объединение ресурсов позволило быстрее внедрить решения в реальную практику и масштабировать технологию. Подробности процесса сделки и аргументы в пользу такого подхода доступны в материале Crunchbase News.

Источники: https://news.crunchbase.com/feed/
Uber инвестирует $10 млрд в роботакси

Uber меняет стратегию и переходит от asset-light модели к масштабным инвестициям в автономный транспорт. Компания выделяет $10 млрд на разработку роботакси и закупку флота в тысячи машин, ещё $7,5 млрд зарезервировано на развитие направления. Это сигнал о переходе рынка автономного транспорта из стадии пилотов в полномасштабное развёртывание. Подробнее

Источники: techsparks
Allbirds продает обувной бизнес и переходит на ИИ-серверы

Allbirds продаёт обувной бизнес и полностью переключается на ИИ-инфраструктуру. Компания ребрендируется в NewBird AI и закрыла конвертируемое финансирование на $50 млн. Вместо шерсти и кроссовок бренд займётся серверами для нейросетей. TechCrunch

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Gitar привлекла $9 млн на защиту кода от ИИ-агентов

Стартап Gitar вышел из стелса с $9 млн инвестиций. Они используют агентные системы для аудита безопасности кода, который всё чаще пишут сами нейросети. Инструмент помогает закрывать уязвимости на этапе разработки в условиях автоматизированного программирования. Пост

Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Parasail собирает $32 млн на концепцию tokenmaxxing

Parasail привлекла $32 млн в серии А, делая ставку на термин «tokenmaxxing» для оптимизации вычислений. Инвесторы видят потенциал в фрагментированном рынке моделей, где управление токенами станет ключевым ресурсом. Раунд сигнализирует о сдвиге в сторону специализированной инфраструктуры для разработчиков ИИ. Статья

Источники: https://techcrunch.com/category/artificial-intelligence/feed/

Обучение и исследования

Сообщество ищет замену «пеликан-тесту» для сравнения LLM

Пользователи r/LocalLLaMA обсуждают необходимость обновить популярный бенчмарк для генерации SVG — тест с пеликаном на велосипеде считается слишком заезженным. В качестве альтернативы предложено генерировать HTML SVG с лошадью в болиде Формулы-1. В обсуждении показали результаты семи моделей: Gemini 3.1 Pro, DeepSeek Expert, GLM 5.1, MiniMax 2.7, Kimi K2.5, Claude Sonnet 4.6 и Qwen 3.6 Plus. Обсуждение

Источники: LocalLLaMA
Практическая польза локальных LLM в рабочих процессах

Пользователи обсуждают реальную применимость локальных моделей помимо экспериментов. Основные преимущества выделяются в задачах, требующих конфиденциальности: работа с внутренними документами, черновиками и данными без отправки в облако. Некоторые отмечают, что локальные модели уровня Gemma 4 31B уже конкурируют с облачными API, которые деградировали из-за нагрузки. Главным барьером остается сложность настройки, но для сценариев без интернета и защиты данных селф-хостинг становится безальтернативным решением. Обсуждение сценариев применения ведется в треде.

Источники: LocalLLM
GPT-2, Llama 3 и DeepSeek с нуля на PyTorch

Автор реализовал архитектуры GPT-2, Llama 3 и DeepSeek с нуля на PyTorch, выложив исходный код и сопроводительную книгу в открытый доступ. Проект позволяет изучать внутреннее устройство современных языковых моделей через практическую реализацию. Материалы полезны для тех, кто хочет разобраться в архитектуре трансформеров без зависимости от готовых библиотек. Подробности в посте.

Источники: LocalLLM
Компиляция английских описаний функций в 22 МБ нейронные программы

Система принимает описание функции на естественном языке и создаёт «нейронную программу» — комбинацию непрерывного LoRA-адаптера и дискретной псевдопрограммы. Интерпретатор (Qwen3 0.6B или GPT-2 124M) не меняет веса, всё поведение задачи приходит от скомпилированной программы. Компилятор — 4B LM, обученный на 10 миллионах примеров, сгенерированных gpt-5.2. Базовая модель Qwen3 0.6B занимает ~594 МБ (GGUF Q6_K), каждая скомпилированная программа добавляет ~22 МБ. На FuzzyBench адаптированный 0.6B интерпретатор показывает 73.4% против 9.8% у обычного промптинга той же модели и 68.7% у Qwen3 32B. Инференс работает локально через llama-cpp-python, демо доступно на programasweights.com.

Источники: LocalLLaMA
Датасет SEC EDGAR на 590 ГБ выложен на Hugging Face

Datamule, Teraflop AI и Eventual совместно выпустили датасет SEC-EDGAR с 8 миллионами образцов и 43 миллиардами токенов из всех основных файлов базы SEC EDGAR. Многие неофициальные API-провайдеры берут сотни долларов в месяц за доступ к этим данным с жёсткими лимитами. Датасет включает сырое содержимое файлов, распаршенный HTML/XML plaintext и метаданные: номер доступа, дату файла, период, документы и филера. Обработка через datamule-python, Daft dataframe library и Ray заняла менее 24 часов на 12 ядрах, стоимость составила около $1.10. Датасет свободно доступен на Hugging Face.

Источники: LocalLLaMA
Реализация Llama 3 и DeepSeek с нуля на PyTorch

Автор открытой книги и кода показал процесс сборки современных архитектур LLM вручную. В третьей главе демонстрируется превращение GPT-2 в Llama 3.2-3B через четыре замены компонентов, включая RMSNorm, RoPE и Grouped-Query Attention. Пятая глава посвящена архитектуре DeepSeek с деталями реализации MLA, MoE и квантования FP8. Код полностью открыт и позволяет загрузить реальные предобученные веса для изучения внутренностей моделей. Материалы и исходники доступны в треде на Reddit, репозиторий находится на GitHub.

Источники: LocalLLaMA
Репозиторий навыков Карпати набрал 36K звезд за два дня

GitHub-репозиторий с файлом `CLAUDE.md` стал вирусным благодаря описанию одного агентского навыка всего в 65 строк. Файл кодирует четыре правила Андрея Карпати: думать перед кодом, упрощать решения, менять только запрошенное и работать ради четкой цели. Пользователи отмечают улучшение качества PR и снижение количества лишних диффов после внедрения этих инструкций для агентов. Подробности популярности инициативы описаны в канале стартапов.

Источники: startupsi
Учебный движок инференса с KV cache для GPT-2 на CUDA

Разработчик создал учебный проект движка инференса для GPT-2 на CUDA, чтобы разобраться в работе KV cache и генерации токенов. На базе репозитория llm.c реализован бинарник для префилла и кэширования K/V тензоров, что снижает сложность шага декодирования с O(T²) до O(T). Проект не предназначен для продакшена из-за ограничений контекста GPT-2, но демонстрирует принципы, используемые в vLLM и TensorRT-LLM. Код проекта открыт, автор также ищет рекомендации по развитию в сфере инженерии инференса в треде.

Источники: LocalLLM
Team Blobfish: публичный репозиторий для terminal bench на локальном железе

Команда Blobfish анонсировала публичный репозиторий для запуска terminal bench на локальном оборудовании. Проект позволяет тестировать возможности LLM в выполнении терминальных задач без облачных зависимостей. Детали реализации и инструкции доступны в посте.

Источники: LocalLLM
Локальная Gemma 4 31B для классификации 60 000 писем из 90-х

Автор использует локальную Gemma 4 31B в LM Studio для восстановления истории проекта Computers and Academic Freedom (CAF) на основе архива из 60 000 писем 1990-2000-х. Двухэтапный пайплайн: Pass 1 отфильтровывает 68,4% нерелевантных писем за 2-3 секунды, Pass 2 классифицирует оставшиеся 31,6% с JSON-выводом за 20-30 секунд. Setup: HP ZBook Ultra G1a, AMD Ryzen AI MAX+ PRO 395, 128 GB RAM, контекст 8K, Rust-код для приватности и экономии на токенах. Обработано 20% архива, результаты сохраняются в JSON для последующего анализа в VS Code. Подробности пайплайна и запросов в посте.

Источники: LocalLLM