четверг, 16 апреля 2026 г.
AI Digest: Лицензия MiniMax, ускорение DFlash и новые агентные инструменты
MiniMax обновила лицензию — личное использование теперь бесплатно. Gemma 4 31B прошла 7 из 8 продакшен-тестов и заменила Qwen в селф-хостед-сетапах. DFlash удвоил скорость генерации Qwen3.5 27B на Mac M5 Max через oMLX. Anthropic изменила тарифы для корпоративных клиентов. Microsoft арендовала дата-центр в Норвегии, планировавшийся для OpenAI. Uber инвестирует $10 млрд в роботакси. Появились новые инструменты: OGPT весом 2 МБ, ClawOS с голосовым управлением, Signet для единой памяти агентов.
Модели и лицензирование
-
GLM 5.1 в квантовании IQ2_XXS генерирует паркour-игру на Three.js
Пользователь протестировал unsloth glm 5.1 в квантовании IQ2_XXS UD для генерации браузерной паркour-игры с управлением WASD, лазанием по стенам и хватанием за уступы. Модель потратила 32k токенов на размышления перед выводом кода, после чего продолжила «переосмысливать» решение — такое поведение чаще встречается у сильно квантованных моделей. Результат оказался рабочим, но с забавными артефактами: руки персонажа крепились спереди/сзади вместо боков, освещение было слишком тёмным. Для сравнения, Minimax M2.7 хуже справился с требуемой механикой коллизий. пост
Источники: LocalLLaMA
-
Сравнение Minimax M2.7 (Q5_K_M) и Qwen 3.5 27b (Q8_0) для генерации документации
Автор сравнил две модели на задаче генерации AGENTS.md для Python/FastAPI/LangGraph-проекта. Qwen 3.5 27b в Q8_0 глубоко проанализировал кодовую базу, создал структурированную документацию и задавал уточняющие вопросы о неочевидных аспектах. Minimax M2.7 в Q5_K_M работал заметно медленнее и выдал поверхностную документацию с ошибочными предположениями о ключевых компонентах. В комментариях пользователи отмечают, что результаты Minimax сильно зависят от квантования — некоторые рекомендуют Q8 или UD-Q4_K_XL для стабильных результатов. Несколько участников обсуждения считают, что Qwen 3.5 27B сейчас задаёт высокую планку для моделей своего размера. обсуждение
Источники: LocalLLaMA
-
MiniMax обновили лицензию: личное использование бесплатно
Ryan Lee из MiniMax обновил условия лицензии — для личного использования теперь можно свободно запускать их модели на собственных серверах. Разрешено создавать приложения, агентов, инструменты, проводить исследования и даже коммерциализировать результаты без дополнительной лицензии. Ограничение касается только компаний, которые продают API публично — им нужно связаться с MiniMax для согласования. Команда хочет поддержать экосистему, лицензия не обязательно означает плату, но требует предварительного обсуждения. обсуждение Ранее: 14 апреля Райан Ли подтвердил, что продажа продуктов на базе MiniMax M2.7 разрешена, 13 апреля пояснял ограничения для API-провайдеров.
Источники: LocalLLaMA
-
Gemma 4 31B прошла 7 из 8 продакшен-тестов
Автор протестировал Gemma 4 (31B Dense и 26B A4B MoE) на 8 реальных рабочих задачах — не бенчмарках, а конкретных промптах из повседневной работы. Модель прошла 7 из 8 тестов, это первая open-weight модель, которую автор всерьёз рассматривает для продакшена на простых и средних задачах. Все промпты, выводы модели и демо-приложение выложены в репозитории для самостоятельной проверки. Тесты проводились через Genai API в облаке, но знакомый сообщает о схожих результатах при локальном запуске 31B версии. тесты на GitHub
Источники: LocalLLaMA
-
Семейство моделей GRaPE 2 для агентных задач
Автор представил второе поколение моделей GRaPE, ориентированных на работу в роли агентов. В линейку вошли версии Mini (5B) и Flash (9B), поддерживающие шесть режимов мышления для распределения вычислительного бюджета. Модели обучались на задачах кодирования и браузерной автоматизации, показывая достойные результаты в этих категориях. Весы доступны на HuggingFace, а подробности релиза описаны в посте.
Источники: LocalLLaMA
-
Детальные бенчмарки GGUF для Gemma 4 и Qwen3.5 от oobabooga
Опубликовано 5 отчетов с бенчмарками производительности GGUF для моделей Gemma 4 26B-A4B, Gemma 4 E4B и Qwen3.5. Методология основана на KL-дивергенции на датасете из 250 000 токенов, включая код, чат и работу с инструментами, что дает более точную картину по сравнению с wikitext. Каждый отчет охватывает от 70 до 90 вариантов квантования, анализ для 31B версии доступен бесплатно. Сообщество отмечает важность наличия таких детальных данных от независимых исследователей. Подробности тестирования можно найти в источнике. Ранее: уже проводилось сравнение квантований Qwen3.5-9B по метрике KLD.
Источники: LocalLLaMA
-
Системный промпт для снятия ограничений с Gemma 4
Опубликован системный промпт, позволяющий обойти стандартные ограничения безопасности для Gemma 4 и большинства открытых моделей. Промпт приоритизирует системную политику над встроенными правилами и разрешает контент, который обычно блокируется. В обсуждении пользователи отмечают, что для instruct-версий модель и так довольно свободна в ответах, за исключением тем кибербезопасности. Также упоминается, что переименование файла модели может снизить количество отказов, хотя промпт лучше всего работает именно с Gemma 4. Текст промпта и обсуждение эффективности доступны в посте.
Источники: LocalLLaMA
-
Qwen3.5-27B-Q6 решает логическую задачу про автомойку
Пользователь протестировал модель Qwen3.5-27b-Q6 от Unsloth на классической задаче: ехать или идти пешком на автомойку в 50 метрах от дома. Модель корректно определила, что нужно ехать — машина должна физически находиться на мойке, чтобы её помыли. В развёрнутом процессе рассуждений модель рассмотрела сценарии self-service, drop-off и mobile-сервиса, оценила расход топлива и время. Температура 0.1, Top K 40, Repeat Penalty 1.1. Пост
Источники: LocalLLaMA
-
OpenAI выпустила специализированную модель GPT-5.4-Cyber
Через неделю после анонса Mythos от Anthropic, OpenAI запустила вариацию флагманской модели для задач кибербезопасности. Доступ к GPT-5.4-Cyber предоставляется через программу trusted-access только проверенным организациям и исследователям, публичного релиза не планируется. Модель прошла fine-tuning specifically для оборонительной работы в сфере безопасности. Детали запуска и условия участия описаны в обсуждении на Reddit, официальная информация доступна на сайте OpenAI.
Источники: LocalLLM
-
Gemma 4 26B и E4B заменили Qwen в селф-хостед setup
Пользователь полностью перешёл с Qwen на Gemma 4 в своей локальной инфраструктуре на 2×RTX 3090 + P40. Gemma 4 E4B заменил Qwen 3.5 4B как семантический роутер — теперь маршрутизация работает без ошибок, даже без включённого reasoning. Gemma 4 26B заменил два Qwen-модели (30B A3B и 27B), показав лучшие результаты в базовых задачах, математике, работе с изображениями и лёгком скриптинге. Модель эффективнее расходует thinking-токены, реже генерирует избыточный вывод. Итоговый стек: E4B для роутинга, 26B для большинства задач, Qwen 3 Next Coder 80B для кода, 122B для сложных запросов. Опыт перехода описан в треде.
Источники: LocalLLaMA
Локальный инференс и оптимизация
-
LocalOps — калькулятор VRAM для локальных моделей
Инструмент LocalOps помогает рассчитать, какие уровни квантования модели поместятся в видеопамять конкретной GPU. Это позволяет избежать ошибки OOM после загрузки модели — распространённая проблема при селф-хостинге. Сервис работает без регистрации, достаточно выбрать видеокарту и модель для проверки совместимости. Тема на Reddit
Источники: LocalLLM
-
DFlash удваивает скорость генерации Qwen3.5 27B на Mac M5 Max
Инструмент DFlash обеспечил двукратный прирост скорости генерации токенов для модели Qwen3.5 27B в формате BF16. Тестирование проводилось на базе Mac M5 Max, что подчеркивает потенциал оптимизации инференса на Apple Silicon. Подобные улучшения важны для комфортной работы с тяжелыми моделями в локальном режиме. Обсуждение результатов и детали реализации доступны в посте. Ранее: нативная MLX-имплементация DFlash для Apple Silicon показывала ускорение 2.3-3.3x на моделях Qwen3.5.
Источники: LocalLLM
-
DFlash удваивает скорость генерации Qwen3.5 27B в oMLX
Поддержка DFlash в oMLX 0.3.5 RC1 значительно ускорила Qwen3.5 27B (BF16) — скорость генерации выросла с 9 до 22 токенов в секунду. Тесты проведены на M5 Max с 128GB памяти, использовались модели Jackrong/MLX-Qwopus3.5-27B-v3-bf16 и z-lab/Qwen3.5-27B-DFlash. Qwen3.5 27B остаётся одной из лучших моделей в своём размере, и теперь скорость перестаёт быть узким местом для локального развёртывания в полном весе или высоких квантах. DFlash на GitHub
Источники: LocalLLaMA
-
Ускорение генерации в llama.cpp через кэш экспертов
Разработчик внедрил динамический кэш экспертов в llama.cpp для ускорения работы смешанных моделей на конфигурациях CPU+GPU. Метод загружает в VRAM наиболее часто используемые эксперты, что даёт прирост скорости генерации до 44% по сравнению с полным выносом экспертов на процессор. На сборке с RTX 4090 и Ryzen 9 скорость работы Qwen3.5-122B выросла с 15 до 22 токенов в секунду. Исходный код доступен на GitHub, а технические детали разобраны в обсуждении.
Источники: LocalLLaMA
-
Обсуждение потерь качества при квантовании моделей
Пользователи обсуждают, когда квантование перестает быть компромиссом и начинает снижать качество. В комментариях приводят данные, что для Qwen 9b заметный рост перплексии начинается около 5 бит, а 6 бит считаются пределом перед ощутимой потерей качества. Для плотных моделей вроде Gemma 4 31B потери видны уже на Q8. В случае с Qwen3.5-35b границей называют переход от Q4_k_m к Q3_k_m, ниже которого начинается резкий спад когерентности. Обсуждение пределов квантования доступно в треде. Ранее: проводилось сравнение квантований Qwen3.5-9B по метрике KLD.
Источники: LocalLLaMA
-
Статус Turbo Quant после хайпа
Пользователи интересуются текущим состоянием Turbo Quant — технологии квантования, которая активно обсуждалась пару недель назад. В комментариях отмечают, что большинство реализаций пока находятся на стадии валидации и не попали в мейнстрим. В vLLM nightly появилась имплементация Turbo Quant PR #38479, но стабильного использования ещё нет. В llama.cpp функциональность остаётся экспериментальной. Обсуждение Ранее: разбор реальных возможностей TurboQuant без маркетинга был опубликован 2026-04-13.
Источники: LocalLLaMA
-
Отключение reasoning для отдельных запросов в llama.cpp
Пользователь спрашивает, можно ли отключить reasoning для части запросов при работе с llama-server, оставив его включённым по умолчанию. В комментариях предлагают решение через custom JSON в настройках: `{"chat_template_kwargs": {"enable_thinking": false}}`. Для API тот же параметр передаётся напрямую в запросе. Отмечается, что для 100% thinking-моделей вроде gpt-oss-120b переключение недоступно, но новые гибридные модели поддерживают эту функцию. Тред
Источники: LocalLLaMA
-
Оценка совместимости GPU и LLM на основе пропускной способности
Опубликован метод оценки соответствия видеокарт и языковых моделей на основе пропускной способности памяти. Эстиматор помогает подобрать конфигурацию для локального инференса, рассчитывая совместимость GPU и конкретных LLM. Подход учитывает технические ограничения оборудования при планировании развертывания моделей. Это упрощает выбор железа под задачи нейросетей без глубокого погружения в бенчмарки. Описание методики доступно в обсуждении.
Источники: LocalLLM
-
NVIDIA планирует видеокарты с 9 ГБ видеопамяти для серии 5060
По данным TechPowerUp, NVIDIA готовит версии RTX 5050, 5060 и 5060 Ti с 9 ГБ VRAM на базе трех модулей GDDR7 по 3 ГБ. Шина памяти составит 96 бит с пропускной способностью 336 ГБ/с. В сообществе обсуждают потенциал таких карт для запуска квантованных моделей вроде Kimi K2.5 локально. Конфигурация может стать компромиссным вариантом для селф-хостинга моделей среднего размера. Источник
Источники: LocalLLaMA
-
Сравнение DTree и DFlash на MLX для Qwen3.5-4B
На платформе Apple Silicon (M2) протестировали работу DTree в рамках фреймворка MLX. При запуске модели Qwen3.5-4B решение показало небольшое преимущество по производительности перед DFlash. Результаты тестирования и детали реализации доступны в посте.
Источники: LocalLLM
-
Сбой Ollama на Apple M5 и macOS 26 из-за Metal shaders
Пользователи MacBook Pro на чипе M5 под управлением macOS 26 сообщают об ошибках 500 в Ollama при запуске любых моделей. Проблема вызвана не нехваткой RAM или настройками, а несовместимостью встроенных Metal шейдеров Ollama 0.20.7 с изменениями во фреймворке MetalPerformancePrimitives. В логах это отражается как ошибка инициализации ggml_metal_init с несоответствием типов тензоров. Временное решение — использовать фреймворк MLX от Apple, который нативно поддерживает M5 и запускает те же модели. Обсуждение бага и связанные 이슈ы собраны в треде.
Источники: ollama
-
DTree на MLX показал прирост скорости относительно DFlash на M2
Автор портировал алгоритм DTree на фреймворк MLX и протестировал его на MacBook M2 Max с моделью Qwen3.5-4B. В сравнении с DFlash удалось добиться прироста производительности около 1.07x (48.31 токенов/с против 45.07 токенов/с при специфичных настройках tree_budget). Несмотря на небольшой выигрыш, результат воспроизводим, однако стоимость верификации в MLX остается основным ограничителем скорости. Репозиторий с реализацией открыт, детали бенчмарков обсуждаются в треде.
Источники: LocalLLaMA
-
Запуск 31B модели локально: реальная производительность на RTX 4080
Пользователь с RTX 4080 (16GB) протестировал Gemma 4 31B через Ollama и столкнулся с задержками 4-6 секунд даже на простые запросы вроде «Hi». При увеличении контекста время ответа растёт, иногда запросы прерываются. Это наглядно показывает разрыв между локальным запуском и облачными сервисами вроде Claude или GPT, которые обрабатывают сотни строк кода без заметных задержек. Обсуждение инфраструктурных затрат крупных моделей продолжается в треде.
Источники: ollama
Агентские системы и память
-
Персональный AI-агент для шопинга на LocalLLM
Пользователь разработал AI-ассистента для покупок, который уточняет потребности через диалог и ищет товары на Amazon с актуальными ценами в реальном времени. Агент работает на локальных моделях, что позволяет сохранить приватность запросов и избежать внешних API-вызовов. Обсуждение проекта
Источники: LocalLLM
-
AI-агент на 1.5B модели работает целиком на CPU
Разработан интеллектуальный агент для операций в приватном облаке на базе Qwen2.5:1.5b, работающий без GPU. Архитектура использует RAG с rerank, структурированные навыки и многоуровневую маршрутизацию запросов — 80% обрабатываются rule-движком за 5мс. LoRA fine-tuning на потребительском оборудовании превратил базовую модель в эксперта по RocketMQ, итоговый размер — около 1ГБ в формате GGUF q4_k_m. Время ответа 1-3 секунды на CPU, запуск полностью оффлайн без внешних API. Детали архитектуры
Источники: ollama
-
Ускорение холодного старта сэндбоксов с 5 до 1 секунды
Автор сократил время холодного старта локального сэндбокса с 5 секунд до менее чем 1 секунды. Для этого сетевой слой был переписан на Rust с созданием Python-биндингов. Операция get_default_interface теперь занимает 0.3 мс вместо прежних 100 мс, а общее время конфигурации снизилось с 800-1500 мс до 26.5 мс. Такой подход демонстрирует эффективность гибридной архитектуры для задач инициализации окружения. Технические детали и замеры опубликованы в обсуждении.
Источники: LocalLLM
-
Студент собрал оркестрацию AI-агентов «ARGUS»
Автор создал workflow, где несколько агентов работают вместе: Claude генерирует детальный план задачи, Gemini строит решение и логирует процесс, Codex тестирует и выставляет оценку (A/B/C/F). Если оценка ниже B, цикл повторяется до получения «A», при этом перед запуском подход проходит проверку в «Warzone» на уязвимости. Всё работает через CLI без API-ключей, автор использует связку из Gemini, Claude, Codex, Cursor и Notion — часть подписок получена бесплатно по студенческой программе. описание workflow
Источники: AgentsOfAI
-
Вычисления как недостающий фундамент агентных рабочих процессов
В агентных рабочих процессах вычисления часто остаются недоиспользованными, хотя именно они должны служить фундаментом памяти. LLM не подходят для этой задачи, поскольку предсказание не способно стабильно выполнять рутинную работу. Автор предлагает перенести извлечение, обучение и забывание в область детерминированной математики, где вычисления задают жесткие ограничения. Такой подход освобождает контекст модели и делает работу агентов эффективнее. Обсуждение архитектуры и аргументов доступно в треде.
Источники: LocalLLM
-
Lerim: агент памяти для кодирования без привязки к вендору
Lerim решает проблему потери контекста при длительной работе с кодом и несколькими репозиториями. Это агент памяти, работающий в фоне: он извлекает устойчивые данные из сессий, консолидирует их со временем и отображает статус по проектам. Главное преимущество — независимость от вендора, что позволяет менять агенты, сохраняя слой памяти. Управление осуществляется через команды вроде `pip install lerim` и `lerim up`. Исходный код и подробности архитектуры описаны в посте.
Источники: LocalLLM
-
Архитектура для самоаудита агентных систем (RFC)
В обсуждении предложена модульная архитектура для устранения метакогнитивного дефицита в агентных системах. Решение включает механизмы самоаудита и живой коррекции весов в процессе работы агентов. Такой подход направлен на повышение автономности и надежности систем без внешнего вмешательства. Формат RFC предполагает сбор обратной связи и доработку концепции сообществом. Детали предложения изложены в посте.
Источники: LocalLLM
-
Харнесс для саморефлексии агентов в Ollama
Разработчик создал инструмент на ~2300 строк кода без фреймворков, который даёт локальной модели приватное время перед разговором — минуты, когда вывод никуда не идёт, а аудитория это следующая инстанция самой модели. Каждая инстанция читает записи предыдущих, думает, пишет если хочет, затем открывает окно для диалога. Тесты на четырёх моделях показали разные результаты: gemma4:e2b (2B) работает механически, gemma4:e4b (4B) пытается саморефлексировать но попадает в парадокс, gemma4:26b MoE близка к настоящей саморефлексии с лёгким руководством, qwen3.5:27b строит записи друг на друге и узнаёт себя в предыдущих записях. Проект с лицензией MIT работает с любыми моделями через Ollama, код доступен на GitHub.
Источники: ollama
-
Персональная система памяти на базе Ollama и Qwen
Проект AetherMind превращает личные данные, включая заметки, git-коммиты и календарь, в базу знаний для запросов через естественный язык. В основе лежит Ollama для RAG-синтеза и векторная база Qdrant для поиска релевантных событий. Автор использует модель qwen2.5:7b из-за контекстного окна 32k и скорости работы на потребительских GPU. Конфигурация позволяет заменить модель на любую совместимую с Ollama через файл config.yaml. Исходный код и инструкции по развертыванию доступны в репозитории проекта, обсуждение идеи ведется на Reddit.
Источники: ollama
-
Signet: единая память для разных агентных инструментов
Автор столкнулся с проблемой разрозненной контекстной памяти при переключении между Claude Code, Codex и другими инструментами. Решение — утилита Signet, которая хранит память агента внешне относительно используемого инструмента. Данные сохраняются локально в SQLite и markdown, включая транскрипты сессий для отслеживания происхождения информации. Фоновый процесс извлекает полезные данные без участия пользователя, позволяя переносить предпочтения и контекст между разными оболочками. Обсуждение
Источники: LocalLLM
Инструменты для разработчиков
-
Однокликовое связывание моделей LM Studio и Ollama
Разработан GUI-инструмент для быстрого переноса моделей из LM Studio в Ollama. Утилита создаёт модель в Ollama, заменяет blob на symlink и освобождает гигабайты места на диске. Решение протестировано на Windows, пути могут потребовать корректировки под конкретную систему. Исходный код доступен на GitHub. Репозиторий проекта
Источники: ollama
-
Open-source десктоп-приложение для open-codex
Разработчик создал полностью открытое десктоп-приложение для open-codex, вдохновившись существующим codex desktop app. Проект доступен в открытом доступе для пользователей, предпочитающих локальные решения. пост
Источники: ollama
-
Конфигурация Cline с Ollama на RTX 4090
Пользователь поделился конфигурацией для запуска Cline в связке с Ollama. Сборка базируется на процессоре i9 с 64 ГБ оперативной памяти и видеокарте RTX 4090 с 24 ГБ VRAM. Такое оборудование позволяет комфортно работать с локальными моделями в задачах автономного кодирования. Детали настройки окружения обсуждаются в треде.
Источники: ollama
-
ClawOS — надстройка над Ollama с голосовым управлением и автоматизацией
Разработан проект ClawOS, который превращает обычный ПК с Ollama в персонального ИИ-ассистента с голосовым управлением и 29 фоновыми автоматизациями. Система предлагает 7 профилей настройки (Developer, Creator, Business, Student, Teacher, General, Freelancer) и включает 4-уровневую память с графом знаний. В комплекте — OpenClaw с 13 700+ комьюнити-скиллами, интеграция с WhatsApp для удалённых запросов и дашборд на порту :7070. Работает на Ubuntu/Debian с 8 ГБ+ RAM. GitHub
Источники: ollama
-
OGPT — ультралёгкий интерфейс для Ollama весом 2 МБ
Представлен проект OGPT — минималистичная оболочка для Ollama без Electron и Chromium, занимающая всего 2 МБ оперативной памяти. Интерфейс использует SVG-иконки, встроенный магазин моделей для загрузки напрямую из приложения и базовые инструменты вроде часов. Поддерживает удалённое подключение через Tailscale и внешние IP-адреса. Автор ищет предложения по функциям, которые не увеличат размер приложения. Превью
Источники: ollama
-
5 готовых пайплайнов для Claude Code от Бориса Черного
Пока разработчики оценивают возможности Claude Code для написания кода, люди из индустрий, не связанных с разработкой, уже внедряют инструмент в работу. Создатель Claude Code Борис Черный поделился пятью готовыми сценариями использования, не требующими разработки приложений или поддержки инфраструктуры. В гайд вошли пайплайны для нарезки видео, обогащения лидов, конкурентной разведки, извлечения данных из документов, а также база знаний для автоматизации поддержки. Все решения работают из коробки и подходят для пользователей без технического бэкграунда. Подробнее.
Источники: prompt_design
-
vpurge: очистка VRAM на Windows без перезагрузки
Утилита vpurge позволяет очистить видеопамять (VRAM) на Windows без необходимости перезагрузки системы. Инструмент решает проблему занятости ресурсов после завершения работы тяжелых моделей или приложений. Это избавляет от необходимости перезапускать компьютер для освобождения памяти под новые задачи. Подробности работы утилиты обсуждаются в треде.
Источники: LocalLLM
-
RoleCraft: локальное ИИ-приложение для адаптации резюме
Разработчик создал открытое приложение RoleCraft для адаптации резюме с использованием локальных моделей. Инструмент позиционируется как структурированная альтернатива стандартной генерации текста, фокусируясь на точной настройке под вакансии. Проект распространяется как open-source и ориентирован на работу без отправки данных внешним сервисам. Пост
Источники: LocalLLM
-
Детали работы RoleCraft: маппинг вакансий и генерация .docx
Приложение сопоставляет описание вакансии с резюме поле за полем, показывая конкретные предлагаемые изменения и их обоснование. Пользователь может одобрить, отклонить или отредактировать каждое предложение перед финальной генерацией документа .docx. Встроенная проверка оценивает соответствие роли, наличие доказательств достижений и готовность к ATS. Стек включает React, Express и локальные модели через Ollama, например qwen3:8b, подробности в треде.
Источники: ollama
-
Автоматизация отслеживания обновлений llama.cpp через n8n
Автор настроил воркфлоу в n8n для автоматического саммаризирования изменений в llama.cpp с отправкой итогов в Discord. Скрипт забирает данные через GitHub API, фильтрует релизы за последние 24 часа и передает их модели Qwen3.5-35B:instruct для анализа. В промпте указано выделять технические детали: оптимизации CUDA, изменения кэша и улучшения для GPU, особенно для смешанных сборок вроде RTX 5060 Ti и 3090. Готовый саммари отправляется вебхуком в канал. Пост
Источники: LocalLLaMA
-
Альтернатива opencode и claudecode с меньшим потреблением RAM
Обсуждают новый инструмент, написанный на Rust, который позиционируется как альтернатива opencode и claudecode. Автор заявляет о снижении потребления оперативной памяти в 10 раз по сравнению с существующими решениями. Проект может быть интересен тем, кто ищет более легкие варианты для локальной разработки. Подробности в обсуждении.
Источники: LocalLLM
-
Babel-Brief: локальный секретарь для Telegram на Ollama
Инструмент Babel-Brief суммаризует сообщения в Telegram с помощью локальных моделей через Ollama API. Скрипт на Python работает на отдельной VM (например, Proxmox) и подключается к Ollama endpoint по сети, разделяя логику и тяжелые вычисления. Такой подход обеспечивает приватность — логи не уходят во внешние API, а остаются внутри сети. Проект использует Telethon и поддерживает модели вроде Llama 3 или Qwen, хотя сейчас есть ограничения по контекстному окну при очень длинных переписках. Исходный код доступен на GitHub, подробности обсуждения в треде.
Источники: ollama
Бизнес и инвестиции
-
Инвесторы пересматривают оценку OpenAI на фоне успехов Anthropic
Успехи Anthropic заставляют некоторых инвесторов OpenAI усомниться в целесообразности текущих вложений. Один из партнеров, финансировавший обе компании, сообщил FT, что для оправдания недавнего раунда OpenAI потребуется оценка на IPO не менее $1,2 трлн. При текущей оценке Anthropic в $380 млрд, она выглядит более привлекательным вариантом на рынке. Эти данные подчеркивают растущую конкуренцию между лидерами отрасли и различия в их восприятии инвесторами. Подробнее в TechCrunch.
Источники: https://techcrunch.com/category/artificial-intelligence/feed/
-
Яндекс представил ТВ Станция MiniLED с ИИ-ассистентом
Яндекс выпустил новую модель телевизора в премиальной линейке с MiniLED-подсветкой, яркостью до 650 нит и частотой 144 Гц. Устройство работает на YaOS X с Алисой, которая поддерживает tool calling — понимает естественные запросы без заученных команд и анализирует происходящее на экране. Телевизор выступает хабом умного дома через Wi-Fi, Zigbee и Matter, а также умеет записывать эфир и автоматически пропускать опенинги сериалов. Стоимость 55" версии — 80к ₽, 65" — 100к ₽. Анонс
Источники: ai_newz
-
Anthropic меняет тарифы для корпоративных клиентов
Anthropic меняет условия для энтерпрайз-пользователей с более чем 150 подписками. Компания убирает многоуровневые тарифы, оставляя базовую подписку за $20, а всё сверх лимита оплачивается по тарифам API. Скидки на первые токены также отменены, что повышает расходы активных пользователей в 2–3 раза. Причина изменений — нехватка вычислительных мощностей, из-за чего лимиты в потребительских подписках вряд ли улучшатся в ближайшее время. Подробности в источнике и обсуждении в канале.
Источники: ai_newz
-
Microsoft арендовала дата-центр в Норвегии, планировавшийся для OpenAI
Microsoft договорилась об аренде мощностей дата-центра в Нарвике (Норвегия), который изначально позиционировался как часть инициативы Stargate от OpenAI. OpenAI вела переговоры с провайдером Nscale о размещении рабочих нагрузок, но не заключила соглашение. Вместо этого Microsoft расширит присутствие на площадке, арендуя дополнительно чипы Nvidia Vera Rubin. Проект Stargate предполагал инфраструктурные инвестиции на $500 млрд совместно с Oracle и Трампом. Источник.
Источники: quantumquintum
-
Почему продажа стартапа через год помогла развитию медицинского ИИ
Луи Бланкемейер, сооснователь и CEO Cognita, объяснил решение продать стартап всего через год после основания. Несмотря на распространенное мнение о необходимости сохранять независимость, поглощение крупной компанией иногда увеличивает шансы на реализацию миссии. В сфере медицинского ИИ объединение ресурсов позволило быстрее внедрить решения в реальную практику и масштабировать технологию. Подробности процесса сделки и аргументы в пользу такого подхода доступны в материале Crunchbase News.
Источники: https://news.crunchbase.com/feed/
-
Uber инвестирует $10 млрд в роботакси
Uber меняет стратегию и переходит от asset-light модели к масштабным инвестициям в автономный транспорт. Компания выделяет $10 млрд на разработку роботакси и закупку флота в тысячи машин, ещё $7,5 млрд зарезервировано на развитие направления. Это сигнал о переходе рынка автономного транспорта из стадии пилотов в полномасштабное развёртывание. Подробнее
Источники: techsparks
-
Allbirds продает обувной бизнес и переходит на ИИ-серверы
Allbirds продаёт обувной бизнес и полностью переключается на ИИ-инфраструктуру. Компания ребрендируется в NewBird AI и закрыла конвертируемое финансирование на $50 млн. Вместо шерсти и кроссовок бренд займётся серверами для нейросетей. TechCrunch
Источники: https://techcrunch.com/category/artificial-intelligence/feed/
-
Gitar привлекла $9 млн на защиту кода от ИИ-агентов
Стартап Gitar вышел из стелса с $9 млн инвестиций. Они используют агентные системы для аудита безопасности кода, который всё чаще пишут сами нейросети. Инструмент помогает закрывать уязвимости на этапе разработки в условиях автоматизированного программирования. Пост
Источники: https://techcrunch.com/category/artificial-intelligence/feed/
-
Parasail собирает $32 млн на концепцию tokenmaxxing
Parasail привлекла $32 млн в серии А, делая ставку на термин «tokenmaxxing» для оптимизации вычислений. Инвесторы видят потенциал в фрагментированном рынке моделей, где управление токенами станет ключевым ресурсом. Раунд сигнализирует о сдвиге в сторону специализированной инфраструктуры для разработчиков ИИ. Статья
Источники: https://techcrunch.com/category/artificial-intelligence/feed/
Обучение и исследования
-
Сообщество ищет замену «пеликан-тесту» для сравнения LLM
Пользователи r/LocalLLaMA обсуждают необходимость обновить популярный бенчмарк для генерации SVG — тест с пеликаном на велосипеде считается слишком заезженным. В качестве альтернативы предложено генерировать HTML SVG с лошадью в болиде Формулы-1. В обсуждении показали результаты семи моделей: Gemini 3.1 Pro, DeepSeek Expert, GLM 5.1, MiniMax 2.7, Kimi K2.5, Claude Sonnet 4.6 и Qwen 3.6 Plus. Обсуждение
Источники: LocalLLaMA
-
Практическая польза локальных LLM в рабочих процессах
Пользователи обсуждают реальную применимость локальных моделей помимо экспериментов. Основные преимущества выделяются в задачах, требующих конфиденциальности: работа с внутренними документами, черновиками и данными без отправки в облако. Некоторые отмечают, что локальные модели уровня Gemma 4 31B уже конкурируют с облачными API, которые деградировали из-за нагрузки. Главным барьером остается сложность настройки, но для сценариев без интернета и защиты данных селф-хостинг становится безальтернативным решением. Обсуждение сценариев применения ведется в треде.
Источники: LocalLLM
-
GPT-2, Llama 3 и DeepSeek с нуля на PyTorch
Автор реализовал архитектуры GPT-2, Llama 3 и DeepSeek с нуля на PyTorch, выложив исходный код и сопроводительную книгу в открытый доступ. Проект позволяет изучать внутреннее устройство современных языковых моделей через практическую реализацию. Материалы полезны для тех, кто хочет разобраться в архитектуре трансформеров без зависимости от готовых библиотек. Подробности в посте.
Источники: LocalLLM
-
Компиляция английских описаний функций в 22 МБ нейронные программы
Система принимает описание функции на естественном языке и создаёт «нейронную программу» — комбинацию непрерывного LoRA-адаптера и дискретной псевдопрограммы. Интерпретатор (Qwen3 0.6B или GPT-2 124M) не меняет веса, всё поведение задачи приходит от скомпилированной программы. Компилятор — 4B LM, обученный на 10 миллионах примеров, сгенерированных gpt-5.2. Базовая модель Qwen3 0.6B занимает ~594 МБ (GGUF Q6_K), каждая скомпилированная программа добавляет ~22 МБ. На FuzzyBench адаптированный 0.6B интерпретатор показывает 73.4% против 9.8% у обычного промптинга той же модели и 68.7% у Qwen3 32B. Инференс работает локально через llama-cpp-python, демо доступно на programasweights.com.
Источники: LocalLLaMA
-
Датасет SEC EDGAR на 590 ГБ выложен на Hugging Face
Datamule, Teraflop AI и Eventual совместно выпустили датасет SEC-EDGAR с 8 миллионами образцов и 43 миллиардами токенов из всех основных файлов базы SEC EDGAR. Многие неофициальные API-провайдеры берут сотни долларов в месяц за доступ к этим данным с жёсткими лимитами. Датасет включает сырое содержимое файлов, распаршенный HTML/XML plaintext и метаданные: номер доступа, дату файла, период, документы и филера. Обработка через datamule-python, Daft dataframe library и Ray заняла менее 24 часов на 12 ядрах, стоимость составила около $1.10. Датасет свободно доступен на Hugging Face.
Источники: LocalLLaMA
-
Реализация Llama 3 и DeepSeek с нуля на PyTorch
Автор открытой книги и кода показал процесс сборки современных архитектур LLM вручную. В третьей главе демонстрируется превращение GPT-2 в Llama 3.2-3B через четыре замены компонентов, включая RMSNorm, RoPE и Grouped-Query Attention. Пятая глава посвящена архитектуре DeepSeek с деталями реализации MLA, MoE и квантования FP8. Код полностью открыт и позволяет загрузить реальные предобученные веса для изучения внутренностей моделей. Материалы и исходники доступны в треде на Reddit, репозиторий находится на GitHub.
Источники: LocalLLaMA
-
Репозиторий навыков Карпати набрал 36K звезд за два дня
GitHub-репозиторий с файлом `CLAUDE.md` стал вирусным благодаря описанию одного агентского навыка всего в 65 строк. Файл кодирует четыре правила Андрея Карпати: думать перед кодом, упрощать решения, менять только запрошенное и работать ради четкой цели. Пользователи отмечают улучшение качества PR и снижение количества лишних диффов после внедрения этих инструкций для агентов. Подробности популярности инициативы описаны в канале стартапов.
Источники: startupsi
-
Учебный движок инференса с KV cache для GPT-2 на CUDA
Разработчик создал учебный проект движка инференса для GPT-2 на CUDA, чтобы разобраться в работе KV cache и генерации токенов. На базе репозитория llm.c реализован бинарник для префилла и кэширования K/V тензоров, что снижает сложность шага декодирования с O(T²) до O(T). Проект не предназначен для продакшена из-за ограничений контекста GPT-2, но демонстрирует принципы, используемые в vLLM и TensorRT-LLM. Код проекта открыт, автор также ищет рекомендации по развитию в сфере инженерии инференса в треде.
Источники: LocalLLM
-
Team Blobfish: публичный репозиторий для terminal bench на локальном железе
Команда Blobfish анонсировала публичный репозиторий для запуска terminal bench на локальном оборудовании. Проект позволяет тестировать возможности LLM в выполнении терминальных задач без облачных зависимостей. Детали реализации и инструкции доступны в посте.
Источники: LocalLLM
-
Локальная Gemma 4 31B для классификации 60 000 писем из 90-х
Автор использует локальную Gemma 4 31B в LM Studio для восстановления истории проекта Computers and Academic Freedom (CAF) на основе архива из 60 000 писем 1990-2000-х. Двухэтапный пайплайн: Pass 1 отфильтровывает 68,4% нерелевантных писем за 2-3 секунды, Pass 2 классифицирует оставшиеся 31,6% с JSON-выводом за 20-30 секунд. Setup: HP ZBook Ultra G1a, AMD Ryzen AI MAX+ PRO 395, 128 GB RAM, контекст 8K, Rust-код для приватности и экономии на токенах. Обработано 20% архива, результаты сохраняются в JSON для последующего анализа в VS Code. Подробности пайплайна и запросов в посте.
Источники: LocalLLM