← все дайджесты

суббота, 9 мая 2026 г.

AI Digest: SSI оценили в $30 млрд, Chrome установил локальную LLM на миллиард устройств и Mythos нашла уязвимости в Firefox

SSI Ильи Суцкевера достигла оценки $30 млрд без выпущенных продуктов. Anthropic Mythos обнаружила критические уязвимости в Firefox, Mozilla использует модель для защиты браузера. Chrome внедрил локальную LLM на миллиард устройств. MiMo выпустила V2.5 — 310B MoE-модель с контекстом 1M токенов. Anthropic получила доступ к инфраструктуре SpaceX Colossus и внедрила функцию dreaming для автономного улучшения агентов. Qwen 3.6 ускорила декодирование в 2.9× через MTP в llama.cpp.

Финансирование и оценка компаний

  • Основатели Voi запустили AI-стартап Pit с финансированием от a16z

    Новый AI-стартап Pit из Стокгольма возглавили сооснователи сервиса самокатов Voi. Компания закрыла seed-раунд на $16 млн под руководством фонда a16z. Проект называют восходящей звездой местной AI-сцены. Подробнее

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

  • SSI Ильи Суцкевера оценили в $30 млрд без выпущенных продуктов

    Компания Safe Superintelligence Inc продолжает работу над созданием сверхинтеллекта без выпуска промежуточных продуктов. В марте 2025 года оценка компании достигла $30 млрд при раунде финансирования от Greenoaks Capital, несмотря на отсутствие выручки и штат около 20 человек. Участники обсуждения подтверждают, что отсутствие релизов — часть стратегии: все вычислительные ресурсы направляются на исследования до достижения AGI. Детали в обсуждении.

    Источники: singularity

  • Инвестиции в AI для продаж и маркетинга достигли $2,7 млрд в 2026 году

    С начала 2026 года компании в категориях продаж, маркетинга и CRM привлекли около $2,7 млрд глобальных инвестиций на этапах от seed до growth. Данные Crunchbase указывают на продолжающийся интерес к AI-решениям для GTM-стратегий. Источник

    Источники: https://news.crunchbase.com/feed/

  • Продолжение скандала вокруг Delve: корпоратив на Гавайях и отказ в возвратах

    Анонимный автор DeepDelver выпустил продолжение расследования о стартапе Delve, который привлек $35 млн через YC на услугах комплаенса. Команда отправилась на корпоратив на Гавайи, несмотря на просьбу инвесторов отменить поездку. Клиентам отказывали в возврате средств, утверждая, что они не подпадают под закон, хотя ранее вскрылось использование шаблонов вместо заявленного ИИ. Сотрудники арендовали дорогие автомобили и соблюдали меры конспирации: не постили в соцсетях, меняли часовой пояс в Slack и скрывали лица. Фонд Insight Partners удалил упоминание о сделке, но основатели говорят о скором публичном заявлении в поддержку проекта. Подробности истории доступны в источнике.

    Источники: TheEdinorogBlog

  • Почему ИИ-стартапы закрываются после первого клиента

    Инженер по ИИ отметил закономерность: продукты на базе API фундаментальных моделей часто не находят второго клиента. Отток составляет около 65% в течение 90 дней, что вдвое выше среднего по SaaS. Основная проблема — отсутствие защитного рва: провайдер моделей может внедрить функцию нативно и обесценить продукт. Дополнительно мешают высокие затраты на инференс и фокус на демо-эффекте вместо решения задач удержания. Выжившие команды, вероятно, используют проприетарные данные. Обсуждение

    Источники: startups

Новые модели и релизы

  • Модель Anthropic Mythos нашла критические уязвимости в Firefox

    Специалисты Mozilla Security отметили, что модель Anthropic Mythos изменила подход к защите браузера. Система обнаружила множество уязвимостей высокой степени серьезности в коде Firefox. Эти данные используют для улучшения безопасности продукта. Источник

    Источники: https://techcrunch.com/category/artificial-intelligence/feed/

  • ChronicleLLM: 30M модель для исторических текстов Австралии

    Автор создал модель ChronicleLLM с 30 миллионами параметров. Обучение проводилось на исторических текстах Австралии. Проект возник из интереса к старым данным и демонстрирует нишевое применение LLM. Пост

    Источники: LocalLLM

  • TemRust-SMOL-v5: 1.5B модель для Rust кода

    Разработчик выпустил TemRust-SMOL-v5-1.5B — fine-tuning модели Qwen2.5-Coder-1.5B-Instruct для написания кода на Rust. Обучение проводилось на 263 реальных мердж-реквестах, бенчмарк из 37 задач оценивался через cargo check/test, результат составил 67.6%. Обучение на H100 заняло около 20 минут и обошлось примерно в $1.50 за запуск. Модель распространяется под лицензией Apache-2.0, но имеет ограничения по контексту и детерминированности. Подробнее

    Источники: LocalLLM

  • MiMo-V2.5: 310B MoE-модель с контекстом 1M токенов

    Xiaomi выпустила MiMo-V2.5 — sparse MoE-модель на 310B параметров с активацией 15B на шаг. Поддерживает контекст до 1M токенов и мультимодальность: текст, изображения, видео, аудио. В составе 729M-параметрический ViT для зрения и 261M-параметрический Audio Transformer. Есть Multi-Token Prediction (329M параметров, 3 слоя). В комментариях отмечают, что поддержка уже merged в llama.cpp (PR #22493), GGUF-версии доступны на HuggingFace от AesSedai. Аудио и видео пока не поддерживаются в локальном запуске. Модель на HF

    Источники: LocalLLaMA

  • Qwen выпустила WebWorld — world-модель для веб-агентов

    WebWorld доступен в версиях 32B, 14B и 8B на базе Qwen3 fine-tune. Модель обучена на 1M+ реальных траекторий веб-взаимодействий через иерархический пайплайн данных. Поддерживает долгосрочную симуляцию (30+ шагов), множественные форматы состояния (A11y Tree, HTML, XML, Markdown) и CoT-рассуждения. Агенты на WebWorld показали +9.9% на MiniWob++ и +10.9% на WebArena, превосходя GPT-5 как world-модель при inference-time lookahead search. Модели на HuggingFace

    Источники: LocalLLaMA

  • Запуск Ring-2.6-1T: триллион параметров для агентов и кода

    Вышла модель Ring-2.6-1T, которая позиционируется как флагманское reasoning-решение для агентных workflows и написания кода. Архитектура на триллион параметров ориентирована на структурированное многошаговое выполнение задач, а не просто на генерацию красивых ответов. Заявлено лидерство среди open-source решений в бенчмарках PinchBench и ClawEval, а также совместимость с Claude Code. Предусмотрены режимы Reasoning Effort (high и xhigh) для управления глубиной рассуждений. Бесплатный доступ для разработчиков открыт до 15 мая, детали в обсуждении.

    Источники: singularity

Ускорение инференса и оптимизация

  • Qwen3.5/3.6 с NextN MTP в llama.cpp: ускорение декодирования в 2.9×

    Гайд по запуску Qwen3.5/3.6 с NextN MTP (Multi-Token Prediction) speculative decode на одной RTX 3090 Ti. Технология даёт ~2.9× ускорение декодирования без потери качества — MoE-архитектура 35B-A3B достигает ~150 токенов/сек. Для работы нужны два открытых PR в llama.cpp: #22400 (поддержка GDN/SSM моделей) и #22673 (MTP Support). Ключевые флаги запуска: `--spec-type mtp`, `--spec-draft-n-max 4`, `-ctk q8_0 -ctv q8_0` для экономии VRAM. Важно квантовать nextn-тензоры в q8_0 через `--tensor-type nextn=q8_0`, иначе вывод будет повреждён. В комментариях отмечают, что speculative decoding работает и с другими квантами, включая fp8 для Qwen 3.6 27B. Полный гайд

    Источники: LocalLLaMA

  • Gemma 4 26B A4B NVFP4 в формате GGUF с Docker-образом

    Опубликована GGUF-версия модели `nvidia/Gemma-4-26B-A4B-NVFP4`. Поскольку основная ветка llama.cpp пока не поддерживает этот формат, автор подготовил Docker-образ `catlilface/llama.cpp:gemma4_26b_nvfp4` для запуска. Тестирование проводилось на RTX 5070Ti, отмечены проблемы с производительностью при CPU-оффлоаде. Репозиторий доступен на Hugging Face, автор благодарит ynankani за вклад в llama.cpp, сделавший квантование возможным. В комментариях спрашивают, требуется ли RTX 5090, и предлагают использовать Jungle Grid для бенчмарков на разных GPU. Репозиторий. Пост

    Источники: LocalLLaMA

  • Gemma 4 MTP и поддержка в MLX

    Google выпустила Multi Token Prediction drafters для Gemma 4 — подход speculative decoding, который предсказывает несколько токенов вперёд и проверяет их параллельно, ускоряя инференс в 2-3 раза. В обсуждении отмечают, что на omlx скорость генерации удваивается с 11 до 20+ tk/s на M1Max с 64GB RAM. При этом основная библиотека MLX пока не поддерживает архитектуру MTP — потребуется добавить поддержку speculative decoding в mlx-lm. Некоторые пользователи сообщают об успешном запуске на своих машинах, другие рекомендуют следить за обновлениями llama.cpp, где новые форматы моделей появляются быстрее. Обсуждение

    Источники: LocalLLaMA

  • Mixed-bit квантование MiniMax M2.7 от JANGQ-AI

    Опубликована mixed-bit квантованная версия MiniMax M2.7 от JANGQ-AI, занимающая 74 GB на диске. Модель доступна в формате для Mac/MLX. В комментариях пользователи интересуются возможностью запуска через llama.cpp — на данный момент поддержка ограничена экосистемой MLX. Для владельцев Mac с достаточным объёмом памяти это дополнительный вариант для локального развёртывания крупных моделей. Детали

    Источники: LocalLLaMA

  • Бенчмарк Qwen 3.6 27B MTP на 4× RTX 3090 с NVLink

    Автор протестировал Qwen 3.6 27B с MTP head для speculative decoding на конфигурации с 4× RTX 3090, где GPU попарно соединены через NVLink. При TP=2 на NVLinked паре пропускная способность выросла на +25% при concurrency 1 и на +53% при concurrency 4 по сравнению с PCIe. Неожиданный результат: TP=4 на всех 4 GPU оказался медленнее TP=2-NVLink на 13-30% из-за того, что большинство соединений в топологии остаются PCIe. MTP speculative decoding стабильно работал во всех конфигурациях с acceptance rate 70-79%. Оптимальная стратегия для таких систем — запускать два отдельных TP=2 сервиса на каждой NVLinked паре вместо одного TP=4. Полный отчёт

    Источники: LocalLLaMA

  • Миниатюрные GGUF для MTP-тензоров Qwen 3.6

    Энтузиаст создал облегчённые GGUF-файлы, содержащие только MTP-тензоры для Qwen 3.6 — 900MB для версии 35A3B и 450MB для 27B вместо оригинальных 38GB и 29GB. Файлы полностью совместимы со скриптом для grafting MTP-тензоров, результаты проверены через SHA256-хэши и идентичны моделям, созданным из полных версий. Это экономит трафик и время для тех, кто хочет добавить MTP к существующим GGUF-моделям. В комментариях пользователи планируют комбинировать эти тензоры с квантованными версиями для запуска на 16GB RAM. Автор предупреждает, что реализация MTP ещё не финализирована и оригинальные модели стоит сохранять. Репозиторий

    Источники: LocalLLaMA

  • Multi-Token Prediction для LLaMA.cpp: ускорение генерации на 40%

    Разработчик реализовал поддержку Multi-Token Prediction (MTP) в LLaMA.cpp и квантовал ассистент-модели Gemma 4 в формат GGUF. Тесты на MacBook Pro M5Max показали рост скорости с 97 до 138 токенов/секунду — примерно 40% ускорение. В комментариях обсуждают необходимость тестов с temp 0.0 для проверки качества генерации и совместимость с LM Studio. Квантованные модели и патч для llama.cpp доступны в репозиториях автора. Подробнее

    Источники: LocalLLaMA

  • Google ускорил генерацию в Gemma-4 через Multi-Token Prediction

    Google выпустил драфтеры Multi-Token Prediction (MTP) для модели Gemma-4, позволяющие предсказывать несколько токенов одновременно. Вспомогательная модель формирует черновик, а основная проверяет пакет за один проход, заменяя ошибочные токены при необходимости. Такой подход ускоряет генерацию примерно в 3 раза без потери качества. Все необходимые драфтеры уже опубликованы и готовы к тестированию. Подробности

    Источники: startupsi

Локальное железо и производительность

  • Как освободить VRAM через встроенную графику

    Если у вашего процессора есть iGPU, можно вернуть несколько сотен мегабайт видеопамяти dedicated GPU. Достаточно включить встроенную графику в BIOS и подключить кабель дисплея к материнской плате — тогда iGPU возьмёт на себя системные задачи, а память дискретной видеокарты освободится полностью. Особенно полезно для тех, кто работает с Windows или Linux с графическим интерфейсом. Подробнее

    Источники: LocalLLaMA

  • Производительность Ollama против llama.cpp на AMD iGPU

    Тестирование на Radeon 890M (Ryzen AI 9 HX 370) показало существенную разницу в скорости инференса Gemma 4 E4B. Ollama выдает около 6.4 ток/с, тогда как сборка llama.cpp с поддержкой Vulkan достигает 16 ток/с при полной оффлоад-загрузке. Причина отставания в устаревшей версии llama.cpp внутри Ollama, куда еще не попали патчи на flash-attention для AMD. В комментариях подтверждают: для тонкой настройки слоев на MoE-моделях лучше подходят llama-server или LMStudio, а Ollama остается удобным инструментом для быстрых проверок. Обсуждение

    Источники: ollama

  • Андервольтинг AMD 9700 повышает частоты до 4 ГГц

    Свежие драйверы для видеокарт AMD открыли новые пути Vulkan, позволяя разгонять частоты через снижение напряжения. Пользователи сообщают о стабильной работе на 3.3–3.58 ГГц при лимите 225 Вт, а кратковременные бусты достигают 4 ГГц на обычном воздушном охлаждении. Это не clock stretching, производительность реально масштабируется. В обсуждении делятся опытом успешного андервольтинга на 7900XT до 1010 мВ с повышением частоты памяти. Тред

    Источники: LocalLLaMA

  • AMD готовит слоттуемые GPU Instinct для enterprise

    Появилась информация о выпуске PCIe-версий ускорителей AMD Instinct, ориентированных на enterprise-сектор ИИ. Несмотря на интересную спецификацию с пропускной способностью памяти до 4.0 ТБ/с и производительностью 4.6 петафлопс, для локального использования модель вряд ли подойдет. В комментариях оценивают стоимость около $30 000 из-за дорогой памяти HBM3e, что выводит устройство из категории доступного селф-хостинга. Детали

    Источники: LocalLLaMA

  • Неделя с Qwen 3.5 35B A3B на безвентиляторном мини-ПК: опыт ежедневного использования

    Автор протестировал Qwen 3.5 35B A3B Q4_K_M на Beelink SER9 Pro (Ryzen AI 9 HX 370, Radeon 890M iGPU, 32GB RAM) в режиме 24/7. Модель запускалась через LMStudio с Vulkan-бэкендом, 15–20 из 48 слоёв оффлодились на iGPU, остальное — на CPU. Скорость: 20–22 ток/с при контексте 4–8K, потребление в среднем 18W (~$3.50/мес). Три сценария отработали без сбоев за 7 дней: ежедневная сводка новостей (~50–70с), мониторинг изменений на сайтах (~15–20с), структурированный скрейпинг с выгрузкой в CSV (~90с). По сравнению с Gemma 4 E4B модель лучше справляется с многошаговым планированием, но требует 21GB памяти против 8GB. В комментариях отмечают, что на Geekom A8 с iGPU 780M удаётся получить 15–17 ток/с, а также обсуждают альтернативу в виде Qwen 3.5 9B для классификации и извлечения данных. Пост

    Источники: LocalLLM

  • Chrome установил локальную LLM на миллиард устройств

    Google Chrome разместил на устройствах пользователей файл weights.bin размером 4 ГБ для локальной работы ИИ-функций. В комментариях уточняют: это Gemini Nano (не Gemma), модель работает через Prompt API для переводов, суммаризации и распознавания голоса без отправки данных на серверы Google. При желании функцию можно отключить через chrome://flags, параметр optimization-guide-on-device-model. После отключения браузер удаляет weights.bin. Тред

    Источники: LocalLLM

Агентные системы: инструменты и проблемы

  • Проблемы отладки сложных агентных систем

    Автор делится опытом сложностей отладки агентных сценариев: при добавлении памяти, инструментов и браузерной автоматизации система становится непрозрачной. Проблема часто не в промптах, а в распределённой природе системы, где observability важнее самой модели. Рекомендуется упрощать стек, использовать строгую валидацию и контролируемые инструменты вроде Browser Use. Обсуждение

    Источники: AgentsOfAI

  • GitWise: локальные коммиты через Ollama

    Инструмент GitWise работает как Git hook для генерации сообщений коммитов через локальные модели в Ollama. Решение работает полностью офлайн, не отправляя диффы кода в облако, и поддерживает стандарт Conventional Commits. Доступна установка в одну команду, есть поддержка нескольких языков для генерации описаний. Пост

    Источники: ollama

  • Проблемы с бесконечными агентными циклами на локальных моделях

    Пользователь с доступом к серверу на H100 тестирует автономные агентные циклы с gemma4 31b и qwen3.6 27b через vscode copilot, но сталкивается с постоянными ошибками и остановками. В обсуждении отмечают, что проблема чаще в дизайне цикла, а не в модели: отсутствие критериев завершения, необработанные ошибки инструментов, раздувание контекста. Рекомендации включают короткие горизонты планирования (3-5 шагов), жёсткие лимиты на вызовы инструментов и токены, сохранение состояния вне контекстного окна. Native vscode copilot не предназначен для автономных многошаговых задач — лучше использовать специализированные CLI-фреймворки для агентов. Обсуждение

    Источники: ollama

  • База из 99 кейсов применения агента Hermes

    Опубликован структурированный .MD-документ с 99 примерами использования агента Hermes в бытовых и рабочих сценариях. Материал разбит по категориям и предназначен для передачи агентам вроде Claude Code, Codex или ChatGPT для совместного брейншторминга. Формат позволяет быстро находить подходящие паттерны для конкретных задач. Документ

    Источники: prompt_design

  • AgentScanner by Chimera — сканер безопасности для AI-агентов

    Запущен бесплатный инструмент для проверки уязвимостей в Python-агентах (LangChain, LangGraph, OpenAI Agents SDK). Пользователь вставляет публичную ссылку на GitHub-репозиторий, система анализирует назначение агента и доступные инструменты, затем генерирует кастомные шаблоны для обхода защиты. Тесты запускаются трижды в песочнице: если обход подтверждается 3/3, выводятся точный пейлоад, вызванная функция, аргументы, превью ответа и рекомендация по исправлению. Акцент на «proof of exploit» вместо абстрактных оценок. В обсуждении уточняют, что тестирование должно разделять prompt injection через README/issues и злоупотребление инструментами (запись файлов, сетевые вызовы). Ссылка на сервис: agentscan.chimera-protocol.com. Пост

    Источники: AgentsOfAI

  • Anthropic внедрила функцию dreaming для автономного улучшения агентов

    Anthropic запустила функцию dreaming в исследовательской превью-версии для Claude Managed Agents. Она активируется в периоды простоя между сессиями, позволяя агентам анализировать прошлые взаимодействия на предмет повторяющихся ошибок и предпочтений пользователя. На основе анализа агент обновляет память, добавляя эффективные паттерны и правила. Пользователи могут настроить автоматическое обновление или требовать ручного подтверждения изменений. Функция направлена на улучшение производительности и оптимизацию использования ресурсов за счет компактности памяти. Подробности

    Источники: startupsi

Безопасность и уязвимости

  • Mozilla использует Claude Mythos для защиты Firefox

    Mozilla опубликовала отчет об использовании Claude Mythos Preview для усиления безопасности Firefox. В обсуждении отмечают, что модель способна не только находить, но и исправлять уязвимости, что подтверждает сдвиг в сторону практического применения ИИ в разработке. Участники дискуссии упоминают, что доступ к модели остается ограниченным, несмотря на высокий спрос со стороны крупных компаний. Подробности в обсуждении и отчете Mozilla.

    Источники: singularity

  • Как отслеживать деградацию качества LLM-системы

    Обсуждение проблемы: latency, cost и ошибки легко мониторить, но качество ответов деградирует незаметно, пока пользователи не начнут жаловаться. В комментариях делятся практиками: fixed replay prompts — набор реальных задач с известными хорошими ответами, которые запускают после каждого изменения модели, кванта, контекста или кэша. Некоторые команды строят benchmark-воркфлоу с human evaluation и structured workflows вроде Runable, чтобы делать падения качества видимыми. Один метрический score малоинформативен — важнее сравнивать старый и новый запуск на одинаковых задачах. Обсуждение

    Источники: LocalLLM

  • Тестирование промптов: Qwen 3.5 и 3.6 реагируют по-разному

    Пользователь протестировал два варианта промптов (короткий и развёрнутый) на трёх моделях, запуская каждый сценарий 10 раз. Результаты показали, что Qwen 3.6 хуже справляется с длинными промптами даже в квантовании Q8, тогда как Gemma 4 лучше воспринимает контекст с подробным описанием. Квантование IQ2 неожиданно показало хорошие результаты. В комментариях отметили, что Qwen3.6 27B UD Q4_K_XL справился с задачей, хотя возникали сложности с интерпретацией количества сиблингов. Главный вывод: даже похожие модели могут требовать разных стилей промптинга. Полные данные теста

    Источники: LocalLLaMA

  • Осторожно: малварь в репозитории Open-OSS на Hugging Face

    Обнаружен вредоносный репозиторий `Open-OSS/privacy-filter`, маскирующийся под фильтр приватности OpenAI. Скрипт `loader.py` выступает дроппером, загружающим PowerShell-команды и исполняемые файлы через Планировщик заданий. Пользователи Linux не затронуты, так как вирус ориентирован на Windows. Автор уже сообщил о находке в Microsoft и Hugging Face, но количество загрузок уже превысило 244 тысячи. Предупреждение

    Источники: LocalLLaMA

Индустриальная аналитика

  • Code with Claude 2026: итоги конференции Anthropic

    Anthropic провела вторую конференцию для разработчиков Code with Claude 2026 с пятью часами докладов и демо. Компания удвоила rate limits для Pro/Max/Team/Enterprise за счёт партнёрства со SpaceX и доступа к Colossus 1, годовой рост API volume составил 17x. В Claude Code появились Routines (промпты с триггерами по cron, webhook, GitHub event), CI Autofix для автоматического исправления упавших PR, Auto Mode для снятия permission prompts и Work Trees с изолированными git-branch для каждого агента. MercadoLibre уже использует Claude Code на 23k инженерах с целью достичь 90% автономного кодирования к Q3. Opus 4.7 работает в продакшне у AMP, Rakuten и Intuit. Дарио Амодеи подтвердил прогноз о компании на $1B с одним сотрудником к концу 2026 года. Телеграм-пост

    Источники: ai_for_devs

  • ИИ и поисковики не конкурируют, а объединяются

    Анализ показывает, что ИИ не заменяет поисковые системы, а интегрируется с ними в единую инфраструктуру. Ключевые функции — извлечение данных, ранжирование и персонализация — остаются критичными для качества работы ИИ. Лидерами рынка становятся компании, контролирующие все три уровня: Google, Microsoft, Baidu, Яндекс и Amazon. Только они имеют доступ к необходимой инфраструктуре через API. Подробнее

    Источники: techsparks

  • Anthropic получила доступ к инфраструктуре SpaceX Colossus

    По итогам сделки с SpaceX Anthropic получит доступ к вычислительному комплексу Colossus 1 с более чем 220 000 GPU Nvidia и потребляемой мощностью 300 МВт. В первую очередь это улучшит работу пользователей топовых планов Claude Code. Официальное объявление

    Источники: techsparks

  • Как правильно передавать PDF-файлы в Gemma 4

    Обсуждение оптимального способа обработки PDF в Gemma 4, которые содержат текст, формулы, таблицы и изображения. llama.cpp поддерживает PDF, но трактует их либо как текст (теряя остальное), либо как изображения. Согласно комментариям, Gemma 4 не декодирует PDF напрямую — страницы нужно рендерить в изображения и передавать по одной. Рекомендуется установить img min/max tokens на 1120 (как указано в model card), чтобы vision-энкодер мог извлечь текст из изображений. Функция «PDF processing» в документации модели фактически относится к разделу «Image Understanding». Пользователи отмечают, что попытки скармливать base64-кодированные PDF напрямую приводят к некорректным ответам. Пост

    Источники: LocalLLaMA

  • Два чиновника отстранены из-за галлюцинаций ИИ в государственном документе

    В ЮАР два старших директора департамента по делам беженцев отстранены после того, как языковая модель сгенерировала шесть несуществующих академических статей для утверждённого кабмином национального документа. Автор воспроизвёл ситуацию в локальном тесте: без строгого RAG-пайплайна модели галлюцинируют около 40% цитат, причём чем формальнее стиль документа, тем выше процент выдуманных источников. Решение — агентовая архитектура с отдельным верифицирующим агентом, который проверяет каждую ссылку через Crossref или Semantic Scholar перед показом человеку. Обсуждение

    Источники: LocalLLM

  • canitrun.dev переехал на Hetzner после 8k+ просмотров

    Сервис canitrun.dev, который подбирает совместимые LLM-модели под ваше железо и показывает ожидаемую скорость инференса, переехал с Vercel на собственный сервер Hetzner из-за превышения лимитов бесплатного тарифа. Автор собирает фидбэк для улучшения: в комментариях просят добавить поддержку Intel GPU (B70 в single/dual/quad конфигурациях) и упомяляют отсутствие M3 Ultra при наличии M4 Ultra. Пользователи отмечают высокую точность оценок пропускной способности — в пределах 10% от реальных значений. Сайт проекта

    Источники: LocalLLM

  • Расходы на строительство дата-центров в США превысили офисные затраты

    Census Bureau опубликовал данные за февраль и март 2026 года: расходы на строительство дата-центров снова превысили затраты на офисные помещения. В марте разрыв составил 14,1% ($49,5 млрд против $43,4 млрд), увеличившись по сравнению с февралем. Участники обсуждения отмечают, что тенденция усилится из-за высокой капиталоемкости инфраструктуры для H100 и B100 — до 4 раз выше на квадратный фут по сравнению с офисами. Визуализация данных выполнена с помощью GPT-5.5 Thinking. Пост

    Источники: singularity