Исследование Microsoft: современные нейросети допускают критические ошибки при долгосрочной работе с документами

Исследование Microsoft: современные нейросети допускают критические ошибки при долгосрочной работе с документами

Специалисты компании Microsoft опубликовали результаты исследования, ставящего под сомнение надежность актуальных больших языковых моделей (LLM) при выполнении длительных многоэтапных задач. Как выяснилось, большинство систем искусственного интеллекта склонны к накоплению ошибок, которые незаметно искажают исходные данные.

Проблемы с долгими рабочими процессами

Для оценки возможностей ИИ исследователи разработали новый эталонный тест DELEGATE-52, охватывающий 52 направления деятельности, включая программирование, бухгалтерский учет и научные исследования. Результаты показали, что текущие модели часто допускают редкие, но серьезные ошибки, которые постепенно разрушают структуру и содержание документов по мере увеличения количества итераций.

Основные выводы исследования:

  • Даже передовые модели при выполнении длительных рабочих процессов в среднем искажают до 25% содержимого документа.
  • По мере увеличения объема обрабатываемой информации (количества токенов) вероятность ошибок значительно возрастает.
  • Наилучшие результаты нейросети показывают в строго структурированных задачах, таких как написание кода на языке Python.
  • Работа с естественным языком, креативные задачи и полуструктурированные документы остаются наиболее проблемными областями для ИИ.

Результаты тестирования моделей

В рамках испытаний эксперты проанализировали 19 различных моделей из шести семейств, включая разработки компаний OpenAI*, Google, Anthropic*, Mistral, xAI и Moonshot. Для проверки использовались реальные документы объемом около 15 тысяч токенов, а также метод симуляции, при котором ИИ должен был внести изменения в документ, а затем вернуть его к исходному виду.

Лидеры тестирования по версии DELEGATE-52:

  • Gemini 3.1 Pro — 80,9% точности после 20 итераций.
  • Claude 4.6 Opus* — 73,1%.
  • GPT-5.4 — 71,5%.
  • GPT 5 Nano занял последнюю строчку рейтинга с результатом 10%.

Исследователи отмечают, что даже лучшие модели не способны полностью исключить ошибки — они лишь откладывают момент их появления. Авторы отчета подчеркивают, что современные системы ИИ пока не обладают достаточным уровнем надежности для полностью автономной работы над долгосрочными задачами, и призывают разработчиков сфокусироваться на устранении этих критических недочетов.

* — деятельность компании запрещена на территории РФ

Как купить запчасти в Купавне для иномарки?
Что считается тяжкими телесными повреждениями при ДТП
Слэб карагач - что это и что из него делают
Монтаж системы СКУД для безопасности и автоматизации зданий
Умный уличный фонарь Govee подешевел до рекордного минимума