Специалисты компании Microsoft опубликовали результаты исследования, ставящего под сомнение надежность актуальных больших языковых моделей (LLM) при выполнении длительных многоэтапных задач. Как выяснилось, большинство систем искусственного интеллекта склонны к накоплению ошибок, которые незаметно искажают исходные данные.
Проблемы с долгими рабочими процессами
Для оценки возможностей ИИ исследователи разработали новый эталонный тест DELEGATE-52, охватывающий 52 направления деятельности, включая программирование, бухгалтерский учет и научные исследования. Результаты показали, что текущие модели часто допускают редкие, но серьезные ошибки, которые постепенно разрушают структуру и содержание документов по мере увеличения количества итераций.
Основные выводы исследования:
- Даже передовые модели при выполнении длительных рабочих процессов в среднем искажают до 25% содержимого документа.
- По мере увеличения объема обрабатываемой информации (количества токенов) вероятность ошибок значительно возрастает.
- Наилучшие результаты нейросети показывают в строго структурированных задачах, таких как написание кода на языке Python.
- Работа с естественным языком, креативные задачи и полуструктурированные документы остаются наиболее проблемными областями для ИИ.
Результаты тестирования моделей
В рамках испытаний эксперты проанализировали 19 различных моделей из шести семейств, включая разработки компаний OpenAI*, Google, Anthropic*, Mistral, xAI и Moonshot. Для проверки использовались реальные документы объемом около 15 тысяч токенов, а также метод симуляции, при котором ИИ должен был внести изменения в документ, а затем вернуть его к исходному виду.
Лидеры тестирования по версии DELEGATE-52:
- Gemini 3.1 Pro — 80,9% точности после 20 итераций.
- Claude 4.6 Opus* — 73,1%.
- GPT-5.4 — 71,5%.
- GPT 5 Nano занял последнюю строчку рейтинга с результатом 10%.
Исследователи отмечают, что даже лучшие модели не способны полностью исключить ошибки — они лишь откладывают момент их появления. Авторы отчета подчеркивают, что современные системы ИИ пока не обладают достаточным уровнем надежности для полностью автономной работы над долгосрочными задачами, и призывают разработчиков сфокусироваться на устранении этих критических недочетов.
* — деятельность компании запрещена на территории РФ
12.05.2026