Microsoft представила инструмент ASSERT для тестирования специализированных ИИ-систем

Microsoft представила инструмент ASSERT для тестирования специализированных ИИ-систем

Исследовательские лаборатории добились значительного прогресса в оценке безопасности и принципов работы моделей искусственного интеллекта. Однако разработчики сталкиваются с новой задачей: обеспечением соответствия поведения ИИ конкретным требованиям продукта или сервиса. Для упрощения этого процесса компания Microsoft выпустила инструмент с открытым кодом под названием ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing).

Автоматизация контроля за поведением ИИ

Функционал системы позволяет преобразовывать текстовые описания целей, политик и ожидаемых моделей поведения ИИ в структурированные проверочные тесты. Инструмент автоматически генерирует сценарии и варианты проверок, запускает их для целевой системы и присваивает оценку результатам.

Ключевые возможности ASSERT включают:

  • Формирование набора допустимых и недопустимых действий на основе естественного языка.
  • Фиксацию траектории работы ИИ, включая все промежуточные шаги и использование внешних инструментов, для детального анализа ошибок.
  • Возможность настройки контекста системы, ограничений и набора используемых инструментов для глубокой адаптации проверок.

Практическое применение и контроль качества

Разработчики могут задавать строгие правила работы агентов. Например, ограничить рассылку писем за пределы компании для ИИ-ассистента, работающего с документацией, или предписать передачу конфиденциальных данных только руководству высшего звена. Система будет регулярно тестировать модель на соблюдение этих заданных параметров.

Как отмечает Сара Берд, директор по направлению ответственного ИИ в Microsoft, проведение оценок имеет критическое значение для принятия верных решений при разработке. По её словам, для создания надежных систем необходимо фокусироваться на показателях, специфичных для конкретного продукта, а не только на общих характеристиках модели. Инструмент применим на всех этапах жизненного цикла ИИ: от проектирования и развертывания до непрерывного мониторинга в процессе эксплуатации.

Выпуск ASSERT отражает глобальный тренд в индустрии, где наряду с ростом возможностей ИИ все больше внимания уделяется воспроизводимому тестированию и проверкам на регрессию, аналогично подходам, применяемым в существующих проектах HELM от Стэнфорда или AILuminate от MLCommons.

* — деятельность компании Meta (Facebook, Instagram) запрещена на территории РФ

Сколько стоят колпачки на колёсные болты
На какие автомобили обязательна установка тахографа и как она выполняется
Пироги на заказ с доставкой: вкусно и выгодно
Что нужно знать перед покупкой яхты: виды судов и особенности эксплуатации
Instagram* тестирует новые ограничения контента для подростков