Meta Представляет "Agent-as-a-Judge": Оценка ИИ с Помощью ИИ

Введение

Быстрое развитие в области Искусственного Интеллекта (ИИ) сделало агенты все более важными в различных приложениях. Однако эффективная оценка производительности этих агентов остается проблемой. Традиционные методы оценки часто фокусируются только на конечных результатах, не учитывая критические детали в процессе выполнения или сильно полагаясь на человеческий труд. Чтобы решить эту проблему, Meta ввела концепцию "Agent-as-a-Judge", которая использует агенты для оценки других агентов, делая процесс оценки более гибким и автоматизированным.

Ключевые Исследователи и Их Вклад

Основными авторами этой статьи являются:

Jürgen Schmidhuber : Немецкий компьютерный ученый, известный как отец LSTM.
Tian Yuandong : Директор Исследовательской Группы Meta AI Research Team (FAIR).
Vikas Chandra : Руководитель Лаборатории Искусственного Интеллекта Meta Reality Lab.
Zhuge Mingchen : Стажер-исследователь в Meta и кандидат на степень PhD в Университете Короля Абдуллы Науки и Технологий (KAUST).
Zechun Li : Исследователь-ученый в Meta Reality Lab.
Yunyang Xiong : Старший исследователь-ученый в Meta Reality Lab.

Фон и Мотивация

Текущие Тенденции

В прошлом году крупные технологические компании запустили свои агентные приложения, такие как Copilot от Microsoft и Apple Intelligence от Apple. В этом году Meta представила свои умные очки Orion, интегрированные с Llama 3.2, и обновленный Quest 3S на конференции Connect 2024, указывая на то, что агенты быстро проникают в различные области применения внутри Meta.

Проблемы с Существующими Методами Оценки

Традиционные методы оценки агентов имеют несколько проблем:

Фокус на Конечных Результатах : Они не учитывают критические шаги в выполнении задач.
Отсутствие МеханизмовIntermediate Обратной Связи : Они не могут точно оценить каждую стадию выполнения задач.
Сильная Зависимость от Человеческого Труда : Ручные оценки требуют значительного времени и стоимости.

Фреймворк Agent-as-a-Judge

Обзор Фреймворка

Фреймворк Agent-as-a-Judge основан на модели LLM-as-a-Judge и добавляет функциональность intermediate обратной связи. Это обеспечивает точную оценку и оптимизацию каждой стадии задачи, эффективно имитируя человеческую обратную связь.

Экспериментальные Результаты

Эксперименты показывают, что этот фреймворк соответствует человеческим экспертам на уровне 90,44%, значительно превосходя уровень соответствия LLM-as-a-Judge в 70,76%. Кроме того, Agent-as-a-Judge выполняет задачи всего за 118,43 минуты по сравнению с 86,5 часами, необходимыми для человеческих оценок, что значительно экономит время и стоимость.

Набор Данных DevAI

Чтобы решить существующие проблемы бенчмарков и предоставить платформу для тестирования Agent-as-a-Judge, исследователи ввели набор данных DevAI. DevAI включает 55 реальных автоматизированных задач разработки ИИ, каждая из которых содержит запросы пользователей, 365 требований задач и 125 критериев предпочтения.

Эффективность и Потенциал

Анализ Экономической Эффективности

Agent-as-a-Judge значительно улучшает эффективность, демонстрируя высокую экономическую эффективность. Общая стоимость оценки 55 задач составляет всего $30,58, в среднем $0,55 за задачу.

Заполнение Пробелов Обратной Связи

Текущие методы оценки агентов обычно не имеют механизмов intermediate обратной связи и фокусируются только на конечных результатах. Предоставляя intermediate обратную связь, Agent-as-a-Judge заполняет этот пробел, позволяя агентам выявлять и исправлять проблемы в реальном времени при решении сложных задач.

Тенденции в Промышленности с Cognition AI

Cognition AI недавно получила финансирование для принятия аналогичного подхода - использования агентов для оценки других агентов, указывая на то, что эта концепция становится важной тенденцией в промышленности.

Вывод и Перспектива

В заключение, фреймворк Agent-as-a-Judge вводит механизмы intermediate обратной связи и эффективную автоматизированную оценку, повышая точность и эффективность оценки агентов. Он демонстрирует широкие перспективы развития в области ИИ. С постоянной итерацией и улучшением этот фреймворк готов стать значительной движущей силой в развитии технологий ИИ.