Новый Эталон для Тестирования Рассуждений ИИ в Дронах: 50 000 Сценариев

12

Исследователи из Университета Объединенных Арабских Эмиратов и Университета Халифа представили UAVBench — новаторский эталон с открытым исходным кодом, предназначенный для всесторонней оценки возможностей рассуждения больших языковых моделей (LLM), управляющих автономными дронами. Набор данных включает в себя 50 000 проверенных сценариев полета, разработанных для оценки производительности ИИ в критически важных областях, таких как планирование миссий, восприятие окружающей среды и принятие безопасных решений.

Почему Это Важно: По мере того, как дроны все больше полагаются на ИИ в реальных приложениях — от мониторинга лесных пожаров и поисково-спасательных операций до служб доставки — отсутствовал стандартизированный метод оценки качества их рассуждений. UAVBench устраняет этот пробел, предоставляя масштабный, физически обоснованный набор данных, который отражает сложность полетов на дронах, включая динамичную среду и ограничения безопасности.

Ключевые Особенности UAVBench

Эталонный набор данных использует таксономически управляемые подсказки для создания реалистичных сценариев, каждый из которых закодирован в структурированном формате JSON. Эти сценарии включают в себя:

  • Цели Миссии: Четкие цели для полета дрона.
  • Конфигурация Транспортного Средства: Конкретные модели дронов и их возможности.
  • Условия Окружающей Среды: Реалистичная погода, освещение и местность.
  • Количественные Метки Риска: Измеримые риски безопасности по категориям, таким как погода, навигация и предотвращение столкновений.

Сопутствующее расширение, UAVBench_MCQ, преобразует сценарии в 50 000 задач с множественным выбором, охватывающих десять ключевых областей:

  1. Аэродинамика и Физика
  2. Навигация и Планирование Маршрута
  3. Политика и Соответствие Нормам
  4. Восприятие Окружающей Среды
  5. Координация Многоагентных Систем
  6. Киберфизическая Безопасность
  7. Управление Энергией
  8. Этическое Принятие Решений
  9. Сравнительные Системы
  10. Гибридное Интегрированное Рассуждение

Оценка Производительности Ведущих LLM

Исследователи протестировали 32 передовых LLM, включая GPT-5 и ChatGPT 4o от OpenAI, Gemini 2.5 Flash от Google, DeepSeek V3, Qwen3 235B от Alibaba и ERNIE 4.5 300B. Хотя ведущие модели продемонстрировали высокую производительность в восприятии и рассуждениях, связанных с политикой, проблемы остаются в этически осознанном и ограниченном ресурсами принятии решений.

Каждый сценарий проходит многоэтапную проверку достоверности, гарантирующую физическую согласованность, геометрическую точность и оценку рисков с учетом безопасности в различных операционных контекстах. Единая схема интегрирует динамику моделирования, конфигурацию транспортного средства, условия окружающей среды, цели миссии и ограничения безопасности, обеспечивая совместимость между приложениями.

ОАЭ как Глобальный Полигон для Автономных Систем

Выпуск UAVBench подчеркивает растущую роль Объединенных Арабских Эмиратов в качестве мирового лидера в исследованиях и развертывании автономных систем. Абу-Даби управляет крупнейшей в регионе сетью коммерческих роботакси, которая к октябрю 2025 года накопит более 800 000 километров в пассажирских перевозках.

ОАЭ также продвигают развертывание воздушных такси с разработчиками eVTOL, такими как Archer, eHang и Joby Aviation, с испытательными полетами, которые уже проводятся в преддверии запланированных услуг в 2026 году. Генеральное управление гражданской авиации ОАЭ создало специальные нормативные рамки для операций eVTOL, нацеленные на полную вертикальную интеграцию к 2030 году.

Заключение: UAVBench представляет собой значительный шаг вперед в оценке надежности и безопасности дронов с искусственным интеллектом. Предоставляя стандартизированный, физически обоснованный эталон, исследователи и разработчики теперь могут всесторонне оценить возможности рассуждения LLM в сложных воздушных средах, прокладывая путь к более надежным и заслуживающим доверия автономным системам.