Исследователи из Университета Объединенных Арабских Эмиратов и Университета Халифа представили UAVBench — новаторский эталон с открытым исходным кодом, предназначенный для всесторонней оценки возможностей рассуждения больших языковых моделей (LLM), управляющих автономными дронами. Набор данных включает в себя 50 000 проверенных сценариев полета, разработанных для оценки производительности ИИ в критически важных областях, таких как планирование миссий, восприятие окружающей среды и принятие безопасных решений.
Почему Это Важно: По мере того, как дроны все больше полагаются на ИИ в реальных приложениях — от мониторинга лесных пожаров и поисково-спасательных операций до служб доставки — отсутствовал стандартизированный метод оценки качества их рассуждений. UAVBench устраняет этот пробел, предоставляя масштабный, физически обоснованный набор данных, который отражает сложность полетов на дронах, включая динамичную среду и ограничения безопасности.
Ключевые Особенности UAVBench
Эталонный набор данных использует таксономически управляемые подсказки для создания реалистичных сценариев, каждый из которых закодирован в структурированном формате JSON. Эти сценарии включают в себя:
- Цели Миссии: Четкие цели для полета дрона.
- Конфигурация Транспортного Средства: Конкретные модели дронов и их возможности.
- Условия Окружающей Среды: Реалистичная погода, освещение и местность.
- Количественные Метки Риска: Измеримые риски безопасности по категориям, таким как погода, навигация и предотвращение столкновений.
Сопутствующее расширение, UAVBench_MCQ, преобразует сценарии в 50 000 задач с множественным выбором, охватывающих десять ключевых областей:
- Аэродинамика и Физика
- Навигация и Планирование Маршрута
- Политика и Соответствие Нормам
- Восприятие Окружающей Среды
- Координация Многоагентных Систем
- Киберфизическая Безопасность
- Управление Энергией
- Этическое Принятие Решений
- Сравнительные Системы
- Гибридное Интегрированное Рассуждение
Оценка Производительности Ведущих LLM
Исследователи протестировали 32 передовых LLM, включая GPT-5 и ChatGPT 4o от OpenAI, Gemini 2.5 Flash от Google, DeepSeek V3, Qwen3 235B от Alibaba и ERNIE 4.5 300B. Хотя ведущие модели продемонстрировали высокую производительность в восприятии и рассуждениях, связанных с политикой, проблемы остаются в этически осознанном и ограниченном ресурсами принятии решений.
Каждый сценарий проходит многоэтапную проверку достоверности, гарантирующую физическую согласованность, геометрическую точность и оценку рисков с учетом безопасности в различных операционных контекстах. Единая схема интегрирует динамику моделирования, конфигурацию транспортного средства, условия окружающей среды, цели миссии и ограничения безопасности, обеспечивая совместимость между приложениями.
ОАЭ как Глобальный Полигон для Автономных Систем
Выпуск UAVBench подчеркивает растущую роль Объединенных Арабских Эмиратов в качестве мирового лидера в исследованиях и развертывании автономных систем. Абу-Даби управляет крупнейшей в регионе сетью коммерческих роботакси, которая к октябрю 2025 года накопит более 800 000 километров в пассажирских перевозках.
ОАЭ также продвигают развертывание воздушных такси с разработчиками eVTOL, такими как Archer, eHang и Joby Aviation, с испытательными полетами, которые уже проводятся в преддверии запланированных услуг в 2026 году. Генеральное управление гражданской авиации ОАЭ создало специальные нормативные рамки для операций eVTOL, нацеленные на полную вертикальную интеграцию к 2030 году.
Заключение: UAVBench представляет собой значительный шаг вперед в оценке надежности и безопасности дронов с искусственным интеллектом. Предоставляя стандартизированный, физически обоснованный эталон, исследователи и разработчики теперь могут всесторонне оценить возможности рассуждения LLM в сложных воздушных средах, прокладывая путь к более надежным и заслуживающим доверия автономным системам.


















































