Дослідники з Університету Об’єднаних Арабських Еміратів та Університету Халіфа представили UAVBench, інноваційний тест із відкритим вихідним кодом, призначений для комплексної оцінки можливостей міркування великих мовних моделей (LLM), що керують автономними дронами. Набір даних включає 50 000 перевірених сценаріїв польотів, призначених для оцінки продуктивності штучного інтелекту в критичних сферах, таких як планування місії, сприйняття навколишнього середовища та безпечне прийняття рішень.
Чому це важливо. Оскільки дрони все більше покладаються на штучний інтелект у реальних програмах — від моніторингу лісових пожеж і пошуково-рятувальних робіт до служб доставки — не існує стандартизованого методу для оцінки якості їхніх міркувань. UAVBench усуває цю прогалину, надаючи великомасштабний набір фізичних даних, який відображає складність польотів дронів, включаючи динамічне середовище та обмеження безпеки.
Ключові особливості UAVBench
Довідковий набір даних використовує таксономічні підказки для створення реалістичних сценаріїв, кожен з яких закодований у структурованому форматі JSON. Ці сценарії включають:
- Цілі місії: Чіткі цілі для польоту дрона.
- **Конфігурація автомобіля: ** Конкретні моделі дронів та їхні можливості.
- **Умови навколишнього середовища: ** Реалістична погода, освітлення та місцевість.
- Кількісні теги ризику: Вимірні ризики безпеки за категоріями, такими як погода, навігація та уникнення зіткнень.
Супутнє розширення, UAVBench_MCQ, перетворює сценарії на 50 000 задач з множинним вибором, охоплюючи десять ключових областей:
- Аеродинаміка і фізика
- Навігація та планування маршруту
- Політика та відповідність
- Сприйняття навколишнього середовища
- Координація мультиагентних систем
- Кіберфізична безпека
- Енергетичний менеджмент
- Етичне прийняття рішень
- Порівняльні системи
- Гібридне інтегроване міркування
Оцінка ефективності провідних LLM
Дослідники протестували 32 найсучасніші LLMs, включаючи GPT-5 і ChatGPT 4o від OpenAI, Gemini 2.5 Flash від Google, DeepSeek V3, Qwen3 235B від Alibaba та ERNIE 4.5 300B. Незважаючи на те, що провідні моделі продемонстрували високу ефективність у сприйнятті та міркуванні, пов’язаному з політикою, залишаються проблеми у прийнятті рішень з етичною свідомістю та обмеженими ресурсами.
Кожен сценарій проходить багатоетапне перевірочне тестування, щоб забезпечити фізичну узгодженість, геометричну точність і оцінку ризику безпеки в різних робочих контекстах. Єдина структура об’єднує динаміку моделювання, конфігурацію автомобіля, умови навколишнього середовища, цілі місії та обмеження безпеки, забезпечуючи сумісність між програмами.
ОАЕ як глобальний тестовий майданчик для автономних систем
Випуск UAVBench підкреслює зростаючу роль Об’єднаних Арабських Еміратів як світового лідера в дослідженні та розгортанні автономних систем. Абу-Дабі управляє найбільшою в регіоні комерційною мережею робототаксі, яка набере понад 800 000 пасажирських кілометрів до жовтня 2025 року.
ОАЕ також сприяють розгортанню повітряних таксі разом із розробниками eVTOL, такими як Archer, eHang і Joby Aviation, з тестовими польотами, які вже проводяться напередодні запланованих послуг у 2026 році. Головне управління цивільної авіації ОАЕ створило спеціальну нормативну базу для операцій eVTOL з метою повної вертикальної інтеграції до 2030 року.
Висновок: UAVBench є значним кроком вперед в оцінці надійності та безпеки дронів зі штучним інтелектом. Забезпечуючи стандартизований фізичний тест, дослідники та розробники тепер можуть всебічно оцінити здатність LLM міркувати в складних повітряних середовищах, прокладаючи шлях до більш надійних і надійних автономних систем.
