Naukowcy z Uniwersytetu Zjednoczonych Emiratów Arabskich i Uniwersytetu Khalifa zaprezentowali UAVBench, innowacyjny test porównawczy o otwartym kodzie źródłowym, zaprojektowany w celu kompleksowej oceny możliwości rozumowania dużych modeli językowych (LLM) sterujących autonomicznymi dronami. Zbiór danych obejmuje 50 000 zatwierdzonych scenariuszy lotów zaprojektowanych w celu oceny wydajności sztucznej inteligencji w kluczowych obszarach, takich jak planowanie misji, postrzeganie środowiska i bezpieczne podejmowanie decyzji.
Dlaczego to ma znaczenie: Ponieważ drony w coraz większym stopniu polegają na sztucznej inteligencji w rzeczywistych zastosowaniach – od monitorowania pożarów, przez poszukiwania i ratownictwo po usługi dostawcze – nie ma ujednoliconej metody oceny jakości ich rozumowania. UAVBench wypełnia tę lukę, udostępniając wielkoskalowy, oparty na fizyce zbiór danych, który odzwierciedla złożoność lotów dronami, w tym dynamiczne środowiska i ograniczenia bezpieczeństwa.
Kluczowe funkcje UAVBench
Referencyjny zbiór danych wykorzystuje wskazówki oparte na taksonomii do generowania realistycznych scenariuszy, z których każdy jest zakodowany w ustrukturyzowanym formacie JSON. Scenariusze te obejmują:
- Cele misji: Jasne cele lotu drona.
- Konfiguracja pojazdu: Konkretne modele dronów i ich możliwości.
- Warunki środowiskowe: Realistyczna pogoda, oświetlenie i teren.
- Ilościowe znaczniki ryzyka: Mierzalne zagrożenia bezpieczeństwa według kategorii, takich jak pogoda, nawigacja i unikanie kolizji.
Rozszerzenie towarzyszące UAVBench_MCQ przekształca scenariusze w 50 000 problemów wielokrotnego wyboru obejmujących dziesięć kluczowych obszarów:
- Aerodynamika i fizyka
- Nawigacja i planowanie tras
- Polityka i zgodność
- Postrzeganie środowiska
- Koordynacja systemów wieloagentowych
- Bezpieczeństwo cyberfizyczne
- Zarządzanie energią
- Etyczne podejmowanie decyzji
- Systemy porównawcze
- Zintegrowane rozumowanie hybrydowe
Ocena wydajności wiodących LLM
Badacze przetestowali 32 najnowocześniejsze rozwiązania LLM, w tym GPT-5 i ChatGPT 4o firmy OpenAI, Gemini 2.5 Flash firmy Google, DeepSeek V3, Qwen3 235B firmy Alibaba i ERNIE 4.5 300B. Chociaż wiodące modele wykazały dobre wyniki w postrzeganiu i rozumowaniu związanym z polityką, nadal wyzwania dotyczą podejmowania decyzji ze świadomością etyczną i ograniczonymi zasobami.
Każdy scenariusz przechodzi wieloetapowe testy walidacyjne w celu zapewnienia spójności fizycznej, dokładności geometrycznej i oceny ryzyka bezpieczeństwa w różnych kontekstach operacyjnych. Pojedyncza struktura integruje dynamikę symulacji, konfigurację pojazdu, warunki środowiskowe, cele misji i ograniczenia bezpieczeństwa, zapewniając kompatybilność między aplikacjami.
Zjednoczone Emiraty Arabskie jako globalne miejsce testowe systemów autonomicznych
Wydanie UAVBench podkreśla rosnącą rolę Zjednoczonych Emiratów Arabskich jako światowego lidera w badaniach i wdrażaniu systemów autonomicznych. Abu Zabi obsługuje największą w regionie komercyjną sieć robotxi, która do października 2025 r. przewiezie ponad 800 000 pasażerokilometrów.
Zjednoczone Emiraty Arabskie promują również wdrażanie taksówek powietrznych wraz z twórcami eVTOL, takimi jak Archer, eHang i Joby Aviation, przy czym loty testowe już trwają przed planowanymi usługami w 2026 r. Generalny Urząd Lotnictwa Cywilnego ZEA stworzył specjalne ramy regulacyjne dla operacji eVTOL, mając na celu pełną integrację pionową do 2030 r.
Wniosek: UAVBench stanowi znaczący krok naprzód w ocenie niezawodności i bezpieczeństwa dronów AI. Zapewniając ustandaryzowany, oparty na fizyce punkt odniesienia, badacze i programiści mogą teraz kompleksowo ocenić możliwości rozumowania LLM w złożonych środowiskach powietrznych, torując drogę do bardziej niezawodnych i godnych zaufania systemów autonomicznych.
