Nowy punkt odniesienia do testowania rozumowania AI w dronach: 50 000 scenariuszy

25

Naukowcy z Uniwersytetu Zjednoczonych Emiratów Arabskich i Uniwersytetu Khalifa zaprezentowali UAVBench, innowacyjny test porównawczy o otwartym kodzie źródłowym, zaprojektowany w celu kompleksowej oceny możliwości rozumowania dużych modeli językowych (LLM) sterujących autonomicznymi dronami. Zbiór danych obejmuje 50 000 zatwierdzonych scenariuszy lotów zaprojektowanych w celu oceny wydajności sztucznej inteligencji w kluczowych obszarach, takich jak planowanie misji, postrzeganie środowiska i bezpieczne podejmowanie decyzji.

Dlaczego to ma znaczenie: Ponieważ drony w coraz większym stopniu polegają na sztucznej inteligencji w rzeczywistych zastosowaniach – od monitorowania pożarów, przez poszukiwania i ratownictwo po usługi dostawcze – nie ma ujednoliconej metody oceny jakości ich rozumowania. UAVBench wypełnia tę lukę, udostępniając wielkoskalowy, oparty na fizyce zbiór danych, który odzwierciedla złożoność lotów dronami, w tym dynamiczne środowiska i ograniczenia bezpieczeństwa.

Kluczowe funkcje UAVBench

Referencyjny zbiór danych wykorzystuje wskazówki oparte na taksonomii do generowania realistycznych scenariuszy, z których każdy jest zakodowany w ustrukturyzowanym formacie JSON. Scenariusze te obejmują:

  • Cele misji: Jasne cele lotu drona.
  • Konfiguracja pojazdu: Konkretne modele dronów i ich możliwości.
  • Warunki środowiskowe: Realistyczna pogoda, oświetlenie i teren.
  • Ilościowe znaczniki ryzyka: Mierzalne zagrożenia bezpieczeństwa według kategorii, takich jak pogoda, nawigacja i unikanie kolizji.

Rozszerzenie towarzyszące UAVBench_MCQ przekształca scenariusze w 50 000 problemów wielokrotnego wyboru obejmujących dziesięć kluczowych obszarów:

  1. Aerodynamika i fizyka
  2. Nawigacja i planowanie tras
  3. Polityka i zgodność
  4. Postrzeganie środowiska
  5. Koordynacja systemów wieloagentowych
  6. Bezpieczeństwo cyberfizyczne
  7. Zarządzanie energią
  8. Etyczne podejmowanie decyzji
  9. Systemy porównawcze
  10. Zintegrowane rozumowanie hybrydowe

Ocena wydajności wiodących LLM

Badacze przetestowali 32 najnowocześniejsze rozwiązania LLM, w tym GPT-5 i ChatGPT 4o firmy OpenAI, Gemini 2.5 Flash firmy Google, DeepSeek V3, Qwen3 235B firmy Alibaba i ERNIE 4.5 300B. Chociaż wiodące modele wykazały dobre wyniki w postrzeganiu i rozumowaniu związanym z polityką, nadal wyzwania dotyczą podejmowania decyzji ze świadomością etyczną i ograniczonymi zasobami.

Każdy scenariusz przechodzi wieloetapowe testy walidacyjne w celu zapewnienia spójności fizycznej, dokładności geometrycznej i oceny ryzyka bezpieczeństwa w różnych kontekstach operacyjnych. Pojedyncza struktura integruje dynamikę symulacji, konfigurację pojazdu, warunki środowiskowe, cele misji i ograniczenia bezpieczeństwa, zapewniając kompatybilność między aplikacjami.

Zjednoczone Emiraty Arabskie jako globalne miejsce testowe systemów autonomicznych

Wydanie UAVBench podkreśla rosnącą rolę Zjednoczonych Emiratów Arabskich jako światowego lidera w badaniach i wdrażaniu systemów autonomicznych. Abu Zabi obsługuje największą w regionie komercyjną sieć robotxi, która do października 2025 r. przewiezie ponad 800 000 pasażerokilometrów.

Zjednoczone Emiraty Arabskie promują również wdrażanie taksówek powietrznych wraz z twórcami eVTOL, takimi jak Archer, eHang i Joby Aviation, przy czym loty testowe już trwają przed planowanymi usługami w 2026 r. Generalny Urząd Lotnictwa Cywilnego ZEA stworzył specjalne ramy regulacyjne dla operacji eVTOL, mając na celu pełną integrację pionową do 2030 r.

Wniosek: UAVBench stanowi znaczący krok naprzód w ocenie niezawodności i bezpieczeństwa dronów AI. Zapewniając ustandaryzowany, oparty na fizyce punkt odniesienia, badacze i programiści mogą teraz kompleksowo ocenić możliwości rozumowania LLM w złożonych środowiskach powietrznych, torując drogę do bardziej niezawodnych i godnych zaufania systemów autonomicznych.