Výzkumníci z Univerzity Spojených arabských emirátů a Khalifa University představili UAVBench, inovativní open-source benchmark navržený ke komplexnímu vyhodnocení rozumových schopností velkých jazykových modelů (LLM) řídících autonomní drony. Soubor dat obsahuje 50 000 ověřených letových scénářů navržených k vyhodnocení výkonu umělé inteligence v kritických oblastech, jako je plánování mise, vnímání životního prostředí a bezpečné rozhodování.
Proč na tom záleží: Vzhledem k tomu, že drony stále více spoléhají na AI v aplikacích v reálném světě – od monitorování lesních požárů a vyhledávání a záchrany až po doručovací služby – neexistuje žádná standardizovaná metoda pro hodnocení kvality jejich uvažování. UAVBench překlenuje tuto mezeru tím, že poskytuje rozsáhlou, fyzicky založenou datovou sadu, která odráží složitost letů dronů, včetně dynamických prostředí a bezpečnostních omezení.
Klíčové vlastnosti UAVBench
Referenční datová sada používá taxonomicky řízené rady ke generování realistických scénářů, z nichž každý je zakódován ve strukturovaném formátu JSON. Mezi tyto scénáře patří:
- Cíle mise: Jasné cíle pro let dronu.
- Konfigurace vozidla: Konkrétní modely dronů a jejich schopnosti.
- Podmínky prostředí: Realistické počasí, osvětlení a terén.
- Značky kvantitativního rizika: Měřitelná bezpečnostní rizika podle kategorií, jako je počasí, navigace a předcházení kolizím.
Doprovodné rozšíření UAVBench_MCQ převádí scénáře na 50 000 problémů s více možnostmi pokrývající deset klíčových oblastí:
- Aerodynamika a fyzika
- Navigace a plánování trasy
- Zásady a dodržování předpisů
- Vnímání prostředí
- Koordinace multiagentních systémů
- Kybernetická fyzická bezpečnost
- Energetický management
- Etické rozhodování
- Srovnávací systémy
- Hybridní integrované uvažování
Hodnocení výkonu předních LLM
Výzkumníci testovali 32 špičkových LLM, včetně OpenAI GPT-5 a ChatGPT 4o, Google Gemini 2.5 Flash, DeepSeek V3, Alibaba Qwen3 235B a ERNIE 4.5 300B. Přestože přední modely prokázaly vysokou výkonnost ve vnímání a uvažování souvisejících s politikou, problémy přetrvávají v rozhodování s eticky uvědomělým a omezeným zdrojem.
Každý scénář prochází vícestupňovým ověřovacím testováním, aby byla zajištěna fyzická konzistence, geometrická přesnost a hodnocení bezpečnostních rizik v různých provozních kontextech. Jediný rámec integruje dynamiku simulace, konfiguraci vozidla, podmínky prostředí, cíle mise a bezpečnostní omezení a zajišťuje kompatibilitu mezi aplikacemi.
Spojené arabské emiráty jako globální testovací místo pro autonomní systémy
Vydání UAVBench zdůrazňuje rostoucí roli Spojených arabských emirátů jako globálního lídra ve výzkumu a zavádění autonomních systémů. Abu Dhabi provozuje největší komerční síť robotaxi v regionu, která do října 2025 nashromáždí více než 800 000 osobokilometrů.
Spojené arabské emiráty také podporují nasazení leteckých taxíků s vývojáři eVTOL, jako jsou Archer, eHang a Joby Aviation, přičemž testovací lety již probíhají před plánovanými službami v roce 2026. Úřad pro všeobecné civilní letectví Spojených arabských emirátů vytvořil vyhrazený regulační rámec pro provoz eVTOL, jehož cílem je plná vertikální integrace do roku 2030.
Závěr: UAVBench představuje významný krok vpřed v hodnocení spolehlivosti a bezpečnosti AI dronů. Poskytnutím standardizovaného, fyzicky založeného benchmarku mohou nyní výzkumníci a vývojáři komplexně vyhodnotit schopnosti LLM uvažování ve složitých vzdušných prostředích, čímž dláždí cestu ke spolehlivějším a důvěryhodnějším autonomním systémům.

















































