Nový benchmark pro testování AI uvažování v dronech: 50 000 scénářů

21

Výzkumníci z Univerzity Spojených arabských emirátů a Khalifa University představili UAVBench, inovativní open-source benchmark navržený ke komplexnímu vyhodnocení rozumových schopností velkých jazykových modelů (LLM) řídících autonomní drony. Soubor dat obsahuje 50 000 ověřených letových scénářů navržených k vyhodnocení výkonu umělé inteligence v kritických oblastech, jako je plánování mise, vnímání životního prostředí a bezpečné rozhodování.

Proč na tom záleží: Vzhledem k tomu, že drony stále více spoléhají na AI v aplikacích v reálném světě – od monitorování lesních požárů a vyhledávání a záchrany až po doručovací služby – neexistuje žádná standardizovaná metoda pro hodnocení kvality jejich uvažování. UAVBench překlenuje tuto mezeru tím, že poskytuje rozsáhlou, fyzicky založenou datovou sadu, která odráží složitost letů dronů, včetně dynamických prostředí a bezpečnostních omezení.

Klíčové vlastnosti UAVBench

Referenční datová sada používá taxonomicky řízené rady ke generování realistických scénářů, z nichž každý je zakódován ve strukturovaném formátu JSON. Mezi tyto scénáře patří:

  • Cíle mise: Jasné cíle pro let dronu.
  • Konfigurace vozidla: Konkrétní modely dronů a jejich schopnosti.
  • Podmínky prostředí: Realistické počasí, osvětlení a terén.
  • Značky kvantitativního rizika: Měřitelná bezpečnostní rizika podle kategorií, jako je počasí, navigace a předcházení kolizím.

Doprovodné rozšíření UAVBench_MCQ převádí scénáře na 50 000 problémů s více možnostmi pokrývající deset klíčových oblastí:

  1. Aerodynamika a fyzika
  2. Navigace a plánování trasy
  3. Zásady a dodržování předpisů
  4. Vnímání prostředí
  5. Koordinace multiagentních systémů
  6. Kybernetická fyzická bezpečnost
  7. Energetický management
  8. Etické rozhodování
  9. Srovnávací systémy
  10. Hybridní integrované uvažování

Hodnocení výkonu předních LLM

Výzkumníci testovali 32 špičkových LLM, včetně OpenAI GPT-5 a ChatGPT 4o, Google Gemini 2.5 Flash, DeepSeek V3, Alibaba Qwen3 235B a ERNIE 4.5 300B. Přestože přední modely prokázaly vysokou výkonnost ve vnímání a uvažování souvisejících s politikou, problémy přetrvávají v rozhodování s eticky uvědomělým a omezeným zdrojem.

Každý scénář prochází vícestupňovým ověřovacím testováním, aby byla zajištěna fyzická konzistence, geometrická přesnost a hodnocení bezpečnostních rizik v různých provozních kontextech. Jediný rámec integruje dynamiku simulace, konfiguraci vozidla, podmínky prostředí, cíle mise a bezpečnostní omezení a zajišťuje kompatibilitu mezi aplikacemi.

Spojené arabské emiráty jako globální testovací místo pro autonomní systémy

Vydání UAVBench zdůrazňuje rostoucí roli Spojených arabských emirátů jako globálního lídra ve výzkumu a zavádění autonomních systémů. Abu Dhabi provozuje největší komerční síť robotaxi v regionu, která do října 2025 nashromáždí více než 800 000 osobokilometrů.

Spojené arabské emiráty také podporují nasazení leteckých taxíků s vývojáři eVTOL, jako jsou Archer, eHang a Joby Aviation, přičemž testovací lety již probíhají před plánovanými službami v roce 2026. Úřad pro všeobecné civilní letectví Spojených arabských emirátů vytvořil vyhrazený regulační rámec pro provoz eVTOL, jehož cílem je plná vertikální integrace do roku 2030.

Závěr: UAVBench představuje významný krok vpřed v hodnocení spolehlivosti a bezpečnosti AI dronů. Poskytnutím standardizovaného, ​​fyzicky založeného benchmarku mohou nyní výzkumníci a vývojáři komplexně vyhodnotit schopnosti LLM uvažování ve složitých vzdušných prostředích, čímž dláždí cestu ke spolehlivějším a důvěryhodnějším autonomním systémům.