Neuer Benchmark testet KI-Denken in Drohnen mit 50.000 Szenarien

11

Forscher der Universität der Vereinigten Arabischen Emirate und der Khalifa-Universität haben UAVBench veröffentlicht, einen bahnbrechenden Open-Source-Benchmark, der die Argumentationsfähigkeiten von Large Language Models (LLMs) zur Steuerung autonomer Drohnen gründlich bewerten soll. Der Datensatz umfasst 50.000 validierte Flugszenarien, die zur Bewertung der KI-Leistung in kritischen Bereichen wie Missionsplanung, Umweltwahrnehmung und sichere Entscheidungsfindung erstellt wurden.

Warum das wichtig ist: Da Drohnen für reale Anwendungen – von der Überwachung von Waldbränden über Such- und Rettungseinsätze bis hin zu Lieferdiensten – zunehmend auf KI angewiesen sind, fehlt eine standardisierte Methode zur Bewertung ihrer Argumentationsqualität. UAVBench schließt diese Lücke, indem es einen großen, physikalisch fundierten Datensatz bereitstellt, der die Komplexität des Drohnenflugs, einschließlich dynamischer Umgebungen und Sicherheitsbeschränkungen, erfasst.

Hauptfunktionen von UAVBench

Der Benchmark-Datensatz nutzt taxonomiegesteuerte Eingabeaufforderung, um realistische Szenarien zu generieren, die jeweils im strukturierten JSON-Format codiert sind. Diese Szenarien umfassen:

  • Missionsziele: Klare Ziele für den Flug der Drohne.
  • Fahrzeugkonfiguration: Spezifische Drohnenmodelle und ihre Fähigkeiten.
  • Umgebungsbedingungen: Realistisches Wetter, Beleuchtung und Gelände.
  • Quantitative Risikokennzeichnungen: Messbare Sicherheitsrisiken in Kategorien wie Wetter, Navigation und Kollisionsvermeidung.

Eine begleitende Erweiterung, UAVBench_MCQ, wandelt die Szenarien in 50.000 Multiple-Choice-Argumentationsaufgaben um, die zehn Schlüsselbereiche abdecken:

  1. Aerodynamik und Physik
  2. Navigation und Pfadplanung
  3. Richtlinien und Compliance
  4. Umweltsensorik
  5. Multi-Agenten-Koordination
  6. Cyber-Physische Sicherheit
  7. Energiemanagement
  8. Ethische Entscheidungsfindung
  9. Vergleichende Systeme
  10. Hybrides integriertes Denken

Leistungsbewertung führender LLMs

Die Forscher testeten 32 hochmoderne LLMs, darunter GPT-5 und ChatGPT 4o von OpenAI, Google Gemini 2.5 Flash, DeepSeek V3, Qwen3 235B von Alibaba und ERNIE 4.5 300B. Während führende Modelle eine starke Leistung bei der Wahrnehmung und dem politischen Denken zeigten, bleiben Herausforderungen bei der ethikbewussten und ressourcenbeschränkten Entscheidungsfindung bestehen.

Jedes Szenario wird mehrstufigen Validierungsprüfungen unterzogen, um physikalische Konsistenz, geometrische Genauigkeit und sicherheitsbewusste Risikobewertung in verschiedenen Betriebskontexten sicherzustellen. Das einheitliche Schema integriert Simulationsdynamik, Fahrzeugkonfiguration, Umgebungsbedingungen, Missionsziele und Sicherheitsbeschränkungen und gewährleistet so die Interoperabilität zwischen Anwendungen.

Die VAE als globales Testfeld für autonome Systeme

Die Veröffentlichung von UAVBench unterstreicht die wachsende Rolle der Vereinigten Arabischen Emirate als globaler Marktführer in der Forschung und Bereitstellung autonomer Systeme. Abu Dhabi betreibt das größte kommerzielle Robotaxi-Netzwerk im Nahen Osten, mit über 800.000 Kilometern im Passagierbetrieb bis Oktober 2025.

Die Vereinigten Arabischen Emirate treiben auch den Einsatz von Lufttaxis mit eVTOL-Entwicklern wie Archer, eHang und Joby Aviation voran, wobei Flugtests bereits im Vorfeld der geplanten Dienste im Jahr 2026 laufen. Die Allgemeine Zivilluftfahrtbehörde der Vereinigten Arabischen Emirate hat spezielle Regulierungsrahmen für den eVTOL-Betrieb geschaffen und strebt eine vollständige vertikale Integration bis 2030 an.

Fazit: UAVBench stellt einen bedeutenden Fortschritt bei der Bewertung der Zuverlässigkeit und Sicherheit von KI-betriebenen Drohnen dar. Durch die Bereitstellung eines standardisierten, physikalisch fundierten Benchmarks können Forscher und Entwickler nun die Argumentationsfähigkeiten von LLMs in komplexen Luftumgebungen genau bewerten und so den Weg für robustere und vertrauenswürdigere autonome Systeme ebnen