Tolok Ukur Baru Menguji Penalaran AI pada Drone dengan 50.000 Skenario

15

Para peneliti dari Universitas Uni Emirat Arab dan Universitas Khalifa telah merilis UAVBench, sebuah tolok ukur sumber terbuka inovatif yang dirancang untuk mengevaluasi secara ketat kemampuan penalaran model bahasa besar (LLM) yang mengendalikan drone otonom. Kumpulan data ini terdiri dari 50.000 skenario penerbangan tervalidasi yang dibuat untuk menilai kinerja AI di berbagai bidang penting seperti perencanaan misi, persepsi lingkungan, dan pengambilan keputusan yang aman.

Mengapa Hal Ini Penting: Ketika drone semakin bergantung pada AI untuk aplikasi di dunia nyata – mulai dari pemantauan kebakaran hutan dan operasi pencarian dan penyelamatan hingga layanan pengiriman – metode standar untuk mengevaluasi kualitas penalaran mereka masih kurang. UAVBench mengatasi kesenjangan ini dengan menyediakan kumpulan data fisik berskala besar yang menangkap kompleksitas penerbangan drone, termasuk lingkungan dinamis dan kendala keselamatan.

Fitur Utama UAVBench

Kumpulan data benchmark menggunakan perintah yang dipandu taksonomi untuk menghasilkan skenario realistis, yang masing-masing dikodekan dalam format JSON terstruktur. Skenario ini mencakup:

  • Tujuan Misi: Tujuan yang jelas untuk penerbangan drone.
  • Konfigurasi Kendaraan: Model drone tertentu dan kemampuannya.
  • Kondisi Lingkungan: Cuaca, pencahayaan, dan medan yang realistis.
  • Label Risiko Kuantitatif: Risiko keselamatan yang terukur di berbagai kategori seperti cuaca, navigasi, dan penghindaran tabrakan.

Ekstensi yang menyertainya, UAVBench_MCQ, mengubah skenario menjadi 50.000 tugas penalaran pilihan ganda yang mencakup sepuluh domain utama:

  1. Aerodinamika dan Fisika
  2. Navigasi dan Perencanaan Jalur
  3. Kebijakan dan Kepatuhan
  4. Penginderaan Lingkungan
  5. Koordinasi Multi-Agen
  6. Keamanan Cyber-Fisik
  7. Manajemen Energi
  8. Pengambilan Keputusan yang Etis
  9. Sistem Komparatif
  10. Penalaran Hibrid Terintegrasi

Evaluasi Kinerja LLM Terkemuka

Para peneliti menguji 32 LLM canggih, termasuk GPT-5 dan ChatGPT 4o OpenAI, Google Gemini 2.5 Flash, DeepSeek V3, Qwen3 235B dari Alibaba, dan ERNIE 4.5 300B. Meskipun model-model terkemuka menunjukkan kinerja yang kuat dalam hal persepsi dan pertimbangan kebijakan, tantangannya tetap ada pada pengambilan keputusan yang sadar etika dan terbatas pada sumber daya.

Setiap skenario menjalani pemeriksaan validasi multi-tahap untuk memastikan konsistensi fisik, akurasi geometrik, dan penilaian risiko yang sadar akan keselamatan di berbagai konteks operasional. Skema terpadu mengintegrasikan dinamika simulasi, konfigurasi kendaraan, kondisi lingkungan, tujuan misi, dan batasan keselamatan, memastikan interoperabilitas di seluruh aplikasi.

UEA sebagai Tempat Uji Coba Global untuk Sistem Otonomi

Peluncuran UAVBench menggarisbawahi meningkatnya peran Uni Emirat Arab sebagai pemimpin global dalam penelitian dan penerapan sistem otonom. Abu Dhabi mengoperasikan jaringan robotaxi komersial terbesar di Timur Tengah, dengan akumulasi layanan penumpang lebih dari 800.000 kilometer pada Oktober 2025.

UEA juga memajukan penerapan taksi udara dengan pengembang eVTOL seperti Archer, eHang, dan Joby Aviation, dengan uji penerbangan sudah berlangsung sebelum layanan yang direncanakan pada tahun 2026. Otoritas Penerbangan Sipil Umum UEA telah menetapkan kerangka peraturan khusus untuk pengoperasian eVTOL, dan menargetkan integrasi vertikal penuh pada tahun 2030.

Kesimpulan: UAVBench mewakili langkah maju yang signifikan dalam mengevaluasi keandalan dan keamanan drone bertenaga AI. Dengan memberikan tolok ukur yang terstandarisasi dan berbasis fisik, para peneliti dan pengembang kini dapat menilai secara ketat kemampuan penalaran LLM di lingkungan udara yang kompleks, sehingga membuka jalan bagi sistem otonom yang lebih kuat dan dapat dipercaya.