Dengan mengamati manusia, robot belajar melakukan tugas-tugas kompleks, seperti mengatur meja – Sains Terkini

Pelatihan robot interaktif mungkin suatu hari menjadi pekerjaan yang mudah bagi semua orang, bahkan mereka yang tidak memiliki keahlian pemrograman. Roboticists sedang mengembangkan robot otomatis yang dapat mempelajari tugas-tugas baru hanya dengan mengamati manusia. Di rumah, suatu hari Anda mungkin menunjukkan robot domestik bagaimana melakukan pekerjaan rutin. Di tempat kerja, Anda bisa melatih robot seperti karyawan baru, menunjukkan kepada mereka cara melakukan banyak tugas.

Membuat kemajuan pada visi itu, para peneliti MIT telah merancang sebuah sistem yang memungkinkan jenis robot ini mempelajari tugas-tugas rumit yang jika tidak akan menghalangi mereka dengan terlalu banyak aturan yang membingungkan. Salah satu tugas tersebut adalah mengatur meja makan di bawah kondisi tertentu.

Pada intinya, sistem "Perencanaan dengan Spesifikasi Tidak Tertentu" (PUnS) para peneliti memberi robot kemampuan perencanaan yang mirip manusia untuk secara bersamaan menimbang banyak persyaratan yang ambigu – dan berpotensi kontradiktif – untuk mencapai tujuan akhir. Dengan demikian, sistem selalu memilih tindakan yang paling mungkin diambil, berdasarkan pada "kepercayaan" tentang beberapa spesifikasi yang mungkin untuk tugas yang seharusnya dilakukan.

Dalam karya mereka, para peneliti menyusun set data dengan informasi tentang bagaimana delapan objek – gelas, gelas, sendok, garpu, pisau, piring makan, piring kecil, dan mangkuk – dapat diletakkan di atas meja dalam berbagai konfigurasi. Lengan robot pertama kali mengamati demonstrasi manusia yang dipilih secara acak untuk mengatur meja dengan benda-benda. Kemudian, para peneliti menugaskan lengan dengan secara otomatis mengatur meja dalam konfigurasi tertentu, dalam eksperimen dunia nyata dan dalam simulasi, berdasarkan apa yang telah dilihatnya.

Agar berhasil, robot harus menimbang banyak kemungkinan penempatan penempatan, bahkan ketika barang sengaja dihapus, ditumpuk, atau disembunyikan. Biasanya, semua itu akan membingungkan robot terlalu banyak. Tetapi robot para peneliti tidak membuat kesalahan selama beberapa percobaan di dunia nyata, dan hanya beberapa kesalahan selama puluhan ribu tes berjalan yang disimulasikan.

"Visinya adalah menempatkan pemrograman di tangan para ahli domain, yang dapat memprogram robot melalui cara-cara intuitif, daripada mendeskripsikan pesanan kepada seorang insinyur untuk ditambahkan ke kode mereka," kata penulis pertama Ankit Shah, seorang mahasiswa pascasarjana di Departemen Aeronautics dan Astronautika (AeroAstro) dan Kelompok Robotika Interaktif, yang menekankan bahwa pekerjaan mereka hanyalah satu langkah dalam memenuhi visi itu. "Dengan begitu, robot tidak perlu melakukan tugas yang diprogram sebelumnya. Pekerja pabrik dapat mengajarkan robot untuk melakukan beberapa tugas perakitan yang rumit. Robot domestik dapat belajar cara menumpuk lemari, memuat mesin cuci piring, atau mengatur meja dari orang-orang di rumah. "

Bergabung dengan Shah di atas kertas adalah mahasiswa pascasarjana AeroAstro dan Interactive Robotics Group Shen Li dan pemimpin Interactive Robotics Group Julie Shah, seorang profesor di AeroAstro dan Laboratorium Ilmu Komputer dan Kecerdasan Buatan.

Taruhan lindung nilai bot

Robot adalah perencana yang baik dalam tugas dengan "spesifikasi" yang jelas, yang membantu menggambarkan tugas yang harus dipenuhi robot, dengan mempertimbangkan tindakan, lingkungan, dan tujuan akhir. Belajar mengatur meja dengan mengamati demonstrasi, penuh dengan spesifikasi yang tidak pasti. Barang-barang harus ditempatkan di tempat-tempat tertentu, tergantung pada menu dan tempat tamu duduk, dan dalam pesanan tertentu, tergantung pada ketersediaan langsung atau konvensi sosial. Pendekatan perencanaan saat ini tidak mampu menangani spesifikasi yang tidak pasti.

Pendekatan populer untuk perencanaan adalah "penguatan pembelajaran," teknik pembelajaran mesin coba-dan-kesalahan yang memberikan penghargaan dan menghukum mereka untuk tindakan saat mereka bekerja untuk menyelesaikan tugas. Tetapi untuk tugas dengan spesifikasi yang tidak pasti, sulit untuk menentukan imbalan dan penalti yang jelas. Singkatnya, robot tidak pernah sepenuhnya belajar benar dan salah.

Sistem para peneliti, yang disebut PUnS (untuk Perencanaan dengan Spesifikasi yang Tidak Pasti), memungkinkan robot untuk memegang "kepercayaan" pada berbagai spesifikasi yang mungkin. Keyakinan itu sendiri kemudian dapat digunakan untuk memberikan imbalan dan hukuman. "Robot itu pada dasarnya melakukan lindung nilai dalam hal apa yang dimaksudkan dalam suatu tugas, dan mengambil tindakan yang memuaskan keyakinannya, alih-alih kami memberikannya spesifikasi yang jelas," kata Ankit Shah.

Sistem ini dibangun di atas "linear temporal logic" (LTL), bahasa ekspresif yang memungkinkan penalaran robot tentang hasil saat ini dan masa depan. Para peneliti mendefinisikan templat dalam LTL yang memodelkan berbagai kondisi berbasis waktu, seperti apa yang harus terjadi sekarang, pada akhirnya harus terjadi, dan harus terjadi hingga sesuatu yang lain terjadi. Pengamatan robot terhadap 30 demonstrasi manusia untuk mengatur meja menghasilkan distribusi probabilitas lebih dari 25 formula LTL yang berbeda. Setiap formula menyandikan preferensi yang sedikit berbeda – atau spesifikasi – untuk mengatur tabel. Distribusi probabilitas itu menjadi keyakinannya.

"Setiap formula mengkodekan sesuatu yang berbeda, tetapi ketika robot mempertimbangkan berbagai kombinasi dari semua template, dan mencoba untuk memuaskan semuanya bersama, akhirnya melakukan hal yang benar pada akhirnya," kata Ankit Shah.

Kriteria berikut

Para peneliti juga mengembangkan beberapa kriteria yang memandu robot untuk memuaskan seluruh kepercayaan terhadap formula kandidat tersebut. Satu, misalnya, memenuhi formula yang paling mungkin, yang membuang semua yang lain selain dari template dengan probabilitas tertinggi. Yang lain memuaskan sejumlah besar formula unik, tanpa mempertimbangkan probabilitas keseluruhannya, atau mereka memenuhi beberapa formula yang mewakili probabilitas total tertinggi. Lain hanya meminimalkan kesalahan, sehingga sistem mengabaikan rumus dengan probabilitas kegagalan yang tinggi.

Desainer dapat memilih salah satu dari empat kriteria yang akan ditetapkan sebelum pelatihan dan pengujian. Masing-masing memiliki tradeoff sendiri antara fleksibilitas dan penghindaran risiko. Pilihan kriteria sepenuhnya tergantung pada tugas. Dalam situasi kritis keselamatan, misalnya, seorang desainer dapat memilih untuk membatasi kemungkinan kegagalan. Tetapi di mana konsekuensi dari kegagalan tidak separah ini, desainer dapat memilih untuk memberi robot fleksibilitas yang lebih besar untuk mencoba pendekatan yang berbeda.

Dengan kriteria yang ada, para peneliti mengembangkan algoritma untuk mengubah keyakinan robot – distribusi probabilitas yang menunjuk pada formula yang diinginkan – menjadi masalah pembelajaran penguatan yang setara. Model ini akan melakukan ping robot dengan hadiah atau penalti untuk tindakan yang diambil, berdasarkan spesifikasi yang diputuskan untuk diikuti.

Dalam simulasi meminta robot untuk mengatur meja dalam konfigurasi yang berbeda, itu hanya membuat enam kesalahan dari 20.000 percobaan. Dalam demonstrasi dunia nyata, itu menunjukkan perilaku yang mirip dengan bagaimana manusia akan melakukan tugas itu. Jika item awalnya tidak terlihat, misalnya, robot akan menyelesaikan pengaturan sisa tabel tanpa item. Kemudian, ketika garpu terungkap, itu akan mengatur garpu di tempat yang tepat. "Di situlah fleksibilitas sangat penting," kata Shah. "Kalau tidak, itu akan macet ketika mengharapkan untuk menempatkan garpu dan tidak menyelesaikan sisa pengaturan meja."

Selanjutnya, para peneliti berharap untuk memodifikasi sistem untuk membantu robot mengubah perilaku mereka berdasarkan instruksi lisan, koreksi, atau penilaian pengguna terhadap kinerja robot. "Katakanlah seseorang mendemonstrasikan kepada robot cara mengatur meja di satu tempat saja. Orang itu mungkin berkata, 'lakukan hal yang sama untuk semua tempat lain,' atau, 'tempatkan pisau di depan garpu di sini sebagai gantinya,'" kata Shah . "Kami ingin mengembangkan metode agar sistem beradaptasi secara alami untuk menangani perintah verbal itu, tanpa perlu demonstrasi tambahan."

You may also like...

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.