AI belajar curang di Q * bert dengan cara yang belum pernah dilakukan manusia sebelumnya

AI telah berhasil menipu dengan manusia terbaik yang ditawarkan setelah menemukan eksploitasi dalam game arcade klasik Q * bert dan menjalankannya.

Sementara iterasi sebelumnya dari AI akan memainkan Q * bert dengan benar, pada beberapa titik dalam pembelajarannya tentang cara kerja permainan, ia menemukan eksploitasi yang memungkinkannya mengumpulkan poin gila. Secara alami, seperti yang dilakukan oleh pemain pemburu skor, ia mengulangi proses tersebut sehingga dapat meningkatkan skornya dengan cara yang seefektif mungkin.

Anda dapat melihat AI bekerja di sekitar platform dalam video di bawah ini. Pada awalnya, ini terlihat seperti melompat tanpa tujuan di antara platform. Alih-alih melihat game ini maju ke babak berikutnya, Q * bert terjebak dalam lingkaran di mana semua platformnya mulai berkedip - di sinilah AI kemudian dapat terus menggila dan mengumpulkan poin besar.

BACA BERIKUTNYA: Salah satu rekor permainan paling kontroversial akhirnya didiskreditkan

bagaimana Anda bisa tahu jika ponsel Anda di-root?

Bagaimana AI memenangkan perang Q * bert

Memecahkan rekor sepanjang masa untuk judul tersebut, AI memperoleh skor yang sangat tinggi berkat pemrograman algoritme strategi evolusinya. Strategi evolusi (ES) berbeda dari pembelajaran penguatan (RL) biasa yang digunakan AI tradisional karena dianggap lebih skalabel karena pembelajaran generasinya.

Setiap loop pembelajaran disebut sebagai generasi dan melanjutkan tugasnya sampai kondisi yang ditetapkan terpenuhi (dalam hal ini, skor tinggi). Dengan setiap generasi berturut-turut, AI menyerap pengetahuan dari generasi sebelumnya dan karena itu lebih baik dalam mencapai tujuan yang sama dan melampauinya. Teruskan, dan Anda akan mendapatkan AI yang benar-benar tak tertandingi dalam tugasnya. Persis seperti itulah yang terjadi di sini dengan skor Q * bert.

Diuraikan dalam kertas , diterbitkan minggu lalu oleh para peneliti di Universitas Freiburg, Jerman, tampaknya bug itu bukan kuantitas yang diketahui. Faktanya, meskipun mereka tidak terlalu terkejut menemukan bug tersebut, sangat menarik untuk melihat bagaimana AI kemudian maju dan belajar untuk mengeksploitasinya setiap kali bermain untuk memaksimalkan potensi penilaiannya.

BACA BERIKUTNYA: Kecerdasan buatan ini telah belajar untuk menguasai Super Mario Bros

Untuk menemukan bug tersebut, agen harus terlebih dahulu belajar untuk hampir menyelesaikan level pertama - ini tidak dilakukan sekaligus tetapi menggunakan banyak perbaikan kecil, para peneliti menjelaskan kepada Pendaftaran . Kami menduga bahwa pada suatu titik dalam pelatihan, salah satu solusi turunan menemukan bug dan mendapat skor yang jauh lebih baik dibandingkan dengan saudara kandungnya, yang pada gilirannya meningkatkan kontribusinya pada pembaruan - bobotnya adalah yang tertinggi dalam rata-rata tertimbang. Ini perlahan-lahan memindahkan solusi ke ruang di mana semakin banyak keturunan mulai menemukan bug yang sama.

Kami tidak tahu persis kondisi di mana bug tersebut muncul; ada kemungkinan bahwa itu hanya muncul jika agen mengikuti pola yang tampaknya tidak optimal, [misalnya ketika agen membuang-buang waktu, atau bahkan kehilangan nyawa]. Jika itu masalahnya, maka akan sangat sulit bagi RL standar untuk menemukan bug: jika Anda menggunakan hadiah tambahan, Anda akan mempelajari strategi yang dengan cepat menghasilkan beberapa hadiah, daripada mempelajari strategi yang tidak menghasilkan banyak hadiah untuk sementara waktu dan lalu tiba-tiba menang besar.

Lihat terkait Juara Dragster Todd Rogers baru saja kehilangan mahkotanya setelah 35 tahun Kecerdasan buatan ini telah belajar menguasai Super Mario Bros 1-2 selama 17 hari Tonton AI ini belajar mengemudi di GTA V di Twitch

Namun, terlepas dari hasil bot yang luar biasa, para peneliti tidak mengatakan ini adalah kasus untuk memperjuangkan pembelajaran ES daripada RL. Faktanya, kedua sistem memiliki masalah masing-masing dan kombinasi keduanya sebagian besar dipandang sebagai pilihan terbaik untuk bergerak maju.

Metode ES yang sama pada game Atari lainnya tidak memberikan hasil positif yang hampir sama. Di sisi lain, RL bertanggung jawab untuk memecahkan rekor kiri, kanan dan tengah, termasuk mengalahkan pemain GO terbaik dunia. ES masih memiliki tempatnya sendiri dalam berbagai hal, dan begitulah cara Nvidia melakukan banyak pelatihan AI karena membutuhkan lebih banyak daya komputasi tetapi mencapai hasil yang lebih baik dalam jangka waktu yang lebih lama.

Terlepas dari cara mana yang akan menjadi masa depan untuk pengembangan AI, setidaknya bot yang menipu sistem ini tidak seburuk ini. sekarang juara dunia video game yang dipermalukan .

**AI belajar curang di Q * bert dengan cara yang belum pernah dilakukan manusia sebelumnya**

Bagaimana AI memenangkan perang Q * bert

Artikel Menarik

Ulasan Linksys EA6900

Cara Mengubah Lokasi Anda di Mac

Pilihan Editor

Film & TV dan Aplikasi Cuaca Menerima Ikon Berwarna-warni Baru

Cara Menyimpan Video Dari Facebook

Petunjuk langkah demi langkah tentang cara menyimpan video dari Facebook ke komputer atau perangkat seluler Anda.

Video dan Audio Roku Tidak sinkron – Apa yang Harus Dilakukan

Adalah satu hal untuk subtitle untuk memberikan Usain Bolt pada Anda dan merusak cerita, tetapi itu adalah hal lain untuk audio Anda untuk mendahului video atau sebaliknya. Subtitle dapat dimatikan. Tapi

Ulasan Microsoft Surface Book: Mahal, sangat mahal

Berita terbaru: Surface Book telah keluar selama satu tahun sekarang dan saatnya untuk pembaruan. Microsoft belum membuat perubahan fisik pada desain tablet-cum-laptop pada tahun 2016, meskipun. Layar, keyboard,

Aplikasi Android Microsoft Office All-in-one Tersedia Secara Umum

Cara Mendapatkan Pecahan Legendaris di Destiny 2

Jika Anda baru mengenal Destiny 2, maka ada banyak hal yang perlu Anda pelajari tentang game ini. Bagi mereka yang memainkan Destiny asli, ini akan menjadi jauh lebih mudah. Namun, jika Anda bukan

Chrome secara otomatis akan membuat Grup Tab