AI telah berhasil menipu dengan manusia terbaik yang ditawarkan setelah menemukan eksploitasi dalam game arcade klasik Q * bert dan menjalankannya.
Sementara iterasi sebelumnya dari AI akan memainkan Q * bert dengan benar, pada beberapa titik dalam pembelajarannya tentang cara kerja permainan, ia menemukan eksploitasi yang memungkinkannya mengumpulkan poin gila. Secara alami, seperti yang dilakukan oleh pemain pemburu skor, ia mengulangi proses tersebut sehingga dapat meningkatkan skornya dengan cara yang seefektif mungkin.
Anda dapat melihat AI bekerja di sekitar platform dalam video di bawah ini. Pada awalnya, ini terlihat seperti melompat tanpa tujuan di antara platform. Alih-alih melihat game ini maju ke babak berikutnya, Q * bert terjebak dalam lingkaran di mana semua platformnya mulai berkedip - di sinilah AI kemudian dapat terus menggila dan mengumpulkan poin besar.
BACA BERIKUTNYA: Salah satu rekor permainan paling kontroversial akhirnya didiskreditkan
bagaimana Anda bisa tahu jika ponsel Anda di-root?
Bagaimana AI memenangkan perang Q * bert
Memecahkan rekor sepanjang masa untuk judul tersebut, AI memperoleh skor yang sangat tinggi berkat pemrograman algoritme strategi evolusinya. Strategi evolusi (ES) berbeda dari pembelajaran penguatan (RL) biasa yang digunakan AI tradisional karena dianggap lebih skalabel karena pembelajaran generasinya.
Setiap loop pembelajaran disebut sebagai generasi dan melanjutkan tugasnya sampai kondisi yang ditetapkan terpenuhi (dalam hal ini, skor tinggi). Dengan setiap generasi berturut-turut, AI menyerap pengetahuan dari generasi sebelumnya dan karena itu lebih baik dalam mencapai tujuan yang sama dan melampauinya. Teruskan, dan Anda akan mendapatkan AI yang benar-benar tak tertandingi dalam tugasnya. Persis seperti itulah yang terjadi di sini dengan skor Q * bert.
Diuraikan dalam kertas , diterbitkan minggu lalu oleh para peneliti di Universitas Freiburg, Jerman, tampaknya bug itu bukan kuantitas yang diketahui. Faktanya, meskipun mereka tidak terlalu terkejut menemukan bug tersebut, sangat menarik untuk melihat bagaimana AI kemudian maju dan belajar untuk mengeksploitasinya setiap kali bermain untuk memaksimalkan potensi penilaiannya.
BACA BERIKUTNYA: Kecerdasan buatan ini telah belajar untuk menguasai Super Mario Bros
Untuk menemukan bug tersebut, agen harus terlebih dahulu belajar untuk hampir menyelesaikan level pertama - ini tidak dilakukan sekaligus tetapi menggunakan banyak perbaikan kecil, para peneliti menjelaskan kepada Pendaftaran . Kami menduga bahwa pada suatu titik dalam pelatihan, salah satu solusi turunan menemukan bug dan mendapat skor yang jauh lebih baik dibandingkan dengan saudara kandungnya, yang pada gilirannya meningkatkan kontribusinya pada pembaruan - bobotnya adalah yang tertinggi dalam rata-rata tertimbang. Ini perlahan-lahan memindahkan solusi ke ruang di mana semakin banyak keturunan mulai menemukan bug yang sama.
Kami tidak tahu persis kondisi di mana bug tersebut muncul; ada kemungkinan bahwa itu hanya muncul jika agen mengikuti pola yang tampaknya tidak optimal, [misalnya ketika agen membuang-buang waktu, atau bahkan kehilangan nyawa]. Jika itu masalahnya, maka akan sangat sulit bagi RL standar untuk menemukan bug: jika Anda menggunakan hadiah tambahan, Anda akan mempelajari strategi yang dengan cepat menghasilkan beberapa hadiah, daripada mempelajari strategi yang tidak menghasilkan banyak hadiah untuk sementara waktu dan lalu tiba-tiba menang besar.
Lihat terkait Juara Dragster Todd Rogers baru saja kehilangan mahkotanya setelah 35 tahun Kecerdasan buatan ini telah belajar menguasai Super Mario Bros 1-2 selama 17 hari Tonton AI ini belajar mengemudi di GTA V di Twitch
Namun, terlepas dari hasil bot yang luar biasa, para peneliti tidak mengatakan ini adalah kasus untuk memperjuangkan pembelajaran ES daripada RL. Faktanya, kedua sistem memiliki masalah masing-masing dan kombinasi keduanya sebagian besar dipandang sebagai pilihan terbaik untuk bergerak maju.
Metode ES yang sama pada game Atari lainnya tidak memberikan hasil positif yang hampir sama. Di sisi lain, RL bertanggung jawab untuk memecahkan rekor kiri, kanan dan tengah, termasuk mengalahkan pemain GO terbaik dunia. ES masih memiliki tempatnya sendiri dalam berbagai hal, dan begitulah cara Nvidia melakukan banyak pelatihan AI karena membutuhkan lebih banyak daya komputasi tetapi mencapai hasil yang lebih baik dalam jangka waktu yang lebih lama.
Terlepas dari cara mana yang akan menjadi masa depan untuk pengembangan AI, setidaknya bot yang menipu sistem ini tidak seburuk ini. sekarang juara dunia video game yang dipermalukan .