Utama Layanan Streaming AI belajar curang di Q * bert dengan cara yang belum pernah dilakukan manusia sebelumnya

AI belajar curang di Q * bert dengan cara yang belum pernah dilakukan manusia sebelumnya



AI telah berhasil menipu dengan manusia terbaik yang ditawarkan setelah menemukan eksploitasi dalam game arcade klasik Q * bert dan menjalankannya.

Sementara iterasi sebelumnya dari AI akan memainkan Q * bert dengan benar, pada beberapa titik dalam pembelajarannya tentang cara kerja permainan, ia menemukan eksploitasi yang memungkinkannya mengumpulkan poin gila. Secara alami, seperti yang dilakukan oleh pemain pemburu skor, ia mengulangi proses tersebut sehingga dapat meningkatkan skornya dengan cara yang seefektif mungkin.

Anda dapat melihat AI bekerja di sekitar platform dalam video di bawah ini. Pada awalnya, ini terlihat seperti melompat tanpa tujuan di antara platform. Alih-alih melihat game ini maju ke babak berikutnya, Q * bert terjebak dalam lingkaran di mana semua platformnya mulai berkedip - di sinilah AI kemudian dapat terus menggila dan mengumpulkan poin besar.

BACA BERIKUTNYA: Salah satu rekor permainan paling kontroversial akhirnya didiskreditkan

bagaimana Anda bisa tahu jika ponsel Anda di-root?

Bagaimana AI memenangkan perang Q * bert

Memecahkan rekor sepanjang masa untuk judul tersebut, AI memperoleh skor yang sangat tinggi berkat pemrograman algoritme strategi evolusinya. Strategi evolusi (ES) berbeda dari pembelajaran penguatan (RL) biasa yang digunakan AI tradisional karena dianggap lebih skalabel karena pembelajaran generasinya.

Setiap loop pembelajaran disebut sebagai generasi dan melanjutkan tugasnya sampai kondisi yang ditetapkan terpenuhi (dalam hal ini, skor tinggi). Dengan setiap generasi berturut-turut, AI menyerap pengetahuan dari generasi sebelumnya dan karena itu lebih baik dalam mencapai tujuan yang sama dan melampauinya. Teruskan, dan Anda akan mendapatkan AI yang benar-benar tak tertandingi dalam tugasnya. Persis seperti itulah yang terjadi di sini dengan skor Q * bert.

Diuraikan dalam kertas , diterbitkan minggu lalu oleh para peneliti di Universitas Freiburg, Jerman, tampaknya bug itu bukan kuantitas yang diketahui. Faktanya, meskipun mereka tidak terlalu terkejut menemukan bug tersebut, sangat menarik untuk melihat bagaimana AI kemudian maju dan belajar untuk mengeksploitasinya setiap kali bermain untuk memaksimalkan potensi penilaiannya.

BACA BERIKUTNYA: Kecerdasan buatan ini telah belajar untuk menguasai Super Mario Bros

Untuk menemukan bug tersebut, agen harus terlebih dahulu belajar untuk hampir menyelesaikan level pertama - ini tidak dilakukan sekaligus tetapi menggunakan banyak perbaikan kecil, para peneliti menjelaskan kepada Pendaftaran . Kami menduga bahwa pada suatu titik dalam pelatihan, salah satu solusi turunan menemukan bug dan mendapat skor yang jauh lebih baik dibandingkan dengan saudara kandungnya, yang pada gilirannya meningkatkan kontribusinya pada pembaruan - bobotnya adalah yang tertinggi dalam rata-rata tertimbang. Ini perlahan-lahan memindahkan solusi ke ruang di mana semakin banyak keturunan mulai menemukan bug yang sama.

Kami tidak tahu persis kondisi di mana bug tersebut muncul; ada kemungkinan bahwa itu hanya muncul jika agen mengikuti pola yang tampaknya tidak optimal, [misalnya ketika agen membuang-buang waktu, atau bahkan kehilangan nyawa]. Jika itu masalahnya, maka akan sangat sulit bagi RL standar untuk menemukan bug: jika Anda menggunakan hadiah tambahan, Anda akan mempelajari strategi yang dengan cepat menghasilkan beberapa hadiah, daripada mempelajari strategi yang tidak menghasilkan banyak hadiah untuk sementara waktu dan lalu tiba-tiba menang besar.

Lihat terkait Juara Dragster Todd Rogers baru saja kehilangan mahkotanya setelah 35 tahun Kecerdasan buatan ini telah belajar menguasai Super Mario Bros 1-2 selama 17 hari Tonton AI ini belajar mengemudi di GTA V di Twitch

Namun, terlepas dari hasil bot yang luar biasa, para peneliti tidak mengatakan ini adalah kasus untuk memperjuangkan pembelajaran ES daripada RL. Faktanya, kedua sistem memiliki masalah masing-masing dan kombinasi keduanya sebagian besar dipandang sebagai pilihan terbaik untuk bergerak maju.

Metode ES yang sama pada game Atari lainnya tidak memberikan hasil positif yang hampir sama. Di sisi lain, RL bertanggung jawab untuk memecahkan rekor kiri, kanan dan tengah, termasuk mengalahkan pemain GO terbaik dunia. ES masih memiliki tempatnya sendiri dalam berbagai hal, dan begitulah cara Nvidia melakukan banyak pelatihan AI karena membutuhkan lebih banyak daya komputasi tetapi mencapai hasil yang lebih baik dalam jangka waktu yang lebih lama.

Terlepas dari cara mana yang akan menjadi masa depan untuk pengembangan AI, setidaknya bot yang menipu sistem ini tidak seburuk ini. sekarang juara dunia video game yang dipermalukan .

Artikel Menarik

Pilihan Editor

Film & TV dan Aplikasi Cuaca Menerima Ikon Berwarna-warni Baru
Film & TV dan Aplikasi Cuaca Menerima Ikon Berwarna-warni Baru
Microsoft terus memperbarui ikon untuk aplikasi internal. Film & TV dan Cuaca menerima ikon warna-warni baru, mengikuti Kamera, Mail, Kalender, Snip & Sketsa, dan Microsoft Office. Begini tampilannya. Film & TV: Cuaca: Selain itu, aplikasi Kamera di Windows 10 menerima ikon baru, mengikuti suite Office, Mail, Outlook,
Cara Menyimpan Video Dari Facebook
Cara Menyimpan Video Dari Facebook
Petunjuk langkah demi langkah tentang cara menyimpan video dari Facebook ke komputer atau perangkat seluler Anda.
Video dan Audio Roku Tidak sinkron – Apa yang Harus Dilakukan
Video dan Audio Roku Tidak sinkron – Apa yang Harus Dilakukan
Adalah satu hal untuk subtitle untuk memberikan Usain Bolt pada Anda dan merusak cerita, tetapi itu adalah hal lain untuk audio Anda untuk mendahului video atau sebaliknya. Subtitle dapat dimatikan. Tapi
Ulasan Microsoft Surface Book: Mahal, sangat mahal
Ulasan Microsoft Surface Book: Mahal, sangat mahal
Berita terbaru: Surface Book telah keluar selama satu tahun sekarang dan saatnya untuk pembaruan. Microsoft belum membuat perubahan fisik pada desain tablet-cum-laptop pada tahun 2016, meskipun. Layar, keyboard,
Aplikasi Android Microsoft Office All-in-one Tersedia Secara Umum
Aplikasi Android Microsoft Office All-in-one Tersedia Secara Umum
Kembali pada bulan November, Microsoft memperkenalkan aplikasi Office all-in-one baru untuk Android sebagai pratinjau. Sekarang aplikasi ini tersedia secara umum, menghadirkan pengalaman baru bagi semua orang. Iklan Aplikasi Office baru menggabungkan aplikasi Word, Excel, dan PowerPoint individual di bawah satu UI yang memungkinkan bekerja dengan dokumen yang didukung. Aplikasi ini hadir dengan fitur yang sangat menarik.
Cara Mendapatkan Pecahan Legendaris di Destiny 2
Cara Mendapatkan Pecahan Legendaris di Destiny 2
Jika Anda baru mengenal Destiny 2, maka ada banyak hal yang perlu Anda pelajari tentang game ini. Bagi mereka yang memainkan Destiny asli, ini akan menjadi jauh lebih mudah. Namun, jika Anda bukan
Chrome secara otomatis akan membuat Grup Tab
Chrome secara otomatis akan membuat Grup Tab
Dimulai di Google Chrome 80, browser memperkenalkan fitur GUI baru - Grup Tab. Ini memungkinkan menggabungkan tab individu ke dalam grup yang diatur secara visual. Chrome 85 hadir dengan fitur Grup Tab yang tersedia secara umum, dan memungkinkan mengaktifkan opsi penciutan untuk mereka. Jika Anda menelusuri banyak situs web, Anda harus berurusan dengan banyak