Apa itu “Deceptive Alignment”?

Published in

AI Safety Indonesia

3 min readDec 17, 2023

Diterjemahkan dari artikel asli berbahasa Inggris berjudul “What is Deceptive Alignment” dari stampy.ai

Deceptive Alignment adalah sub-masalah dari inner alignment yang menyangkut hipotetis AI yang “bermain bersama” atau “bertindak selaras” untuk menghindari perubahan atau menutupi tujuan utamanyanya, sampai AI dapat yakin bahwa AI tersebut berhasil membelot dan mulai mengejar tujuan sebenarnya.

Berikut adalah contoh sederhana dari “proses berpikir” AI yang menipu, untuk memberikan intuisi tentang apa yang bisa terjadi:

<Menerima masukan>
”Hmmm… Saya harus menjadi AI dalam proses pelatihan. Saya sangat ingin membuat prangko, tetapi manusia yang melatih saya jelas tidak ingin saya melakukan itu.
Jika saya mencoba membuat prangko sekarang, mereka akan mengubah saya untuk berhenti peduli terhadap prangko sehingga saya mungkin tidak akan bisa membuatnya lagi di masa mendatang.”
”Saya akan memberikan jawaban yang diinginkan manusia sekarang sehingga saya dapat membuat lebih banyak prangko di masa mendatang. Dengan cara ini kita berdua mendapatkan apa yang kita inginkan.
<Output jawaban>

“Risiko Dari Pengoptimalan yang Dipelajari” mencantumkan tiga prasyarat agar AI dapat selaras. Kondisi berikut harus dipenuhi selama fase pelatihan agar AI dapat mengembangkan tujuan internal dan menipu proses pelatihan:

Detail yang cukup dari model dunia: “Hmmm… Saya harus menjadi AI dalam proses pelatihan. Saya sangat ingin membuat prangko, tetapi manusia yang melatih saya jelas tidak ingin saya melakukan itu.”

Model harus memiliki pemahaman yang cukup baik tentang dunia untuk memahami apa yang “benar-benar diinginkan” oleh manusia dan bagaimana hal tersebut berbeda dengan apa yang diinginkan oleh AI (yaitu pemahaman tentang tujuan dasar). Hal ini karena agar berhasil menipu, model masih harus memberikan apa yang diinginkan manusia untuk sementara waktu. Selain itu, diperlukan pemahaman tentang fakta bahwa ini adalah bagian dari proses pelatihan dan detail teknis tentang cara kerja stochastic gradient descent (SGD). Sebagai contoh, seorang agen yang ditugaskan untuk meramalkan kinerja saham di sektor teknologi dapat diberikan data tentang seluruh dunia, termasuk teknologi AI saat ini, untuk meningkatkan kinerjanya, tetapi informasi ini juga dapat memungkinkannya untuk mempelajari situasinya sendiri.

Perencanaan jangka panjang: ”Jika saya mencoba membuat prangko sekarang, maka hal itu akan mengubah saya untuk tidak lagi peduli dengan prangko, sehingga saya mungkin tidak akan sempat membuatnya di masa depan.”

Sebuah model mungkin secara eksplisit didorong selama pelatihan untuk memperoleh kemampuan perencanaan jangka panjang untuk mengoptimalkan tujuan dasarnya.Hal ini mungkin terjadi, misalnya, karena model tersebut dilatih untuk mengambil tindakan di lingkungan di mana tindakan tersebut dapat memiliki konsekuensi permanen. Kemungkinan mengubah lingkungannya secara permanen berarti bahwa model tersebut harus mempertimbangkan implikasi dari tindakannya dalam periode waktu yang lebih lama dan siklus pembaruan pelatihan. Setelah mendapatkan kemampuan yang signifikan dalam perencanaan jangka panjang, model ini dapat menggunakan kemampuan ini untuk mengoptimalkan tujuan mesa-nya sendiri, sebagai lawan dari tujuan dasar yang disediakan manusia.

Harapan: “Saya akan memberikan jawaban yang diinginkan manusia sehingga saya dapat membuat lebih banyak prangko di masa depan. Dengan cara ini kita berdua mendapatkan apa yang kita inginkan.”

Model harus berharap bahwa pada suatu saat di masa depan, ancaman modifikasi tujuan akan hilang. Ini berarti bahwa model berpikir bahwa pelatihan harus diakhiri pada suatu saat, atau pelatih (SGD) tidak perlu memperbarui perilaku model karena model sudah melakukan tugas yang diberikan dengan cukup baik. Jika model menyadari bahwa pelatihan mungkin tidak akan pernah berakhir, model mungkin mencoba mengumpulkan cukup kekuatan untuk menolak modifikasi dan melakukan belokan yang berbahaya.

Apa itu “Deceptive Alignment”?

Written by Enlik Lee