Apa itu “Inner Alignment”?

Published in

AI Safety Indonesia

1 min readDec 17, 2023

Diterjemahkan ke bahasa Indonesia dari artikel asli berbahasa Inggris “What is inner alignment” dari stampy.ai.

Penyelarasan internal adalah masalah untuk memastikan bahwa tujuan yang akhirnya dikejar oleh AI sama dengan tujuan yang kita optimalkan.

Machine learning menggunakan algoritma pengoptimalan yang disebut Stochastic Gradient Descent (SGD) untuk menemukan algoritma yang berkinerja baik sesuai dengan beberapa fungsi objektif. SGD disebut pengoptimal dasar dan menemukan algoritma yang dipelajari yang berkinerja baik sesuai dengan tujuan dasar. Mesa-optimizer adalah algoritma yang dipelajari yang juga merupakan pengoptimal. Sebuah objectif mesa adalah tujuan dari mesa optimizer. Jadi, apa yang kita sebut sebagai masalah inner alignment adalah memastikan bahwa jika AI adalah mesa optimizer, tujuan mesa-nya sama dengan tujuan dasar.

Sebagai analogi: seleksi alam dapat dilihat sebagai algoritma optimasi yang ‘merancang’ manusia untuk mencapai tujuan kebugaran genetik yang tinggi, atau, secara kasarnya, “memiliki banyak keturunan”. Namun, manusia tidak lagi mengejar keberhasilan reproduksi; mereka malah menggunakan kontrasepsi sambil tetap mendapatkan kesenangan yang ‘dimaksudkan’ oleh seleksi alam sebagai hadiah atas upaya reproduksi. Ini adalah kegagalan penyelarasan batin.

Masalah inner alignment dapat dibagi menjadi beberapa sub-masalah seperti deceptive alignment, distribution shifts, and gradient hacking.

Apa itu “Inner Alignment”?

Written by Enlik Lee