Apa itu “Outer Alignment”?

Published in

AI Safety Indonesia

1 min readDec 17, 2023

Diterjemahkan ke bahasa Indonesia dari artikel asli berbahasa Inggris “What is outer alignment” dari stampy.ai.

Outer alignment, juga dikenal sebagai masalah kesalahan spesifikasi hadiah, adalah masalah melatih AI dengan tujuan optimasi yang tepat, yaitu, “Apakah kita memberi tahu AI hal yang benar untuk dilakukan?”. Hal ini berbeda dengan masalah inner alignment yaitu masalah apakah AI pada akhirnya benar-benar berusaha mencapai tujuan yang kita tentukan (bukan tujuan lain).

Outer alignment adalah masalah yang sulit. Bahkan telah diperdebatkan bahwa, untuk menyampaikan “niat” penuh di balik permintaan manusia akan membutuhkan penyampaian semua nilai manusia, yang tidak dipahami dengan baik. Selain itu, karena sebagian besar model dirancang sebagai pengoptimalisasi tujuan, model-model tersebut rentan terhadap Hukum Goodhart. Hal ini menunjukkan bahwa meskipun kita telah menentukan tujuan kita dengan cara yang terlihat baik bagi manusia, mungkin ada konsekuensi negatif yang muncul karena optimasi yang berlebihan yang mungkin tidak dapat kita perkirakan.

Beberapa sub-masalah penyelarasan luar yang harus kita selesaikan meliputi specification gaming, value learning, dan reward shaping/modeling. Paul Christiano, seorang peneliti yang berfokus pada penyelarasan luar, telah mengusulkan solusi seperti HCH atau penyulingan dan amplifikasi berulang. Ada juga solusi yang diusulkan untuk mendekati nilai-nilai manusia dengan menggunakan teknik pembelajaran imitasi dan umpan balik.

Apa itu “Outer Alignment”?

Written by Enlik Lee