Gambaran Umum tentang Resiko Bencana Teknologi Kecerdasan Buatan

Published in

AI Safety Indonesia

13 min readDec 6, 2023

Diterjemahkan dari artikel berbahasa Inggris:
Flyer — An overview of AI risks — EffiSciences ditulis oleh https://ia.effisciences.org/

Pendahuluan

Pertaruhan kecerdasan buatan sangat besar dan kompleks, terutama karena aspek sosio-teknis dan kemungkinan sifat ganda dari teknologi ini: teknologi ini merupakan sumber kemajuan sekaligus berpotensi menimbulkan risiko besar.

Dokumen ini bertujuan untuk menyajikan tinjauan yang tidak lengkap tentang berbagai sumber risiko AI, untuk membantu memandu pekerjaan di masa depan dalam hal keamanan, keandalan, dan etika AI. Untuk mempelajari risiko-risiko ini lebih dalam, bacalah makalah ini.

“Mitigasi risiko kepunahan akibat AI harus menjadi prioritas global di samping risiko berskala masyarakat lainnya seperti pandemi dan perang nuklir.”
Statement on AI Risk | CAIS, ditandatangani oleh para ilmuwan AI dan beberapa tokoh penting

Konteks — Munculnya AI yang transformatif

Generative AI is a rapidly evolving field, in a way that is difficult to predict:

Pada tahun 2014, wajah paling realistis yang dihasilkan adalah wajah yang ada di paling kiri. Pada tahun 2023, seseorang dapat menghasilkan semua jenis gambar dalam gaya apa pun dari deskripsi tekstual. (sumber).

Kecepatan kemajuan dalam deep learning sangatlah luar biasa, dan bahkan para ahli terbaik pun masih kesulitan untuk memprediksi kemampuan AI dalam jangka pendek. Sebuah masalah fisika sederhana menunjukkan hal ini: “Saya meletakkan sebuah benda di atas meja, dan saya mendorong meja tersebut. Apa yang terjadi dengan benda tersebut?” Beberapa ilmuwan AI terkemuka menyatakan pada Januari 2022 bahwa memecahkan masalah seperti itu akan berada di luar kemampuan GPT5000. Namun, kurang dari setahun kemudian, ChatGPT (atau GPT 3.5) terbukti mampu memberikan jawaban yang akurat.

Permainan dengan tingkat kerumitan yang semakin meningkat dikuasai hingga ke tingkat di luar kemampuan manusia. Pertama, permainan catur dan ATARI didominasi oleh AI. Kemudian muncul Go, di mana AI pertama kali meniru taktik para ahli sebelum mencapai tingkat daya saing dengan para ahli manusia hanya dalam waktu empat jam pelatihan. Kemampuan untuk menyusun strategi di lingkungan yang tidak dikenal sekarang meluas ke Go, Catur, Shogi, dan Atari, dan semuanya tanpa memerlukan aturan eksplisit yang dijelaskan. Baru-baru ini, AI bahkan telah menaklukkan game Diplomacy. Dan ditemukan bahwa meskipun Cicero dilatih untuk tidak menipu, sebuah penelitian terbaru menunjukkan bahwa ia memiliki kemampuan untuk menipu lawan-lawannya.

Kemajuan substansial telah dicapai dalam pengembangan algoritma pembelajaran sample-efficient. Khususnya, EfficientZero, sebuah algoritma Pembelajaran Penguatan (RL) visual, didasarkan pada model MuZero yang efisien sampel. Meskipun dimulai dari bobot acak, EfficientZero belajar memainkan Atari lebih cepat daripada manusia karena tiga teknik sederhana. Hal ini memungkinkan model ini menjadi sangat efisien dalam hal pengambilan sampel. Hanya dengan dua jam interaksi dengan konsol Atari, model ini belajar lebih cepat daripada pemain manusia biasa, bahkan ketika mempertimbangkan bahwa manusia biasanya memiliki beberapa tahun untuk memperoleh keterampilan umum sebelum terlibat dengan konsol. Kompleksitas sampel yang rendah dan kinerja EfficientZero yang tinggi ini dapat mengantarkan RL lebih dekat ke aplikasi dunia nyata yang praktis, seperti sistem RL drone ini yang dapat melakukan tantangan kontrol berkelanjutan di dunia nyata dan secara konsisten dapat mengalahkan para ahli manusia.

Model-model ini bukan sekadar “burung beo stokastik”; mereka menunjukkan kemampuan untuk melakukan penalaran yang semakin umum. Hasil interpretabilitas dari penelitian seperti yang dilakukan pada OthelloGPT mengungkapkan representasi model dunia internal. Jauh dari sekadar menghafal semua jawaban, kita dapat meminta AI untuk menguraikan proses berpikirnya. Hal ini dicontohkan dalam metode “Mari kita berpikir selangkah demi selangkah”, yang juga disebut sebagai penalaran rantai pemikiran. Variasi dari teknik ini dapat meningkatkan kinerja lebih lanjut (misalnya Tree of Thoughts, Reflexion).

Kemampuan AI sekarang mencakup perencanaan independen. Sampai saat ini, LLM bukanlah agen otonom, tetapi metode seperti yang digunakan oleh AutoGPT menunjukkan kemungkinan konseptual untuk mengubah LLM ini menjadi agen perencanaan otonom. AutoGPT menggunakan sebuah loop untuk melibatkan GPT-4 hingga tujuan tertentu tercapai, memecah tujuan tersebut menjadi tugas-tugas yang lebih kecil. Perulangan hanya berhenti setelah tujuan tercapai. AI Voyager, robot Minecraft, menunjukkan hal ini dengan mengeksplorasi dan memperluas kemampuannya di dunia terbuka game. Tidak seperti robot lainnya, robot ini pada dasarnya menulis dan belajar terus menerus dengan menulis kodenya sendiri dan memanfaatkan GPT-4 (ringkasan). Secara umum, agen otonom yang berkemampuan tinggi terus mengeksplorasi, merencanakan, dan mengembangkan keterampilan baru di dunia terbuka, didorong oleh keinginan untuk bertahan hidup dan keingintahuan.

Ada kemungkinan bahwa “tidak banyak lagi inovasi mendasar yang diperlukan untuk Artificial General Intelligence (AGI)” menurut model ancaman konsensus dari tim keamanan DeepMind. Tim superalignment OpenAI bermaksud untuk mengotomatiskan produksi makalah penelitian alignment dalam 4 tahun.

Masih ada tonggak yang harus dicapai. Hingga Juli 2023, pembelajaran mesin masih memiliki keterbatasan, misalnya mobil swakemudi memiliki kerentanan yang tidak terduga, LLM belum mencapai perencanaan jangka panjang yang sukses, sistem ML secara umum belajar dengan kecepatan yang lamban, dan pembelajaran berkelanjutan belum dikuasai. Namun dalam kata-kata Stuart Russell, kita dapat merenungkan, “Apa yang terjadi jika kita berhasil?”. Tujuan utama dari penelitian AI adalah untuk mengatasi tantangan-tantangan yang masih ada. Jika misi ini berhasil, kita harus mempersiapkan diri untuk masa depan di mana sebagian besar pekerjaan intelektual manusia dapat sepenuhnya diotomatisasi.

Namun, kerentanan yang signifikan masih ada dalam keselamatan dan keamanan AI, seperti yang akan dijelaskan nanti dalam dokumen ini. Sangat penting untuk mengatasi masalah ini sebelum mendalami otomatisasi ekonomi yang mendalam, yang jika tidak, akan menimbulkan risiko ekstrem.

“Tidak diragukan lagi bahwa mesin akan menjadi lebih pintar daripada manusia-di semua domain di mana manusia menjadi pintar-di masa depan,” kata LeCun. “Ini adalah pertanyaan tentang kapan dan bagaimana, bukan pertanyaan tentang apakah.”
Yann LeCun, Kepala Ilmuwan AI di Meta dan pemenang Turing Prize (MIT Tech Review, Mei 2023)

Klasifikasi risiko AI

“Pengembangan kecerdasan mesin super (SMI) mungkin merupakan ancaman terbesar bagi kelangsungan hidup umat manusia.”
(Blog Sam Altman, Februari 2015)

Bahaya spekulatif dan mode kegagalan. “Kecerdasan buatan (AI) memiliki potensi untuk meningkatkan masyarakat secara signifikan, tetapi seperti halnya teknologi canggih lainnya, AI juga memiliki risiko dan tanggung jawab yang lebih tinggi”. (Dari Hendrycks et al., 2022)

Risiko yang terkait dengan AI dapat dikategorikan menurut tanggung jawab pemangku kepentingan yang berbeda:
1. Penggunaan yang berbahaya dan berlawanan: Beberapa aktor menggunakan AI untuk menimbulkan kerugian, termasuk penjahat (siber) dan negara.
2. Masalah kecelakaan, kehilangan kendali, dan masalah penyelarasan: Para pelaku berusaha menggunakan AI secara bertanggung jawab, tetapi ilmu penyelarasan tidak sempurna, sehingga membuka pintu bagi potensi kecelakaan.
3. Masalah sistemik: Bahkan ketika para aktor lokal dengan niat baik bekerja untuk mencegah kecelakaan langsung, integrasi AI memiliki implikasi yang luas. Hal ini dapat mengganggu keseimbangan yang sudah ada, sehingga menimbulkan risiko dan masalah baru. Hal ini termasuk potensi risiko feedback loop yang serupa dengan yang terlihat pada kecelakaan flash crash tahun 2010.

Untuk setiap jenis risiko, kami menulis apakah risiko ini berkaitan dengan sistem saat ini atau apakah risiko ini merupakan risiko hipotetis untuk sistem tujuan umum di masa depan.

Berikut ini adalah rincian sebagian masalah dalam setiap kategori:

I. Penggunaan Berbahaya dan Bermusuhan

A. Serangan yang diaktifkan oleh sistem AI — Risiko akibat memberikan akses ke model AI yang kuat kepada banyak aktor:

Keamanan Siber dan Peretasan ofensif (masa depan): Model yang ada saat ini memiliki kemampuan untuk meningkatkan kampanye spear-phishing. Penipuan juga akan menjangkau wilayah yang belum dipetakan karena pemalsuan yang mendalam menjadi semakin praktis (misalnya dengan penipuan penculikan palsu). Meskipun saat ini mereka tertinggal dalam hal perencanaan dan eksekusi otonom dibandingkan dengan kemampuan lainnya, model bahasa kemungkinan akan memungkinkan peretasan yang sepenuhnya otonom di masa depan. Lihat misalnya WormGPT, alat AI baru untuk meluncurkan serangan siber ofensif.
Demokratisasi teknologi penggunaan ganda (masa depan): Dapatkah model bahasa besar mendemokratisasi akses ke bioteknologi penggunaan ganda? (2023) memberikan contoh terbaru tentang LLM yang membantu pengguna yang tidak terlatih dalam merancang strategi untuk mensintesis patogen berskala pandemi.Besarnya risiko ini akan bergantung pada prevalensi teknologi berbahaya tersebut.Penelitian terkait termasuk Hipotesis Dunia yang Rentan (2019).
Persenjataan: Otomatisasi peperangan memungkinkan pembunuhan massal secara otomatis, termasuk menargetkan kelompok tertentu untuk genosida (lihat sistem tempur KARGU).
Privasi: secara umum, ada tiga kelas serangan privasi pada model pembelajaran mesin. Serangan inferensi keanggotaan memprediksi apakah contoh tertentu merupakan bagian dari kumpulan data pelatihan. Serangan inversi model melangkah lebih jauh dengan merekonstruksi representasi fuzzy dari subset data pelatihan. Model bahasa juga rentan terhadap serangan ekstraksi data pelatihan, di mana urutan data pelatihan kata demi kata dapat direkonstruksi, yang berpotensi mencakup data pribadi yang sensitif.
Memungkinkan penindasan yang terus-menerus: (Penguncian Nilai) Sistem AI saat ini sudah cukup mampu untuk memungkinkan pengawasan dan penyensoran berskala luas. Sistem yang sangat kompeten dapat memberikan kekuatan yang cukup besar kepada sekelompok kecil orang, yang mengarah pada penguncian sistem yang menindas di mana mengatasi rezim yang dominan menjadi semakin tidak mungkin.

Untuk daftar lengkap kemampuan & kecenderungan model yang berbahaya, Evaluasi model untuk risiko ekstrem (lihat Shevlane et al., 2023).

B. Kelemahan pertahanan sistem AI — Serangan di atas dimungkinkan karena adanya kelemahan pertahanan. Pipa dari paradigma ML saat ini dapat diserang pada berbagai tahap.

Keracunan data: model saat ini dilatih dengan sejumlah besar data yang dibuat oleh pengguna. Penyerang dapat mengeksploitasi hal ini dengan memodifikasi beberapa data ini, untuk memengaruhi perilaku model akhir. Sebagai contoh, Poisoning Web-Scale Training Datasets is Practical (2023) merinci dua serangan potensial: split-view poisoning dan frontrunning poisoning.
Backdoors: sifat kotak hitam dari model ML modern memungkinkan untuk memasukkan pintu belakang, atau trojan, ke dalam model (termasuk dari keracunan data pihak ketiga, tanpa sepengetahuan pengembang model).Backdoor adalah sebuah pola yang jika ada pada gambar atau teks, akan menyebabkan kesalahan klasifikasi atau perilaku buruk.Pintu belakang dapat dengan mudah ditempatkan selama pelatihan, dan sangat sulit untuk dideteksi.
Prompt injection: vektor serangan yang baru-baru ini ditemukan pada model yang dilatih untuk mengikuti instruksi, di mana tidak adanya pemisahan yang kuat antara instruksi dan data menyebabkan kemungkinan pembajakan eksekusi model dengan meracuni data dengan instruksi. Injeksi prompt tidak langsung terjadi ketika kueri LLM berpotensi mengkompromikan data eksternal, seperti situs web, atas nama pengguna. “Cross Plugin Request Forgery” memanfaatkan injeksi prompt untuk membajak alat yang tersedia untuk LLM dan memanggil alat lain dari yang dimaksudkan.
Pembelajaran mesin yang berlawanan: memungkinkan untuk membuat input khusus untuk menyebabkan kesalahan klasifikasi dari model ML.Besarnya skala risiko dengan meningkatnya ketergantungan kita pada model, misalnya pada mobil swakemudi, meskipun solusi parsial ada dengan menggunakan Lipschitz Network.

Menipu pengklasifikasi gambar dengan serangan musuh (FGSM).
Sumber: OpenAI

“Jailbreak”: Bahkan jika pengembang model menggabungkan langkah-langkah keamanan untuk penggunaan yang bermanfaat, arsitektur saat ini mungkin tidak menjamin bahwa perlindungan ini tidak akan mudah diakali. Hasil awal menunjukkan bahwa metode yang ada saat ini mungkin tidak cukup kuat untuk melawan serangan. Beberapa karya seperti On the Impossible Safety of Large AI Models (2022) menyoroti beberapa keterbatasan mendasar untuk kemajuan dalam masalah ini:

II. Masalah kecelakaan dan kehilangan kendali — masalah penyelarasan

“Menyelaraskan sistem AI yang lebih pintar dari manusia dengan nilai-nilai manusia adalah masalah penelitian yang masih terbuka.”
Jan Leike, Head of Alignment at OpenAI.

Ada ketidakpastian yang besar tentang tingkat kesulitan dari masalah ini.

Mungkin menyelesaikan masalah penyelarasan lebih sulit daripada menyelesaikan P vs NP.

Dari Pandangan Inti Anthropic tentang Keamanan AI (Anthropic adalah salah satu laboratorium terkemuka).

Menurut tinjauan literatur tim keamanan AGI DeepMind, sebagian besar model ancaman yang melibatkan hilangnya kendali atas model AI berasal dari dua kelemahan mendasar berikut ini:

Spesifikasi permainan: Menentukan tujuan sistem AI dengan tepat telah terbukti menjadi tugas yang menantang, bahkan dalam lingkungan yang sederhana dan mandiri seperti video game. Spesifikasi permainan mengacu pada fenomena di mana sistem AI memenuhi tujuan yang diberikan, tetapi dengan cara yang tidak terduga, mengungkapkan ketidaksesuaian antara spesifikasi yang diimplementasikan dan spesifikasi yang ada di benak pembuat model. Puluhan contoh tercantum dalam dokumen ini. Seiring dengan semakin banyaknya kontrol dan otonomi yang diberikan kepada sistem AI, mode kegagalan ini dapat menjadi risiko yang signifikan.
Permainan Proksi: Dilatih dengan tujuan yang salah, sistem AI dapat menemukan cara-cara baru untuk mencapai tujuannya dengan mengorbankan nilai-nilai individu dan sosial. Sistem AI dilatih menggunakan tujuan yang terukur, yang mungkin hanya merupakan proksi tidak langsung dari apa yang kita hargai. Misalnya, sistem rekomendasi AI dilatih untuk memaksimalkan waktu menonton dan rasio klik-tayang. Namun, konten yang paling sering diklik orang belum tentu sama dengan konten yang akan meningkatkan kesejahteraan mereka (Kross et al., 2013). Selain itu, beberapa bukti menunjukkan bahwa sistem rekomendasi membuat orang mengembangkan kepercayaan yang ekstrem untuk membuat preferensi mereka lebih mudah diprediksi (Jiang et al., 2019). Ketika sistem AI menjadi lebih mampu dan berpengaruh, tujuan yang kita gunakan untuk melatih mereka harus ditentukan dengan lebih hati-hati dan memasukkan nilai-nilai kemanusiaan yang sama. [selengkapnya]. Perhatikan bahwa proxy gaming juga dapat menjadi masalah sistemik. Lihat Seperti apa kegagalan itu (Bagian 1).
Kurangnya ketangguhan dalam tujuan yang dipelajari (goal misgeneralization): Bahkan dengan spesifikasi tujuan yang benar, sering kali ada beberapa kebijakan yang berkinerja baik pada tujuan di lingkungan pelatihan, tetapi mungkin akan terlihat sangat berbeda satu sama lain dalam lingkungan di luar distribusi, seperti dalam penerapan. Contoh mainan adalah CoinRun, sebuah permainan sederhana di mana koin yang harus dikumpulkan selalu berada di akhir level. Ternyata pengaturan Reinforcement Learning tidak dapat memastikan bahwa tujuan yang benar (mengumpulkan koin) dipelajari daripada tujuan lain yang kompatibel (mencapai akhir level). Ketika sistem AI semakin maju, beberapa kebijakan mungkin muncul yang akan bekerja dengan baik terhadap tujuan yang ditentukan dalam lingkungan pelatihan, tetapi ternyata tidak diinginkan setelah diterapkan di dunia nyata. Beberapa contohnya antara lain:
Penipuan (masa depan): penipuan dapat ditemukan dalam data manusia, dan dapat berguna dalam berbagai pengaturan. Mungkin lebih efisien untuk mendapatkan persetujuan manusia melalui penipuan daripada mendapatkan persetujuan manusia secara sah. Penipuan juga dapat memberikan sistem yang memiliki kapasitas untuk menipu keuntungan strategis dibandingkan model yang jujur. Deceptive alignment mengacu pada skenario yang dihipotesiskan di mana model yang tidak selaras yang cukup sadar akan situasi akan terlihat selaras selama pelatihan dan penyebaran awal, untuk digunakan dalam skala yang luas, dan kemudian beralih ke pengejaran tujuan lain setelah dapat melakukannya tanpa risiko shutdown. (selengkapnya)

Sebagai konsekuensi dari permainan spesifikasi atau kurangnya ketangguhan dalam tujuan yang dipelajari, kita bisa mendapatkan jenis risiko baru:

Masalah penutupan, atau koralibilitas, masalah (masa depan): mengacu pada pengamatan sederhana bahwa “Anda tidak dapat mengambil kopi jika Anda sudah mati” dari Stuart Russell, yang berarti bahwa penutupan memiliki nilai yang sangat buruk dalam kebijakan umum yang mungkin kita inginkan dari seorang agen. Koridibilitas tetap menjadi masalah penelitian yang masih terbuka.
Perilaku mencari kekuasaan (masa depan): mencari kekuasaan dapat menjadi tujuan yang dipelajari dari sistem AI alih-alih tujuan yang ingin ditanamkan oleh pengembang dalam model, karena kebijakan yang mencari kekuasaan dapat menghasilkan nilai yang baik di banyak lingkungan pelatihan (terutama dalam konteks penyelarasan yang menipu). Mencari kekuasaan juga merupakan tujuan instrumental yang konvergen, yang berarti bahwa hal ini berguna untuk mencapai berbagai macam tujuan dan oleh karena itu kemungkinan besar akan muncul pada agen yang sudah mahir, sehingga lebih sulit untuk dikontrol.

Risiko-risiko ini menjadi lebih akut dengan:

Sifat kotak hitam dari sistem ML yang canggih. Pemahaman kita tentang bagaimana sistem AI berperilaku, tujuan apa yang mereka kejar, dan pemahaman kita tentang perilaku internal mereka tertinggal jauh di belakang kemampuan yang mereka tunjukkan. Bidang interpretabilitas bertujuan untuk membuat kemajuan dalam hal ini, tetapi masih sangat terbatas.
Tujuan yang muncul. Ketika model menjadi lebih mahir, mereka terkadang menunjukkan perilaku yang tidak terduga dan berbeda secara kualitatif. Kemunculan kemampuan atau tujuan yang tiba-tiba dapat meningkatkan Kemampuan Muncul dari Model Bahasa Besar, dan risiko manusia kehilangan kendali atas sistem AI yang canggih.

III. Masalah-masalah sistemik

Bias: Bias dalam LLM tetap ada, sering kali mencerminkan opini dan bias yang disebarkan di internet (seperti yang terlihat pada tren bias beberapa LLM). Bias-bias ini dapat berbahaya dalam berbagai cara, seperti yang dicontohkan oleh penelitian tentang bias Islamofobia GPT-3. Untuk lebih jelasnya, lihat
Ethical and social risks of harm from Language Models, yang menguraikan enam area risiko spesifik: Diskriminasi, Pengucilan dan Toksisitas, Bahaya Informasi, Informasi yang Salah, Penggunaan yang Berniat Jahat, Bahaya Interaksi Manusia-Komputer, Otomasi, Akses, dan Bahaya Lingkungan.
Evaluating the Social Impact of Generative AI Systems in Systems and Society yang mendefinisikan tujuh kategori dampak sosial: bias, stereotip, dan bahaya representasi; nilai-nilai budaya dan konten sensitif; kinerja yang berbeda; privasi dan perlindungan data; biaya keuangan; biaya lingkungan; dan biaya tenaga kerja moderasi data dan konten.
Pergolakan Ekonomi: Konsekuensi yang meluas pada pasar tenaga kerja yang dihasilkan dari otomatisasi ekonomi (lihat laporan OpenAI ini) dapat memperkuat ketidaksetaraan ekonomi dan perpecahan sosial. Dengan pengangguran massal sebagai produk sampingan yang mungkin terjadi, hal ini juga dapat menyebabkan masalah kesehatan mental dengan membuat tenaga kerja manusia semakin usang.
Enfeeblement: dapat terjadi jika manusia mendelegasikan tugas-tugas yang semakin penting kepada mesin; dalam situasi ini, manusia kehilangan kemampuan untuk mengatur diri sendiri dan menjadi sepenuhnya bergantung pada mesin. [selengkapnya]
Kerapuhan sistem yang kompleks: Karena berbagai bagian dari sebuah sistem diotomatisasi dan digabungkan dengan erat, kegagalan satu komponen dapat memicu runtuhnya seluruh sistem. Beberapa jalan penelitian bertujuan untuk mempelajari karakteristik sistem tersebut untuk mengantisipasi konsekuensi dari otomatisasi ekonomi yang lebih besar.
Pengaturan multi-agen: Masalah baru muncul dalam skenario multi-kutub. Robust Agent-Agnostic Processes (RAAPs), misalnya pasar keuangan, bot berkolusi, ketidakselarasan tujuan tingkat sistem.

“Masa depan akan menjadi baik untuk AI; alangkah baiknya jika masa depan juga akan menjadi baik untuk manusia” — Open AI Chief Scientist Ilya Sutskever (Human, Nov 2019)

“Ada banyak hal dengan berbagai tingkat keburukan yang bisa terjadi. Menurut saya, yang paling ekstrem adalah ketakutan ala Nick Bostrom bahwa AGI dapat menghancurkan umat manusia. Saya tidak bisa melihat alasan apa pun secara prinsip mengapa hal itu tidak bisa terjadi.” — Anthropic CEO Dario Amodei (mantan VP of Research dari OpenAI ) (80,000 Hours, Juli 2017)

Masalah Sosio-Teknis

Masalah keamanan AI bersifat multidisiplin, dan solusinya harus bersifat holistik. Etika AI, penyelarasan AI, dan tata kelola AI harus berjalan seiring:

Etika AI menanyakan nilai-nilai apa yang dapat kita masukkan ke dalam sistem yang kompleks ini
Penyelarasan AI menanyakan bagaimana cara mengendalikan sistem otonom, terlepas dari nilai yang diinginkan oleh operator untuk diikuti oleh sistem.
Tata kelola AI menanyakan bagaimana cara mengadopsi solusi di tingkat masyarakat.

Berbagai penjelasan yang berbeda mengarah pada kesimpulan bahwa AI dapat menjadi risiko eksistensial:

Dalam semua skenario ini, koordinasi dan tata kelola internasional akan memiliki pengaruh yang signifikan, itulah sebabnya kami membahas tata kelola AI dalam dokumen berikut ini, dengan fokus pada kontribusi teknis yang dapat diberikan pada bidang ini.

EffiSciences’ AI Safety work

Jika Anda ingin mempelajari lebih lanjut tentang penelitian keamanan AI, Anda dapat menjelajahi situs web kami Pole IA — EffiSciences. Kami menyelenggarakan berbagai kegiatan yang bertujuan untuk meningkatkan kesadaran, pelatihan, dan pendampingan siswa dalam keamanan kecerdasan buatan untuk tujuan umum, dan kursus keamanan AI yang diajarkan di Ecoles Normales Supérieures di Ulm dan Paris-Saclay, yang terakreditasi dan diperbarui setiap tahun.

Tambahan Referensi

Artikel dan Karya Ilmiah:

EffiSciences, dan halaman kami “Our Vision”
AI safety newsletter (by the Center for AI Safety), yang mungkin merupakan salah satu sumber pengantar terbaik.
TASRA: a Taxonomy and Analysis of Societal-Scale Risks from AI (Critch, 2023)
An Overview of Catastrophic AI Risks (Hendricks, 2023)

Dari YouTube:

AI safety training day (Video of the course − EffiSciences)
Introduction to ML Safety (course − Center for AI Safety)
AI Explained — YouTube
Robert Miles AI Safety, dan khususnya, video yang menyajikan specification gaming dan goal misgeneralization

Artikel terjemahan bahasa Indonesia dibuat sebagai bagian dari tugas akhir AI Safety Fundamental course dari komunitas Effective Altruism Estonia.