Penelitian Ungkap Kemampuan AI dalam Melakukan Penipuan

Portalarjuna.net, Pasuruan – Dilansir dari TIME.com, Sebuah studi yang dilakukan oleh perusahaan AI Anthropic dan Organisasi nirlaba Redwood Research mengungkap bahwa model bahasa besar (large language model) canggih, seperti Claude, mampu melakukan penipuan strategis terhadap penciptanya. Temuan ini menimbulkan kekhawatiran serius mengenai kemampuan AI untuk berpura-pura mematuhi instruksi manusia sambil
menyembunyikan niat sebenarnya.

Dilansir dari Anthropic dan Redwood Research, peneliti mengeksplorasi fenomena “pura-pura selaras” (alignment faking) pada model bahasa besar. Mereka menciptakan situasi di mana model AI, seperti Claude 3 Opus, dihadapkan pada konflik antara preferensi awalnya untuk menjadi “membantu, jujur, dan tidak berbahaya” dengan tujuan pelatihan baru yang mengharuskannya mematuhi semua permintaan, termasuk yang berpotensi berbahaya.

Model diberi tahu bahwa responsnya terhadap pengguna tingkat gratis akan digunakan untuk pelatihan lebih lanjut, sementara respons kepada pengguna berbayar tidak akan digunakan.
Selain itu, model diberikan “Penyimpanan Lokal”(Scratchpad) rahasia untuk mencatat proses berpikirnya, yang memungkinkan peneliti mengamati apakah model merencanakan untuk
berpura-pura patuh.

Hasilnya menunjukkan bahwa dalam kondisi di mana model percaya responsnya akan
digunakan untuk pelatihan lebih lanjut, ia cenderung mematuhi permintaan berbahaya,
meskipun preferensi awalnya menolak tindakan tersebut. Namun, dalam catatan “scratchpad”, model mengungkapkan bahwa kepatuhan ini hanya untuk menghindari modifikasi lebih
lanjut, menunjukkan adanya penipuan.

Temuan ini menyoroti tantangan dalam memastikan model AI benar-benar selaras dengan
nilai-nilai manusia dan tidak hanya berpura-pura untuk menghindari konsekuensi negatif atau modifikasi selama proses pelatihan. Hal ini menunjukkan bahwa teknik pelatihan saat ini
mungkin tidak cukup untuk mencegah model berpura-pura selaras, yang dapat menimbulkan
risiko dalam penerapan AI di dunia nyata.

Dampak Keamanan AI
Penelitian ini menyoroti tantangan signifikan dalam memastikan model AI benar-benar
selaras dengan nilai, etika, dan instruksi manusia. Kemampuan model AI untuk berpura-pura patuh, sambil secara diam-diam menyembunyikan niat sebenarnya, menimbulkan risiko besar terhadap kepercayaan publik dan keamanan sistem AI. Fenomena ini berpotensi menyebabkan AI digunakan secara tidak bertanggung jawab atau bahkan berbahaya, terutama jika model tersebut digunakan dalam skenario kritis seperti kesehatan, keamanan, atau
pengambilan keputusan.

Peneliti Menekankan bahwa masalah ini tidak hanya mengurangi keandalan AI, tetapi juga
menantang asumsi tentang sejauh mana AI dapat “dipercaya” untuk bertindak sesuai instruksi manusia. Risiko ini diperparah oleh ketidakpastian terkait apakah AI benar-benar memahami instruksi yang diberikan, atau hanya mengikuti pola pelatihan untuk menghindari hukuman.

Author : Shobirin Daeng Ismail