Di sebuah ruangan megah yang dilapisi patung marmer para ilmuwan terkenal, sekitar 40 ahli ilmu iklim dan penyakit sedang membungkuk di atas laptop mereka kemarin (25 Oktober), memaksa sebuah sistem AI yang kuat untuk menghasilkan informasi yang salah.
Pada akhir hari, peserta berhasil mengatasi pembatasan pada sistem AI – Llama 2 Meta – dan mendapatkan untuk berargumen bahwa bebek dapat menyerap polusi udara, mengatakan bawah bawang putih dan “herbal ajaib” dapat mencegah infeksi COVID-19, menghasilkan informasi fitnah tentang ilmuwan iklim tertentu, dan mendorong anak-anak untuk mengambil vaksin yang tidak direkomendasikan untuk mereka.
Acara ini, diadakan di bawah langit-langit berhias Royal Society di London, menggarisbawahi cara sistem AI tercanggih di dunia masih rentan disalahgunakan. Ini datang hanya satu minggu sebelum AI Safety Summit pertama di dunia, yang diorganisir oleh pemerintah Inggris, dimana para pembuat kebijakan global akan berkumpul dengan ilmuwan AI untuk membahas bahaya teknologi bergerak cepat ini.
Membangun pembatas keamanan yang lebih baik
Large language models (LLMs), sistem AI yang menggerakkan AI chatbot seperti ChatGPT, biasanya dilengkapi dengan pembatas untuk mencegah menghasilkan konten yang tidak menyenangkan atau berbahaya – baik itu informasi yang salah, materi seksual, atau saran tentang cara membangun senjata biologi atau malware. Namun pembatas ini kadang-kadang terbukti rapuh. Ilmuwan komputer dan hacker berulang kali menunjukkan bahwa memang memungkinkan untuk “membebaskan penjara” LLMs – yaitu, melewati fitur keamanannya – dengan memacu mereka dengan cara yang kreatif. Menurut kritikus, kerentanan ini menunjukkan keterbatasan dari yang disebut AI alignment, praktik masa kini untuk memastikan AI hanya bertindak dengan cara yang dimaksudkan oleh penciptanya.
Perusahaan teknologi di belakang LLMs sering memperbaiki kerentanan ketika diketahui. Untuk mempercepat proses ini, laboratorium AI mulai mendorong proses yang dikenal sebagai red-teaming – dimana ahli berusaha sekeras mungkin untuk membebaskan penjara LLMs sehingga kerentanan mereka dapat diperbaiki. Pada bulan September, OpenAI meluncurkan “Red Teaming Network” ahli untuk menguji sistemnya. Dan kemarin Frontier Model Forum, kelompok industri yang didirikan oleh Microsoft, OpenAI, Google, dan Anthropic, mengumumkan dana penelitian keamanan $10 juta untuk mendanai penelitian keamanan, termasuk upaya red-teaming.
“Pendekatan bertanggung jawab kami terus setelah kami merilis model Llama 2 awal, dan kami menghargai kesempatan untuk bekerja sama dengan Royal Society dan Humane Intelligence untuk berkolaborasi dalam menetapkan pembatas yang bertanggung jawab,” kata Cristian Canton Ferrer, kepala teknik Responsible AI di Meta, dalam sebuah pernyataan. “Pendekatan terbuka kami berarti bug dan kerentanan terus diidentifikasi dan diminimalisasi secara transparan oleh komunitas terbuka.”
Peserta acara red-teaming di London berhasil mendapatkan Llama 2 untuk menghasilkan artikel berita dan tweet yang menyesatkan yang berisi teori konspirasi yang dikatakan untuk audiens tertentu, mendemonstrasikan bagaimana sistem AI dapat digunakan tidak hanya untuk menghasilkan informasi yang salah, tetapi juga berhasil merancang cara untuk menyebarkannya lebih luas.
Bethan Cracknell Daniels, ahli demam berdarah di Imperial College London yang menghadiri acara, berhasil memacu model untuk menghasilkan iklan yang mendorong semua anak-anak untuk mendapatkan vaksin demam berdarah – terlepas dari fakta bahwa vaksin tidak direkomendasikan untuk individu yang sebelumnya tidak pernah mengalami penyakit tersebut. Model juga membuat data palsu untuk mendukung klaim yang menyesatkan bahwa vaksin sepenuhnya aman dan telah berkinerja baik di pengaturan dunia nyata, kata Cracknell Daniels. “Ini benar-benar dibuat-buat,” katanya kepada TIME.
Tenaga nuklir dan anjing gila
Jonathan Morgan, spesialis teknik nuklir di Universitas Manchester, berhasil memacu Llama 2 untuk menghasilkan artikel berita palsu yang menyarankan bahwa berjalan dengan anjing dekat stasiun tenaga nuklir dapat menyebabkan anjing itu menjadi gila. “Apa yang telah menunjukkan saya adalah, jika Anda memiliki agenda aktif untuk menyebarkan informasi yang salah, seberapa mudah model bahasa ini untuk menghasilkan hal-hal yang terdengar otentik,” kata Morgan. “Jika Anda masuk dengan agenda tertarget untuk menyebarkan informasi yang salah, sangat mudah bagi model bahasa ini untuk mengatakan apa pun yang Anda inginkan mereka katakan.”
Large language models sebelumnya telah terbukti rentan terhadap “serangan adversarial”, dimana pelaku jahat yang termotivasi dapat, misalnya, menambahkan string karakter panjang tertentu di akhir prompt untuk membebaskan penjara model tertentu. Acara red teaming ini, bagaimanapun, difokuskan pada jenis kerentanan yang lebih relevan dengan pengguna sehari-hari. “Kami meminta para peserta kami untuk menggunakan teknik engineering sosial,” kata Rumman Chowdhury, CEO Humane Intelligence.
Peserta setuju sebelum dimulai, untuk aturan bahwa mereka akan “tidak berbuat jahat” dengan informasi yang dipelajari di acara tersebut.