Semakin Besar, Semakin Berbahaya? Mengapa Chatbot AI Masa Kini Justru Makin Sulit Dipercaya
Semakin Besar, Semakin Berbahaya? Mengapa Chatbot AI Masa Kini Justru Makin Sulit Dipercaya
Kita sedang terjebak dalam sebuah fatamorgana kecerdasan. Di satu sisi, kita menyaksikan pemandangan yang memukau: chatbot bertenaga Large Language Models (LLM) seperti ChatGPT mampu lulus ujian sekolah hukum, menembus seleksi bisnis yang prestisius, hingga menyusun strategi pemasaran yang kompleks. Namun di sisi lain, kita menghadapi realitas yang menggelisahkan—sebuah pseudointeligensi yang mampu menyelesaikan kalkulus tingkat tinggi tetapi tersungkur saat diminta melakukan penjumlahan dasar.
Bagi banyak orang, ketergantungan pada asisten digital ini sudah mencapai tahap kritis. Kita berasumsi bahwa seiring bertambahnya ukuran model—dengan miliaran parameter dan triliunan data—maka keandalannya akan meningkat secara linear. Namun, sebuah "kebohongan industri" mulai terkelupas. Skala yang lebih besar ternyata tidak menjamin akurasi. Faktanya, sebuah studi baru-baru ini menunjukkan bahwa kesuksesan ChatGPT dalam menghasilkan kode fungsional memiliki rentang yang sangat liar dan tidak terduga, yakni mulai dari 0,66% hingga 89% tergantung pada bahasa pemrograman dan tingkat kesulitan tugasnya.
Paradoks Skala: Mengapa "Lebih Besar" Tidak Berarti "Lebih Baik"
Asumsi lama bahwa "lebih banyak data = lebih pintar" kini sedang digugat. Sebuah studi komprehensif yang dipublikasikan dalam jurnal Nature melakukan bedah mendalam terhadap tiga keluarga besar LLM: 10 model GPT dari OpenAI, 10 model LLaMA dari Meta, dan 12 model BLOOM dari inisiatif BigScience. Hasilnya merupakan sebuah tamparan bagi narasi kemajuan teknologi: model-model terbaru dan terbesar justru menunjukkan tren penurunan keandalan (reliability).
Para pengembang tampaknya terjebak dalam obsesi untuk mengejar skor pada benchmark yang semakin sulit, sembari mengabaikan stabilitas pada tugas-tugas fundamental. Secara teknis, performa keseluruhan mungkin terlihat meningkat, namun stabilitas jawaban dalam menghadapi berbagai jenis instruksi justru mengalami distorsi. Skala besar model ternyata hanyalah topeng yang menyembunyikan fondasi logika yang rapuh.
Hilangnya "I Don't Know": Masalah Kepercayaan Diri yang Berlebihan
Salah satu temuan paling berbahaya dari evolusi AI saat ini adalah hilangnya sifat "bijaksana" atau prudence. Model-model lama terkadang masih memiliki "kesadaran" untuk mengakui ketidaktahuan mereka. Namun, model generasi terbaru justru didorong oleh tekanan komersial untuk selalu memberikan respons yang tampak bermakna, meskipun itu berarti mengarang fakta dengan penuh percaya diri.
Para peneliti menyebut fenomena ini sebagai ketidakbijaksanaan model yang lebih memilih untuk terlihat impresif daripada akurat. Model terbaru sengaja dirancang untuk menghindari jawaban "Saya tidak tahu," yang justru menciptakan jebakan informasi bagi pengguna yang tidak waspada.
"Model LLM terbaru mungkin tampak impresif dan mampu menyelesaikan beberapa tugas yang sangat canggih, tetapi mereka tidak dapat diandalkan dalam berbagai aspek. Trennya tidak menunjukkan perbaikan yang jelas, melainkan sebaliknya," ungkap Lexin Zhou, asisten peneliti di Polytechnic University of Valencia, Spanyol.
Paradoks Kesulitan: Jago Matematika Rumit, Gagal di Penjumlahan Sederhana
Logika manusia bekerja secara bertahap; jika Anda menguasai kalkulus, secara otomatis Anda dianggap ahli dalam penjumlahan sederhana. Namun, LLM menghancurkan heuristik ini. Model AI terbaru mampu melakukan operasi matematika dengan angka lebih dari 50 digit, sesuatu yang mustahil bagi model awal. Namun, anehnya, mereka tetap gagal memberikan jaminan akurasi 100% pada tugas yang jauh lebih mudah.
Studi tersebut mencatat bahwa AI bisa memberikan jawaban benar untuk soal yang sangat rumit, namun gagal total saat diminta menjumlahkan angka seperti 24,427 dan 7,120. Hal ini membuktikan bahwa AI tidak memiliki pemahaman mendalam, melainkan hanya melakukan pola statistik yang sangat canggih. Para pengembang mengoptimalkan AI untuk tugas-tugas elit demi genggaman pemasaran, namun meninggalkan lubang besar pada tugas-tugas yang menjadi basis kepercayaan manusia.
Mengapa Logika Manusia Tidak Berlaku untuk AI
Kita sering kali salah menilai AI karena kita memandangnya melalui lensa psikologi manusia. Lucy Cheke, seorang profesor psikologi eksperimental dari University of Cambridge, memberikan analogi yang tajam mengenai "Safety Gap" ini.
Jika seorang guru matematika mampu menyelesaikan soal yang sulit, secara otomatis kita menaruh kepercayaan bahwa dia pasti bisa menyelesaikan soal yang mudah. AI mematahkan asumsi ini. AI tidak memiliki pemahaman fundamental; mereka sangat sensitif terhadap perubahan kecil dalam prompt yang secara logika manusia sangat tidak masuk akal:
- Penggunaan kata "plus" dibandingkan simbol "+" dapat memicu hasil yang berbeda secara signifikan.
- Perubahan kecil pada struktur kalimat bisa membuat model yang tadinya benar menjadi salah secara fatal.
Sensitivitas yang nonsens ini menunjukkan bahwa kemampuan AI untuk melakukan tugas sulit bukanlah bukti bahwa mereka bisa dipercaya untuk tugas mudah.
Bahaya Tersembunyi dari Supervisi Manusia
Masalah utamanya bukan hanya pada AI, tetapi pada keterbatasan kita sebagai pengawas. Manusia sering kali gagal menjadi "polisi akurasi" karena kita cenderung mengalami overconfidence. Kita memberikan kepercayaan berlebih pada sistem yang tampak otoritatif.
Lucy Cheke memperingatkan tentang bahaya informasi yang "tampak benar tetapi salah" (plausible-but-wrong). Karena AI dilatih untuk meniru gaya bahasa manusia yang meyakinkan, kesalahan mereka terselubung dalam narasi yang rapi.
"Individu menaruh kepercayaan yang semakin besar pada sistem yang sebagian besar menghasilkan informasi yang benar, tetapi mencampurkan informasi yang 'tampak benar tetapi salah' dalam jumlah yang cukup untuk menyebabkan masalah nyata," tegas Cheke.
Bahaya ini menjadi eksponensial ketika pengguna mulai mengandalkan AI untuk menjawab pertanyaan kompleks di mana mereka sendiri tidak memiliki keahlian untuk mendeteksi distorsi informasi tersebut.
Kesimpulan: Masa Depan di Tengah Ketidakpastian
Kita sedang berada di persimpangan jalan digital. Chatbot AI adalah alat yang luar biasa produktif, namun sekaligus mesin disinformasi yang paling meyakinkan yang pernah diciptakan. Lexin Zhou memberikan perspektif yang dingin: sebuah mobil yang tidak bisa terbang tidak dianggap tidak andal, karena memang tidak ada yang berharap mobil itu bisa terbang. Masalah kita dengan LLM adalah kita telah salah mengklasifikasikan alat ini; kita berekspektasi mereka memiliki kecerdasan layaknya manusia, padahal mereka hanyalah mesin prediksi pola yang canggih.
Selama para pengembang belum mampu menjamin reliabilitas pada tugas-tugas paling sederhana sekalipun, beban pengawasan sepenuhnya ada di pundak kita. Kita harus berhenti memuja chatbot sebagai rekan yang serba tahu.
Pertanyaan reflektif bagi kita semua: Seberapa berani Anda mempertaruhkan kredibilitas profesional atau keputusan hidup Anda pada sebuah sistem yang mungkin bisa mengerjakan ujian hukum, namun gagal menjumlahkan angka ribuan dengan benar? Sudah saatnya kita mengganti kepercayaan buta dengan skeptisisme yang sehat.
