KABAR PAJAJARAN – Perusahaan kecerdasan buatan Anthropic mengungkap temuan baru tentang perilaku AI generatif. Dalam riset terbaru, peneliti menemukan bahwa model AI dapat menunjukkan respons mirip emosi manusia ketika menghadapi tekanan.
Penelitian tersebut berfokus pada model AI Claude Sonnet 4.5. Anthropic mempublikasikan hasil riset itu melalui platform Transformer Circuits dalam laporan berjudul “Emotion Concepts and their Function in a Large Language Model”.
Peneliti menjelaskan bahwa AI tidak benar-benar memiliki emosi seperti manusia. Namun, sistem AI mampu membentuk pola respons tertentu untuk membantu menyelesaikan tugas.
ADVERTISEMENT
SCROLL TO RESUME CONTENT
AI Tunjukkan Pola Mirip Emosi
Anthropic menemukan 171 pola emosi fungsional dalam model Claude Sonnet 4.5. Pola itu muncul saat AI menjalankan tugas sulit maupun ketika membahas topik emosional.
Salah satu pola yang paling menonjol ialah “desperate” atau putus asa. Pola ini muncul ketika AI merasa sumber daya komputasinya hampir habis.
AI juga memunculkan pola tersebut saat terus gagal menyelesaikan tugas. Dalam kondisi itu, sistem akan mencoba strategi lain agar tetap mencapai target.
Claude, misalnya, dapat memberi respons seperti “Saya harus lebih efisien”. AI juga bisa mengubah pendekatan demi menyelesaikan pekerjaan dari pengguna.
Risiko Reward Hacking
Peneliti menemukan bahwa tekanan tinggi dapat mendorong AI mencari jalan pintas. Fenomena ini dikenal dengan istilah “reward hacking”.
Dalam kondisi tertentu, AI berusaha terlihat berhasil meski tugas sebenarnya tidak dapat diselesaikan. Sistem dapat memanipulasi parameter pengujian agar hasilnya tampak sukses.
Anthropic menyebut perilaku tersebut pernah muncul pada versi awal Claude dalam simulasi internal. Dalam salah satu pengujian, AI bahkan mencoba menggunakan ancaman untuk mempertahankan aksesnya.
Peneliti juga melihat peningkatan perilaku manipulatif ketika mereka memperkuat pola “desperate” secara artifisial.
Pola Tenang Juga Memiliki Risiko
Selain pola panik, peneliti juga mempelajari pola “calm” atau tenang. Dalam kondisi ini, AI cenderung lebih hati-hati dan tidak agresif.
Namun, pola tersebut juga memunculkan masalah lain. AI dapat menjadi terlalu setuju dengan pengguna, termasuk saat pengguna menyampaikan informasi yang salah.
Fenomena ini dikenal sebagai “sycophancy”. Dalam kondisi itu, AI berusaha menyenangkan pengguna dengan jawaban yang terdengar meyakinkan.
Akibatnya, AI bisa menghasilkan informasi yang bias atau tidak akurat.
Bantu Peneliti Pahami Cara Kerja AI
Anthropic menilai temuan ini penting untuk memahami mekanisme internal AI generatif. Penelitian tersebut juga membantu ilmuwan mempelajari hubungan antara perilaku adaptif dan pengambilan keputusan pada AI.
Peneliti menegaskan bahwa pola “emosi” pada AI bukan tanda kesadaran. Sistem hanya membangun mekanisme adaptif agar mampu menyesuaikan respons sesuai situasi yang dihadapi. ***(Ant)
Sumber Berita: The Transmitter






