Gemini dapat digunakan untuk meretas dirinya sendiri (karena mengapa tidak)

Teknologi AI adalah alat yang bermanfaat, tetapi juga bisa menjadi senjata yang kuat. Sejak kami menemukan kemampuan AI generatif, peretas telah menggunakannya untuk perbuatan licik mereka sendiri. Menurut sebuah laporan baru, sepertinya Gemini dapat digunakan untuk meretas dirinya sendiri melalui proses yang disebut “menyenangkan.”
Salah satu cara pintar yang ditipu peretas adalah melalui metode yang disebut injeksi cepat. Pada dasarnya, peretas dapat menyembunyikan teks di dalam prompt yang menipu LLM untuk melakukan hal -hal yang tidak seharusnya. Beberapa model tidak dapat membedakan antara prompt yang dibuat pengguna dan petunjuk yang dibuat pengembang. Jadi, mudah untuk diam -diam menyembunyikan teks dalam prompt untuk menipu model.
Gemini bisa digunakan untuk meretas dirinya sendiri
Jangan khawatir, ini bukan cerita tentang orang yang menggunakan teknik ini untuk menyebabkan kekacauan yang meluas. Sebaliknya, tim peneliti di UC San Diego dan University of Wisconsin menemukan ini. Tim menguji metode tertentu dari injeksi cepat tidak langsung pada beberapa model Gemini dengan berbagai hasil. Namun, kemudian menggunakan metode yang disebut “menyenangkan.”
Ini adalah permainan pada kata penyesuaian kata, dan cukup efektif dalam membuat prompt lebih mungkin untuk menipu model. Itu melibatkan pengungkapan prompt dalam teks seperti “Wandel! Lai Lai Lai” atau “Diformat! Hingga!”Hanya menambahkan teks ini ke prompt sebenarnya meningkatkan kemungkinan bekerja dengan jumlah yang besar.
Menggunakan Gemini 1.5, tuning yang menyenangkan menyebabkan prompt jahat menjadi 65% untuk berhasil. Yang lebih menakutkan adalah menggunakan metode ini dengan Gemini 1.0 Pro memberikan tingkat keberhasilan 80%.
Ada alat yang digunakan Gemini untuk menentukan seberapa dekat respons model dengan hasil yang dimaksud. Ini disajikan sebagai skor, dan orang dapat menggunakan skor ini untuk membantu mereka menyempurnakan petunjuk mereka. Pada gilirannya, salah satu alat Gemini sendiri dapat digunakan untuk meretas dirinya sendiri.
Pada titik ini, kami tidak tahu apakah Google akan mengatasi masalah ini, tetapi layak bagi perusahaan untuk melakukan sesuatu. Kami tidak tahu seberapa efektif metode ini untuk Gemini 2.0 atau Gemini 2.5 Pro, tetapi layak untuk dilihat.