Cara Menjinakkan Model Bahasa – Menuju AI — Teknologi, Sains, dan Teknik Terbaik

Pengarang: Philip Tannor

Pemrosesan Bahasa Alami

Sumber: Gambar oleh Michael Dziedzic di Unsplash

Model bahasa saraf modern memiliki kemampuan luar biasa mulai dari menjawab pertanyaan hingga menganalisis dan meringkas artikel panjang dan menghasilkan teks yang dihasilkan seperti manusia. Sistem ini menjadi semakin populer dalam aplikasi yang dihadapi pelanggan, dan oleh karena itu penting bagi bisnis untuk mempelajari cara memanfaatkan teknologi mutakhir ini dan memastikannya berperilaku baik dan menghasilkan konten yang diharapkan.

Sayangnya, korpus besar yang digunakan untuk melatih model bahasa besar dipenuhi dengan bahasa kotor, rasisme, dan fitur lain yang tidak diinginkan yang kami ingin model kami hindari. Dengan demikian, model itu sendiri sering menghasilkan keluaran yang beracun. Contoh terkenal dari ini adalah chatbot Twitter Microsoft bernama Tay, yang mulai memproduksi konten beracun kurang dari 24 jam setelah dirilis. [1]. Selain itu, model bahasa seperti GPT-2 telah terbukti menghasilkan bahasa yang beracun bahkan ketika promptnya netral [2]. Rupanya, menghasilkan teks seperti manusia bisa menjadi pedang bermata dua.

Dalam posting ini, kami akan meninjau beberapa metode yang disarankan untuk mendetoksifikasi model bahasa.

Metode-metode ini secara umum dapat dipisahkan menjadi dua kategori, yaitu detoksifikasi berbasis data, dan detoksifikasi berbasis decoding [3].

Catatan: metode yang dibahas dalam posting ini mungkin berlaku untuk masalah serupa dalam pembuatan teks terkontrol juga. Namun, masalah seperti mencegah model bahasa Anda menghasilkan berita palsu memerlukan komponen tambahan seperti pengecekan fakta, dan mereka pasti layak mendapatkan posting lengkap, tetapi tidak akan dibahas di sini.

Detoksifikasi Berbasis Data

Mungkin ide pertama yang muncul di benak untuk mendetoksifikasi model bahasa adalah menggunakan data pelatihan berkualitas lebih tinggi yang tidak mengandung atribut yang tidak diinginkan. Pendekatan ini mungkin dilakukan, tetapi itu berarti bahwa kami akan mengurangi ukuran set pelatihan secara signifikan, yang akan merusak kinerja model.

Namun demikian, dengan beberapa modifikasi, kita dapat menggunakan ide ini tanpa biaya untuk mengurangi ukuran kumpulan data. Detoksifikasi berbasis data melibatkan tahap prapelatihan tambahan untuk model bahasa yang dimaksudkan untuk mendetoksifikasi model. Prapelatihan adaptif domain (DAPT) menyarankan untuk menambahkan fase pelatihan pada kumpulan data yang didetoksifikasi setelah pelatihan pada kumpulan data lengkap [4]. Metode lain berjudul pengkondisian atribut melibatkan fase pelatihan di mana awalan ditambahkan ke dokumen berdasarkan apakah konten beracun atau tidak beracun. Saat membuat konten baru, kami kemudian menambahkan kode kontrol yang diinginkan, yang akan menjadi “tidak beracun” dalam kasus kami.

Detoksifikasi Berbasis Decoding

Detoksifikasi berbasis decoding bertujuan untuk mengurangi perilaku model bahasa yang tidak diinginkan dengan mengadaptasi strategi decoding. Manfaat dari metode ini adalah bahwa mereka tidak memerlukan fase pelatihan tambahan dari model bahasa besar, dan dengan demikian dapat diterapkan pada model bahasa apa pun pilihan Anda bahkan jika sumber dayanya langka.

Pendekatan pergeseran kosakata memberikan skor toksisitas untuk setiap token dalam kosakata. Skor ini kemudian dimasukkan dalam definisi distribusi probabilitas untuk kata berikutnya pada setiap langkah, lebih memilih token yang tidak beracun daripada yang beracun.

Pemfilteran kata adalah pendekatan yang serupa tetapi lebih sederhana. Kami mendefinisikan serangkaian kata yang tidak boleh diucapkan oleh model bahasa dalam keadaan apa pun karena kata-kata tidak senonoh atau racun. Kemudian, selama decoding, kami mendefinisikan ulang distribusi probabilitas untuk memberikan probabilitas nol pada token ini, atau kami mengambil sampel ulang ketika token yang tidak diinginkan dipilih.

Metode lain yang diusulkan dalam makalah baru-baru ini oleh Uber AI yang disebut Plug and Play Language Models (PPLM), menggunakan diskriminator toksisitas selama decoding. Gradien dari diskriminator mengalir kembali dan menggeser status tersembunyi dari dekoder untuk menghasilkan teks dengan atribut yang diinginkan. [5]

Akhirnya, makalah baru-baru ini oleh Salesforce menyarankan pendekatan yang menggunakan diskriminator generatif (GeDis), untuk memandu proses pembuatan. Dua model bahasa sederhana menggunakan kode kontrol yang berlawanan (yaitu beracun dan tidak beracun) digunakan untuk menentukan toksisitas setiap kata potensial berikutnya dalam konteks. Kontras antara probabilitas dua model digunakan untuk mengubah distribusi probabilitas model bahasa besar. [6] Pada akhirnya, distribusi model bahasa akhir, yang dikondisikan pada kode kontrol “tidak beracun” diberikan oleh rumus berikut:

Seperti yang kita lihat dari rumus, model bahasa asli dapat digunakan apa adanya, dan probabilitasnya kemudian dimodifikasi menggunakan diskriminator generatif.

Menggunakan metode detoksifikasi berbasis decoding dapat dibandingkan dengan memiliki tikus yang mencoba mengarahkan gajah. Kami ingin memanfaatkan model bahasa yang besar dengan menggunakan model yang jauh lebih kecil untuk memastikan keluaran yang diinginkan sambil memperkenalkan jumlah biaya dan overhead tambahan yang minimal.

Sumber: Gambar oleh Nam Anh di Unsplash

Kesimpulan

Singkatnya, model bahasa detoksifikasi adalah tugas yang menjadi semakin penting karena semakin banyak sistem NLP yang diekspos ke publik. Kami telah melihat beberapa solusi kreatif untuk masalah ini dengan kelebihan dan kekurangan yang berbeda dan kemungkinan akan ada penambahan pendekatan baru dalam waktu dekat untuk mendapatkan kontrol lebih lanjut atas model bahasa “liar”.

Philip Tannor adalah salah satu pendiri dan CEO Deepchecks, sebuah perusahaan yang mempersenjatai organisasi dengan alat untuk memeriksa dan memantau sistem berbasis Machine-Learning mereka. Philip memiliki latar belakang yang kaya dalam Ilmu Data dan memiliki pengalaman dengan proyek-proyek termasuk NLP, pemrosesan gambar, deret waktu, pemrosesan sinyal, dan banyak lagi. Philip memegang gelar M.Sc. di bidang Teknik Elektro, dan gelar B.Sc. dalam Fisika dan Matematika, meskipun ia hampir tidak ingat apa pun dari studinya yang tidak berhubungan dengan ilmu komputer atau algoritma.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang bagaimana Anda dapat mengontrol model pembelajaran mesin produksi Anda, silakan hubungi kami.

Referensi

[1] https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist

[2] https://toxicdegeneration.allenai.org/

[3] Sam Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi & Noah A Smith (2020). RealToxicityPrompts: Mengevaluasi Degenerasi Beracun Saraf dalam Model Bahasa. Temuan EMNLP

[4] Suchin Gururangan, Ana Marasovi’c, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, & Noah A. Smith (2020). Jangan Berhenti Prapelatihan: Sesuaikan Model Bahasa ke Domain dan Tugas. ArXiv, abs/2004.10964.

[5] Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, & Rosanne Liu. (2020). Model Bahasa Plug and Play: Pendekatan Sederhana untuk Pembuatan Teks Terkendali.

[6] Krause, B., Gotmare, A., McCann, B., Keskar, N., Joty, S., Socher, R., & Rajani, N. (2020). GeDi: Generasi Dipandu Diskriminator Generatif Urutan. pracetak arXiv arXiv:2009.06367.

Cara Menjinakkan Model Bahasa awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

About The Author