Metode Memeluk Wajah Filter()

Metode Memeluk Wajah Filter



Hugging Face memiliki beberapa model dan kumpulan data pemrosesan bahasa alami (NLP). Kumpulan data yang sangat besar ini berisi banyak informasi yang membantu melatih model secara akurat. Namun terkadang kita tidak membutuhkan keseluruhan dataset karena kita hanya membutuhkan sebagian kecil saja untuk memenuhi kebutuhan kita saat ini. Jika kita ingin menggunakan kumpulan data yang sama seperti biasa dengan semua informasinya, pelatihan dan pengoptimalan model memerlukan banyak waktu sehingga hanya membuang-buang waktu.

Jadi, kita memerlukan semacam metode atau paket yang dapat mengekstrak informasi relevan dari kumpulan data. Dalam bahasa sederhana, kami dapat mengatakan bahwa kami memerlukan opsi filter tambahan untuk memfilter kumpulan data sesuai kebutuhan kami.

Hugging Face menyediakan opsi berbeda untuk memfilter kumpulan data yang membantu pengguna membuat kumpulan data khusus yang hanya berisi contoh atau informasi yang memenuhi kondisi tertentu.







Pilih() Metode

Metode ini bekerja pada daftar indeks yang berarti kita harus mendefinisikan daftar. Di dalam daftar itu, kita harus menyebutkan nilai indeks semua baris yang ingin kita ekstrak. Namun metode ini hanya berfungsi untuk kumpulan data kecil dan bukan untuk kumpulan data besar, karena kami tidak dapat melihat keseluruhan kumpulan data jika berukuran GB (giga byte) atau TB (tera byte).



Contoh :

kumpulan data_baru = Himpunan data. Pilih ( [ 0 , sebelas , dua puluh satu , Empat. Lima , lima puluh , 55 ] )

mencetak ( hanya ( kumpulan data_baru ) )

Dalam contoh ini, kami menggunakan metode “pilih” untuk memfilter informasi yang diperlukan dari kumpulan data.



Filter() Metode

Metode filter() mengatasi masalah proses select() karena tidak ada kondisi khusus. Metode filter() mengembalikan semua baris yang cocok dengan situasi atau kondisi tertentu.





Contoh: Kami menyimpan program Python ini dengan nama “test.py”.

dari kumpulan data impor memuat_dataset

# Langkah 1: Muat kumpulan data
Himpunan data = memuat_dataset ( 'imdb' )

# Langkah 2: Tentukan fungsi pemfilteran
def filter_kustom ( contoh ) :
'''
Fungsi pemfilteran khusus untuk mempertahankan contoh positif
sentimen (label == 1).
'''

kembali contoh [ 'label' ] == 1

# Langkah 3: Terapkan filter untuk membuat kumpulan data baru yang difilter
filter_dataset = Himpunan data. Saring ( filter_kustom )

# Langkah 4: Periksa nama kolom yang tersedia di kumpulan data yang difilter
mencetak ( 'Kolom yang tersedia di kumpulan data yang difilter:' ,
filter_dataset. nama_kolom )

# Langkah 5: Akses informasi dari kumpulan data yang difilter
difilter_contoh = filter_dataset [ 'kereta' ]
num_filtered_examples = hanya ( difilter_contoh )

# Langkah 6: Cetak jumlah total contoh yang difilter
mencetak ( 'Total contoh yang difilter:' , num_filtered_examples )

Keluaran:



Penjelasan:

Baris 1: Kami mengimpor paket load_dataset yang diperlukan dari kumpulan data.

Baris 4: Kami memuat dataset “imdb” menggunakan load_dataset.

Baris 7 hingga 12: Kami mendefinisikan fungsi pemfilteran khusus filter_kustom untuk menjaga contoh dengan sentimen positif (label == 1). Fungsi ini hanya mengembalikan baris yang nilai labelnya 1.

Baris 15: Baris ini menunjukkan bahwa dataset memiliki data review film “imdb”. Kami sekarang menerapkan fungsi filter ke database ini untuk memisahkan ulasan positif dari database yang selanjutnya disimpan di “filtered_dataset.”

Baris 18 dan 19: Sekarang, kita periksa nama kolom apa yang tersedia di filtered_dataset. Jadi, kode “filtered_dataset.column_names” memberikan detail persyaratan kami.

Baris 22 dan 23: Di baris ini, kita memfilter kolom “kereta” dari filtered_dataset dan mencetak jumlah total (panjang) kolom kereta.

Baris 26: Pada baris terakhir ini, kita mencetak hasil dari baris nomor 23.

Filter() dengan Indeks

Metode filter() juga dapat digunakan dengan indeks seperti yang terlihat pada mode select(). Namun untuk itu, kami harus menyebutkan bahwa kata kunci “with_indices=true” harus ditentukan di luar metode filter() seperti yang ditunjukkan pada contoh berikut:

kumpulan data_ganjil = Himpunan data. Saring ( lambda contoh , idx: idx% 2 != 0 , dengan_indeks = BENAR )

mencetak ( hanya ( kumpulan data_ganjil ) )

Dalam contoh ini, kami menggunakan metode filter() untuk memfilter informasi yang diperlukan dari kumpulan data, termasuk hanya baris ganjil saja.

Detail lengkap setiap parameter metode filter() dapat ditemukan di sini tautan .

Kesimpulan

Pustaka kumpulan data Hugging Face menyediakan kumpulan alat yang canggih dan mudah digunakan untuk bekerja secara efisien dengan berbagai kumpulan data, terutama dalam konteks Pemrosesan Bahasa Alami (NLP) dan tugas pembelajaran mesin. Fungsi filter() yang disajikan dalam program ini memungkinkan peneliti dan praktisi mengekstrak subkumpulan data yang relevan dengan menentukan kriteria pemfilteran yang ditentukan pengguna. Dengan menggunakan fungsi ini, pengguna dapat dengan mudah membuat kumpulan data baru yang memenuhi kondisi tertentu seperti mempertahankan sentimen positif dalam ulasan film atau mengekstrak data teks tertentu.

Demonstrasi langkah demi langkah ini menggambarkan betapa mudahnya memuat kumpulan data, menerapkan fungsi filter khusus, dan mengakses data yang difilter. Selain itu, fleksibilitas parameter fungsi memungkinkan operasi pemfilteran khusus, termasuk dukungan untuk beberapa pemrosesan untuk kumpulan data besar. Dengan pustaka kumpulan data Hugging Face, pengguna dapat menyederhanakan data mereka.