Metode Memeluk Wajah Filter()

Hugging Face memiliki beberapa model dan kumpulan data pemrosesan bahasa alami (NLP). Kumpulan data yang sangat besar ini berisi banyak informasi yang membantu melatih model secara akurat. Namun terkadang kita tidak membutuhkan keseluruhan dataset karena kita hanya membutuhkan sebagian kecil saja untuk memenuhi kebutuhan kita saat ini. Jika kita ingin menggunakan kumpulan data yang sama seperti biasa dengan semua informasinya, pelatihan dan pengoptimalan model memerlukan banyak waktu sehingga hanya membuang-buang waktu.

Jadi, kita memerlukan semacam metode atau paket yang dapat mengekstrak informasi relevan dari kumpulan data. Dalam bahasa sederhana, kami dapat mengatakan bahwa kami memerlukan opsi filter tambahan untuk memfilter kumpulan data sesuai kebutuhan kami.

Hugging Face menyediakan opsi berbeda untuk memfilter kumpulan data yang membantu pengguna membuat kumpulan data khusus yang hanya berisi contoh atau informasi yang memenuhi kondisi tertentu.

Pilih() Metode

Metode ini bekerja pada daftar indeks yang berarti kita harus mendefinisikan daftar. Di dalam daftar itu, kita harus menyebutkan nilai indeks semua baris yang ingin kita ekstrak. Namun metode ini hanya berfungsi untuk kumpulan data kecil dan bukan untuk kumpulan data besar, karena kami tidak dapat melihat keseluruhan kumpulan data jika berukuran GB (giga byte) atau TB (tera byte).

Contoh :

kumpulan data_baru = Himpunan data. Pilih ( [ 0 , sebelas , dua puluh satu , Empat. Lima , lima puluh , 55 ] )

mencetak ( hanya ( kumpulan data_baru ) )

Dalam contoh ini, kami menggunakan metode “pilih” untuk memfilter informasi yang diperlukan dari kumpulan data.

Filter() Metode

Metode filter() mengatasi masalah proses select() karena tidak ada kondisi khusus. Metode filter() mengembalikan semua baris yang cocok dengan situasi atau kondisi tertentu.

Contoh: Kami menyimpan program Python ini dengan nama “test.py”.

dari kumpulan data impor memuat_dataset

# Langkah 1: Muat kumpulan data
Himpunan data = memuat_dataset ( 'imdb' )

# Langkah 2: Tentukan fungsi pemfilteran
def filter_kustom ( contoh ) :
'''
Fungsi pemfilteran khusus untuk mempertahankan contoh positif
sentimen (label == 1).
'''
kembali contoh [ 'label' ] == 1

# Langkah 3: Terapkan filter untuk membuat kumpulan data baru yang difilter
filter_dataset = Himpunan data. Saring ( filter_kustom )

# Langkah 4: Periksa nama kolom yang tersedia di kumpulan data yang difilter
mencetak ( 'Kolom yang tersedia di kumpulan data yang difilter:' ,
filter_dataset. nama_kolom )

# Langkah 5: Akses informasi dari kumpulan data yang difilter
difilter_contoh = filter_dataset [ 'kereta' ]
num_filtered_examples = hanya ( difilter_contoh )

# Langkah 6: Cetak jumlah total contoh yang difilter
mencetak ( 'Total contoh yang difilter:' , num_filtered_examples )

Keluaran:

Penjelasan:

Baris 1: Kami mengimpor paket load_dataset yang diperlukan dari kumpulan data.

Baris 4: Kami memuat dataset “imdb” menggunakan load_dataset.

Baris 7 hingga 12: Kami mendefinisikan fungsi pemfilteran khusus “ filter_kustom “ untuk menjaga contoh dengan sentimen positif (label == 1). Fungsi ini hanya mengembalikan baris yang nilai labelnya 1.

Baris 15: Baris ini menunjukkan bahwa dataset memiliki data review film “imdb”. Kami sekarang menerapkan fungsi filter ke database ini untuk memisahkan ulasan positif dari database yang selanjutnya disimpan di “filtered_dataset.”

Baris 18 dan 19: Sekarang, kita periksa nama kolom apa yang tersedia di filtered_dataset. Jadi, kode “filtered_dataset.column_names” memberikan detail persyaratan kami.

Baris 22 dan 23: Di baris ini, kita memfilter kolom “kereta” dari filtered_dataset dan mencetak jumlah total (panjang) kolom kereta.

Baris 26: Pada baris terakhir ini, kita mencetak hasil dari baris nomor 23.

Filter() dengan Indeks

Metode filter() juga dapat digunakan dengan indeks seperti yang terlihat pada mode select(). Namun untuk itu, kami harus menyebutkan bahwa kata kunci “with_indices=true” harus ditentukan di luar metode filter() seperti yang ditunjukkan pada contoh berikut:

kumpulan data_ganjil = Himpunan data. Saring ( lambda contoh , idx: idx% 2 != 0 , dengan_indeks = BENAR )

mencetak ( hanya ( kumpulan data_ganjil ) )

Dalam contoh ini, kami menggunakan metode filter() untuk memfilter informasi yang diperlukan dari kumpulan data, termasuk hanya baris ganjil saja.

Detail lengkap setiap parameter metode filter() dapat ditemukan di sini tautan .

Kesimpulan

Pustaka kumpulan data Hugging Face menyediakan kumpulan alat yang canggih dan mudah digunakan untuk bekerja secara efisien dengan berbagai kumpulan data, terutama dalam konteks Pemrosesan Bahasa Alami (NLP) dan tugas pembelajaran mesin. Fungsi filter() yang disajikan dalam program ini memungkinkan peneliti dan praktisi mengekstrak subkumpulan data yang relevan dengan menentukan kriteria pemfilteran yang ditentukan pengguna. Dengan menggunakan fungsi ini, pengguna dapat dengan mudah membuat kumpulan data baru yang memenuhi kondisi tertentu seperti mempertahankan sentimen positif dalam ulasan film atau mengekstrak data teks tertentu.

Demonstrasi langkah demi langkah ini menggambarkan betapa mudahnya memuat kumpulan data, menerapkan fungsi filter khusus, dan mengakses data yang difilter. Selain itu, fleksibilitas parameter fungsi memungkinkan operasi pemfilteran khusus, termasuk dukungan untuk beberapa pemrosesan untuk kumpulan data besar. Dengan pustaka kumpulan data Hugging Face, pengguna dapat menyederhanakan data mereka.

Metode Memeluk Wajah Filter()

Pilih() Metode

Contoh :

Filter() Metode

Penjelasan:

Filter() dengan Indeks

Kesimpulan

Kategori

Pesan Populer

Cara Menghapus Layar di Linux

Cara Memecahkan Masalah Umum di Metasploit selama Pengujian Penetrasi

Cara Mendeklarasikan Variabel dalam C

Bagaimana Cara Menggunakan Cmdlet Get-Item (Microsoft.PowerShell.Management) di PowerShell?

Cara Menggunakan Elemen Array di MATLAB

Apa Sebenarnya Tautan Internal HTML itu?

Bagaimana Cara Mengakses Rahasia API Menggunakan AWS Lambda?

Bagaimana Cara Memperbaiki Tidak Dapat Mengakses Masalah Folder WindowsApps di Windows 10?

Bagaimana Cara Melakukan Kontainer Docker yang Berjalan?

Cara Mendapatkan Dekode Rahasia di Kubernetes

4 Perbaikan untuk Mengaktifkan Stereo Mix di Windows 10

Bagaimana Cara Mengonversi Detik ke Menit di JavaScript?

Apa itu ESP32-Pico-D4

HKEY_USERS | Cara Mencocokkan Profil Pengguna dengan Folder

Apa yang Dilakukan Metode console.time() di JavaScript

Bagaimana Cara Melakukan Checkout Hanya Satu File Dari Repositori Git?

String.charAt() Fungsi Arduino

Bagaimana Menafsirkan Simbol Skema Transformator

Bagaimana overflow:scroll Berbeda dengan overflow: auto?

Aplikasi Golang untuk Dijalankan sebagai Kontainer Docker