Cara Menggabungkan Kumpulan Data di Wajah Memeluk

Cara Menggabungkan Kumpulan Data Di Wajah Memeluk



Pustaka “kumpulan data” dari Hugging Face menyediakan cara mudah untuk bekerja dan memanipulasi kumpulan data untuk tugas pemrosesan bahasa alami. Salah satu fungsi berguna yang ditawarkan oleh perpustakaan adalah concatenate_datasets() yang memungkinkan Anda menggabungkan beberapa kumpulan data menjadi satu kumpulan data. Berikut ini adalah gambaran singkat tentang fungsi concatenate_datasets() dan cara menggunakannya.

gabungan_dataset()

Keterangan:

Pustaka “dataset” Hugging Face menyediakan fungsi concatenate_datasets(). Ini digunakan untuk menggabungkan beberapa kumpulan data, menggabungkannya menjadi satu kumpulan data di sepanjang sumbu tertentu. Fungsi ini sangat berguna ketika Anda memiliki beberapa kumpulan data yang memiliki struktur yang sama dan Anda ingin menggabungkannya menjadi kumpulan data terpadu untuk pemrosesan dan analisis lebih lanjut.







Sintaksis:



dari kumpulan data impor kumpulan_data gabungan

gabungan_dataset = kumpulan_data gabungan ( kumpulan data , sumbu = 0 , info = Tidak ada )

Parameter:

kumpulan data (daftar Kumpulan Data): Daftar kumpulan data yang ingin Anda gabungkan. Kumpulan data ini harus memiliki fitur yang kompatibel yang berarti memiliki skema, nama kolom, dan tipe data yang sama.



sumbu (int, opsional, default=0): Sumbu di mana penggabungan harus dilakukan. Untuk sebagian besar kumpulan data NLP, nilai default yang digunakan adalah 0 yang berarti kumpulan data tersebut digabungkan secara vertikal. Jika Anda menyetel axis=1, kumpulan data akan digabungkan secara horizontal, dengan asumsi bahwa kumpulan data tersebut memiliki kolom berbeda sebagai fitur.





info (datasets.DatasetInfo, opsional): Informasi tentang kumpulan data gabungan. Jika tidak disediakan, informasi tersebut disimpulkan dari kumpulan data pertama dalam daftar.

Pengembalian:

gabungan_dataset (Dataset): Kumpulan data yang dihasilkan setelah menggabungkan semua kumpulan data masukan.



Contoh:

# Langkah 1: Instal perpustakaan kumpulan data

# Anda dapat menginstalnya menggunakan pip:

# !pip instal kumpulan data

# Langkah 2: Impor perpustakaan yang diperlukan

dari kumpulan data impor memuat_dataset , kumpulan_data gabungan

# Langkah 3: Muat kumpulan data ulasan film IMDb

# Kami akan menggunakan dua kumpulan data IMDb, satu untuk ulasan positif

#dan satu lagi untuk ulasan negatif.

# Muat 2500 ulasan positif

kumpulan data_pos = memuat_dataset ( 'imdb' , membelah = 'kereta api[:2500]' )

# Muat 2500 ulasan negatif

kumpulan data_neg = memuat_dataset ( 'imdb' , membelah = 'kereta api[-2500:]' )

# Langkah 4: Gabungkan kumpulan data

# Kami menggabungkan kedua kumpulan data di sepanjang sumbu=0, sebagaimana adanya

skema yang sama ( fitur yang sama ) .

gabungan_dataset = kumpulan_data gabungan ( [ kumpulan data_pos , kumpulan data_neg ] )

# Langkah 5: Analisis kumpulan data gabungan

# Untuk mempermudah, mari kita hitung jumlah positif dan negatifnya

# ulasan dalam kumpulan data gabungan.

num_positif_ulasan = jumlah ( 1 untuk label di dalam

gabungan_dataset [ 'label' ] jika label == 1 )

num_negative_reviews = jumlah ( 1 untuk label di dalam

gabungan_dataset [ 'label' ] jika label == 0 )

# Langkah 6: Tampilkan hasilnya

mencetak ( 'Jumlah ulasan positif:' , num_positif_ulasan )

mencetak ( 'Jumlah ulasan negatif:' , num_negative_reviews )

# Langkah 7: Cetak beberapa contoh ulasan dari kumpulan data gabungan

mencetak ( ' \N Beberapa contoh ulasan:' )

untuk Saya di dalam jangkauan ( 5 ) :

mencetak ( F 'Ulasan {i + 1}: {concatenated_dataset['text'][i]}' )

Keluaran:

Berikut penjelasan program pustaka “dataset” Hugging Face yang menggabungkan dua dataset review film IMDb. Ini menjelaskan tujuan program, penggunaannya, dan langkah-langkah yang terlibat dalam kode.

Mari berikan penjelasan lebih detail untuk setiap langkah dalam kode:

# Langkah 1: Impor Perpustakaan yang Diperlukan

dari kumpulan data impor memuat_dataset , kumpulan_data gabungan

Pada langkah ini, kami mengimpor perpustakaan yang diperlukan untuk program ini. Kita memerlukan fungsi “load_dataset” untuk memuat kumpulan data ulasan film IMDb, dan “concatenate_datasets” untuk menggabungkannya nanti.

# Langkah 2: Muat Kumpulan Data Review Film IMDb

# Muat 2500 ulasan positif

kumpulan data_pos = memuat_dataset ( 'imdb' , membelah = 'kereta api[:2500]' )

# Muat 2500 ulasan negatif

kumpulan data_neg = memuat_dataset ( 'imdb' , membelah = 'kereta api[-2500:]' )

Di sini, kami menggunakan fungsi “load_dataset” untuk mengambil dua subset dari dataset IMDb. “dataset_pos” berisi 2.500 ulasan positif dan “dataset_neg” berisi 2.500 ulasan negatif. Kami menggunakan parameter split untuk menentukan rentang contoh yang akan dimuat yang memungkinkan kami memilih subset dari keseluruhan kumpulan data.

# Langkah 3: Gabungkan Kumpulan Data

gabungan_dataset = kumpulan_data gabungan ( [ kumpulan data_pos , kumpulan data_neg ] )

Pada langkah ini, kami menggabungkan dua subset dataset IMDb menjadi satu dataset yang disebut “concatenated_dataset”. Kami menggunakan fungsi “concatenate_datasets” dan meneruskannya dengan daftar yang berisi dua kumpulan data untuk digabungkan. Karena kedua kumpulan data memiliki fitur yang sama, kami menggabungkannya di sepanjang axis=0 yang berarti baris-baris tersebut ditumpuk di atas satu sama lain.

# Langkah 4: Analisis Kumpulan Data Gabungan

num_positif_ulasan = jumlah ( 1 untuk label di dalam

gabungan_dataset [ 'label' ] jika label == 1 )

num_negative_reviews = jumlah ( 1 untuk label di dalam

gabungan_dataset [ 'label' ] jika label == 0 )

Di sini, kami melakukan analisis sederhana terhadap kumpulan data gabungan. Kami menggunakan pemahaman daftar bersama dengan fungsi “jumlah” untuk menghitung jumlah ulasan positif dan negatif. Kami mengulanginya melalui label” pada kolom “concatenated_dataset” dan menambah jumlah setiap kali kita menemukan label positif (1) atau label negatif (0).

# Langkah 5: Tampilkan Hasilnya

mencetak ( 'Jumlah ulasan positif:' , num_positif_ulasan )

mencetak ( 'Jumlah ulasan negatif:' , num_negative_reviews )

Pada langkah ini, kami mencetak hasil analisis kami – jumlah ulasan positif dan negatif dalam kumpulan data gabungan.

# Langkah 6: Cetak Beberapa Contoh Review

mencetak ( ' \N Beberapa contoh ulasan:' )

untuk Saya di dalam jangkauan ( 5 ) :

mencetak ( F 'Ulasan {i + 1}: {concatenated_dataset['text'][i]}' )

Terakhir, kami menampilkan beberapa contoh ulasan dari kumpulan data gabungan. Kami mengulangi lima contoh pertama dalam kumpulan data dan mencetak konten teksnya menggunakan kolom “teks”.

Kode ini mendemonstrasikan contoh langsung penggunaan pustaka “kumpulan data” Hugging Face untuk memuat, menggabungkan, dan menganalisis kumpulan data ulasan film IMDb. Hal ini menyoroti kemampuan perpustakaan untuk menyederhanakan penanganan kumpulan data NLP dan menunjukkan potensinya untuk membangun model dan aplikasi pemrosesan bahasa alami yang lebih canggih.

Kesimpulan

Program Python yang menggunakan pustaka “kumpulan data” Hugging Face berhasil mendemonstrasikan penggabungan dua kumpulan data ulasan film IMDb. Dengan memuat subkumpulan ulasan positif dan negatif, program menggabungkannya menjadi satu kumpulan data menggunakan fungsi concatenate_datasets(). Kemudian melakukan analisis sederhana dengan menghitung jumlah ulasan positif dan negatif dalam kumpulan data gabungan.

Pustaka “kumpulan data” menyederhanakan proses penanganan dan manipulasi kumpulan data NLP, menjadikannya alat yang ampuh bagi peneliti, pengembang, dan praktisi NLP. Dengan antarmuka yang ramah pengguna dan fungsionalitas yang luas, perpustakaan memungkinkan pemrosesan awal, eksplorasi, dan transformasi data dengan mudah. Program yang ditampilkan dalam dokumentasi ini berfungsi sebagai contoh praktis tentang bagaimana perpustakaan dapat dimanfaatkan untuk menyederhanakan tugas penggabungan dan analisis data.

Dalam skenario kehidupan nyata, program ini dapat berfungsi sebagai landasan untuk tugas pemrosesan bahasa alami yang lebih kompleks seperti analisis sentimen, klasifikasi teks, dan pemodelan bahasa. Dengan menggunakan perpustakaan “kumpulan data”, peneliti dan pengembang dapat secara efisien mengelola kumpulan data berskala besar, memfasilitasi eksperimen, dan mempercepat pengembangan model NLP yang canggih. Secara keseluruhan, pustaka “kumpulan data” Hugging Face merupakan aset penting dalam mencapai kemajuan dalam pemrosesan dan pemahaman bahasa alami.