Bagaimana Cara Menerapkan Pipeline pada Dataset di Transformers?

Bagaimana Cara Menerapkan Pipeline Pada Dataset Di Transformers



Fungsi pipeline() merupakan bagian integral dari perpustakaan Transformer. Dibutuhkan beberapa masukan di mana kita dapat menentukan tugas inferensi, model, mekanisme tokenisasi, dll. Fungsi pipeline() sebagian besar digunakan untuk melakukan tugas NLP pada satu atau beberapa teks. Ia melakukan pra-pemrosesan pada masukan dan pasca-pemrosesan berdasarkan model untuk menghasilkan keluaran yang dapat dibaca manusia dan prediksi akurat dengan akurasi maksimum.

Artikel ini mencakup aspek-aspek berikut:







Apa itu Pustaka Kumpulan Data Wajah Memeluk?

Pustaka kumpulan data Hugging Face adalah API yang berisi beberapa kumpulan data publik dan menyediakan cara mudah untuk mengunduhnya. Perpustakaan ini dapat diimpor dan diinstal ke dalam aplikasi dengan menggunakan “ pip ' memerintah. Untuk demonstrasi praktis mengunduh dan menginstal kumpulan data perpustakaan Hugging Face, kunjungi ini Tautan Google Colab. Anda dapat mengunduh beberapa kumpulan data dari Hub Kumpulan Data Wajah Memeluk.



Pelajari lebih lanjut tentang fungsi fungsi pipeline() dengan merujuk pada artikel ini “ Bagaimana Cara Memanfaatkan Fungsi Pipeline() di Transformers? ”.



Bagaimana Cara Menerapkan Pipeline pada Dataset di Hugging Face?

Hugging Face menyediakan beberapa kumpulan data publik berbeda yang dapat dipasang dengan mudah menggunakan kode satu baris. Pada artikel ini, kita akan melihat demonstrasi praktis penerapan pipeline pada kumpulan data ini. Ada dua cara penerapan pipeline pada kumpulan data.





Metode 1: Menggunakan Metode Iterasi

Fungsi pipeline() juga dapat diulangi pada kumpulan data dan model. Untuk tujuan ini, ikuti langkah-langkah yang disebutkan di bawah ini:

Langkah 1: Instal Perpustakaan Transformer

Untuk menginstal perpustakaan Transformer, berikan perintah berikut:



!pip instal transformator

Langkah 2: Impor Saluran Pipa

Kita dapat mengimpor pipeline dari perpustakaan Transformer. Untuk tujuan ini, berikan perintah berikut:

dari pipa impor transformator

Langkah 3: Implementasikan Pipeline

Di sini, fungsi pipeline() diimplementasikan pada model “ gpt2 ”. Anda dapat mengunduh model dari Hub Model Wajah Memeluk:

def imp_pipeline():
untuk x dalam rentang (1000):
hasil f'Kumpulan Data Implementasi{x}'


generate_pipeline= saluran pipa(model='gpt2', perangkat=0)
gen_char= 0
untuk keluaran di generate_pipeline(imp_pipeline()):
gen_char += len(output[0]['teks_yang dihasilkan'])

Dalam kode ini, “ menghasilkan_pipeline ” adalah variabel yang berisi fungsi pipeline() dengan model “ gpt2 ”. Ketika dipanggil dengan “ imp_pipeline() ”, secara otomatis mengenali data yang ditingkatkan dengan rentang yang ditentukan hingga 1000:

Ini akan memakan waktu untuk dilatih. Tautan ke Google Co juga diberikan.

Metode 2: Menggunakan Perpustakaan Kumpulan Data

Dalam metode ini, kami akan mendemonstrasikan penerapan pipeline menggunakan pustaka “dataset”:

Langkah 1: Instal Transformator

Untuk menginstal perpustakaan Transformer, berikan perintah berikut:

!pip instal transformator

Langkah 2: Instal Perpustakaan Kumpulan Data

Sebagai “ kumpulan data ” Library berisi semua dataset publik, kita dapat menginstalnya dengan menggunakan perintah berikut. Dengan menginstal “ kumpulan data ” perpustakaan, kita dapat langsung mengimpor dataset apa pun dengan memberikan namanya:

!pip instal kumpulan data

Langkah 3: Alur Kumpulan Data

Untuk membangun alur pada kumpulan data, gunakan kode berikut. KeyDataset adalah fitur yang hanya mengeluarkan nilai-nilai yang menarik minat pengguna:

dari transformers.pipelines.pt_utils impor KeyDataset
dari pipa impor transformator
dari kumpulan data impor load_dataset
gen_pipeline = saluran pipa(model='hf-internal-testing/tiny-random-wav2vec2', perangkat=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') untuk keluaran di gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Mencetak hasil sekarang')
cetak (“----------------”)
mencetak (keluaran)

Output dari kode di atas diberikan di bawah ini:

Sekian dari panduan ini. Tautan ke Google Co juga disebutkan dalam artikel ini

Kesimpulan

Untuk menerapkan pipeline pada kumpulan data, kita dapat melakukan iterasi pada kumpulan data dengan menggunakan fungsi pipeline() atau menggunakan fungsi “ kumpulan data ' perpustakaan. Hugging Face menyediakan tautan repositori GitHub kepada penggunanya untuk kumpulan data dan model yang dapat digunakan berdasarkan kebutuhan. Artikel ini telah memberikan panduan komprehensif untuk menerapkan alur pada kumpulan data di Transformers.