Cara Menggunakan Kumpulan Data Wajah Memeluk

Cara Menggunakan Kumpulan Data Wajah Memeluk



Penerapan dan kegunaan model Machine Learning diuji pada data. Keandalan pengujian sangat bergantung pada kuantitas dan kualitas data yang diterapkan pada model ini. Membuat, memperoleh, dan membersihkan kumpulan data berukuran besar yang sesuai untuk menguji “ Pemrosesan Bahasa Alami (NLP) ” Model Pembelajaran Mesin.

Hugging Face menawarkan solusi tepat untuk ini dengan perpustakaan kumpulan data yang sangat besar untuk dipilih dan menemukan yang paling sesuai dengan kebutuhan Anda. Di sini, kami akan menunjukkan cara menemukan kumpulan data yang ideal dan mempersiapkannya untuk menguji model Anda secara memadai.







Bagaimana Cara Menggunakan Kumpulan Data Wajah Memeluk?

Kami akan menunjukkan cara menggunakan Kumpulan Data Wajah Memeluk menggunakan contoh “ Cerita Kecil ” Kumpulan data dari Memeluk Wajah.



Contoh

Kumpulan Data TinyStories memiliki lebih dari 2 juta baris data dalam pemisahan kereta dan memiliki lebih dari 2 ribu unduhan di platform Hugging Face. Kami akan menggunakannya dalam kode di Google Colab yang diberikan di bawah ini:



! pip Install transformator
! pip Install kumpulan data

dari kumpulan data impor load_dataset

kumpulan data = memuat_dataset ( 'roneneldan/TinyStories' )

TinyStories_Cerita = 3
example_string = kumpulan data [ 'kereta' ] [ TinyStories_Cerita ] [ 'teks' ]

mencetak ( contoh_string )


Dalam kode ini, pertimbangkan langkah-langkah di bawah ini:





Langkah 01 : Langkah pertama adalah “ instalasi ” dari kumpulan data transformator.

Langkah 02 : Selanjutnya import dataset yang dibutuhkan, “ Cerita Kecil ” ke dalam proyek Anda.



Langkah 03 : Selanjutnya, muat dataset yang dipilih menggunakan “ memuat_dataset() ' fungsi.

Langkah 04 : Sekarang, kita tentukan nomor Story yang kita inginkan dari TinyStories Dataset. Kami telah menentukan nomor 03 dalam contoh kode kami.

Langkah 05 : Terakhir, kita akan menggunakan metode “print()” untuk menampilkan hasilnya.

Keluaran



Catatan: Kode dan outputnya juga bisa dilihat langsung di Google Colab kami .

Kesimpulan

Kumpulan data Memeluk Wajah ” menjadikannya sangat efisien bagi pengguna untuk menguji model Machine Learning mereka sambil mengimpor kumpulan data besar secara langsung dari perpustakaan online mereka. Hasilnya, penerapan algoritme NLP menjadi lebih mudah dan cepat karena pemrogram dapat menguji proyek mereka terhadap kumpulan data yang memiliki kualitas dan kuantitas.