Artikel ini memberikan panduan langkah demi langkah tentang penggunaan Tokenizer di Hugging Face Transformers.
Apa itu Tokenizer?
Tokenizer adalah konsep penting NLP, dan tujuan utamanya adalah menerjemahkan teks mentah menjadi angka. Ada berbagai teknik dan metodologi yang hadir untuk tujuan ini. Namun, perlu dicatat bahwa setiap teknik memiliki tujuan tertentu.
Bagaimana Cara Menggunakan Tokenizer di Hugging Face Transformers?
Bagaimana Cara Menggunakan Tokenizer di Hugging Face Transformers?
Pustaka tokenizer harus diinstal terlebih dahulu sebelum menggunakannya dan mengimpor fungsi darinya. Setelah itu, latih model menggunakan AutoTokenizer, lalu berikan masukan untuk melakukan tokenisasi.
Hugging Face memperkenalkan tiga kategori utama Tokenisasi yang diberikan di bawah ini:
- Tokenizer berbasis kata
- Tokenizer berbasis karakter
- Tokenizer berbasis subkata
Berikut adalah panduan langkah demi langkah untuk menggunakan Tokenizer di Transformers:
Langkah 1: Instal Transformer
Untuk menginstal trafo, gunakan perintah pip pada perintah berikut:
Langkah 2: Impor Kelas
Dari trafo, impor saluran pipa , Dan Klasifikasi AutoModelForSequence perpustakaan untuk melakukan klasifikasi:
Langkah 3: Impor Model
“ Klasifikasi AutoModelForSequence ” adalah metode milik Kelas Otomatis untuk tokenisasi. Itu dari_dilatih() metode digunakan untuk mengembalikan kelas model yang benar berdasarkan tipe model.
Di sini kami telah menyediakan nama model di kolom “ nama model ' variabel:
nama model = 'distilbert-base-tanpa casing-dihaluskan-sst-2-english'model pra_pelatihan =AutoModelForSequenceClassification.from_pretrained ( nama model )
Langkah 4: Impor AutoTokenizer
Berikan perintah berikut untuk menghasilkan token dengan meneruskan “ nama model ” sebagai argumennya:
token yang dihasilkan =AutoTokenizer.from_pretrained ( nama model )
Langkah 5: Hasilkan Token
Sekarang, kita akan membuat token pada sebuah kalimat “Saya suka makanan enak” dengan menggunakan “ token yang dihasilkan ' variabel:
mencetak ( kata-kata )
Outputnya diberikan sebagai berikut:
Kode di atas Google Co diberikan di sini.
Kesimpulan
Untuk menggunakan Tokenizer di Hugging Face, instal perpustakaan menggunakan perintah pip, latih model menggunakan AutoTokenizer, lalu berikan input untuk melakukan tokenisasi. Dengan menggunakan tokenisasi, berikan bobot pada kata-kata berdasarkan urutannya untuk mempertahankan makna kalimat. Skor ini juga menentukan nilai analisisnya. Artikel ini adalah panduan mendetail tentang cara menggunakan Tokenizer di Hugging Face Transformers.