Bagaimana Cara Menggunakan Tokenizer di Hugging Face Transformers?

Bagaimana Cara Menggunakan Tokenizer Di Hugging Face Transformers



Natural Language Processing (NLP) beroperasi pada bentuk data mentah. Model pembelajaran mesin dilatih pada data yang kompleks, tetapi model tersebut tidak dapat memahami data mentah. Bentuk data mentah ini harus memiliki nilai numerik yang terkait dengannya. Nilai ini menentukan nilai dan pentingnya kata dalam data dan atas dasar ini, perhitungan dilakukan.

Artikel ini memberikan panduan langkah demi langkah tentang penggunaan Tokenizer di Hugging Face Transformers.

Apa itu Tokenizer?

Tokenizer adalah konsep penting NLP, dan tujuan utamanya adalah menerjemahkan teks mentah menjadi angka. Ada berbagai teknik dan metodologi yang hadir untuk tujuan ini. Namun, perlu dicatat bahwa setiap teknik memiliki tujuan tertentu.
Bagaimana Cara Menggunakan Tokenizer di Hugging Face Transformers?







Bagaimana Cara Menggunakan Tokenizer di Hugging Face Transformers?

Pustaka tokenizer harus diinstal terlebih dahulu sebelum menggunakannya dan mengimpor fungsi darinya. Setelah itu, latih model menggunakan AutoTokenizer, lalu berikan masukan untuk melakukan tokenisasi.



Hugging Face memperkenalkan tiga kategori utama Tokenisasi yang diberikan di bawah ini:



  • Tokenizer berbasis kata
  • Tokenizer berbasis karakter
  • Tokenizer berbasis subkata

Berikut adalah panduan langkah demi langkah untuk menggunakan Tokenizer di Transformers:





Langkah 1: Instal Transformer
Untuk menginstal trafo, gunakan perintah pip pada perintah berikut:

! pip Install transformator



Langkah 2: Impor Kelas
Dari trafo, impor saluran pipa , Dan Klasifikasi AutoModelForSequence perpustakaan untuk melakukan klasifikasi:

dari pipa impor transformator, AutoModelForSequenceClassification

Langkah 3: Impor Model
Klasifikasi AutoModelForSequence ” adalah metode milik Kelas Otomatis untuk tokenisasi. Itu dari_dilatih() metode digunakan untuk mengembalikan kelas model yang benar berdasarkan tipe model.

Di sini kami telah menyediakan nama model di kolom “ nama model ' variabel:

nama model = 'distilbert-base-tanpa casing-dihaluskan-sst-2-english'
model pra_pelatihan =AutoModelForSequenceClassification.from_pretrained ( nama model )

Langkah 4: Impor AutoTokenizer
Berikan perintah berikut untuk menghasilkan token dengan meneruskan “ nama model ” sebagai argumennya:

dari transformator mengimpor AutoTokenizer

token yang dihasilkan =AutoTokenizer.from_pretrained ( nama model )

Langkah 5: Hasilkan Token
Sekarang, kita akan membuat token pada sebuah kalimat “Saya suka makanan enak” dengan menggunakan “ token yang dihasilkan ' variabel:

kata-kata =menghasilkantoken ( 'Aku suka makanan enak' )
mencetak ( kata-kata )

Outputnya diberikan sebagai berikut:

Kode di atas Google Co diberikan di sini.

Kesimpulan

Untuk menggunakan Tokenizer di Hugging Face, instal perpustakaan menggunakan perintah pip, latih model menggunakan AutoTokenizer, lalu berikan input untuk melakukan tokenisasi. Dengan menggunakan tokenisasi, berikan bobot pada kata-kata berdasarkan urutannya untuk mempertahankan makna kalimat. Skor ini juga menentukan nilai analisisnya. Artikel ini adalah panduan mendetail tentang cara menggunakan Tokenizer di Hugging Face Transformers.