Bagaimana Cara Menggunakan Tokenizer di Hugging Face Transformers?

Natural Language Processing (NLP) beroperasi pada bentuk data mentah. Model pembelajaran mesin dilatih pada data yang kompleks, tetapi model tersebut tidak dapat memahami data mentah. Bentuk data mentah ini harus memiliki nilai numerik yang terkait dengannya. Nilai ini menentukan nilai dan pentingnya kata dalam data dan atas dasar ini, perhitungan dilakukan.

Artikel ini memberikan panduan langkah demi langkah tentang penggunaan Tokenizer di Hugging Face Transformers.

Apa itu Tokenizer?

Tokenizer adalah konsep penting NLP, dan tujuan utamanya adalah menerjemahkan teks mentah menjadi angka. Ada berbagai teknik dan metodologi yang hadir untuk tujuan ini. Namun, perlu dicatat bahwa setiap teknik memiliki tujuan tertentu.
Bagaimana Cara Menggunakan Tokenizer di Hugging Face Transformers?

Bagaimana Cara Menggunakan Tokenizer di Hugging Face Transformers?

Pustaka tokenizer harus diinstal terlebih dahulu sebelum menggunakannya dan mengimpor fungsi darinya. Setelah itu, latih model menggunakan AutoTokenizer, lalu berikan masukan untuk melakukan tokenisasi.

Hugging Face memperkenalkan tiga kategori utama Tokenisasi yang diberikan di bawah ini:

Tokenizer berbasis kata
Tokenizer berbasis karakter
Tokenizer berbasis subkata

Berikut adalah panduan langkah demi langkah untuk menggunakan Tokenizer di Transformers:

Langkah 1: Instal Transformer
Untuk menginstal trafo, gunakan perintah pip pada perintah berikut:

! pip Install transformator

Langkah 2: Impor Kelas
Dari trafo, impor saluran pipa , Dan Klasifikasi AutoModelForSequence perpustakaan untuk melakukan klasifikasi:

dari pipa impor transformator, AutoModelForSequenceClassification

Langkah 3: Impor Model
“ Klasifikasi AutoModelForSequence ” adalah metode milik Kelas Otomatis untuk tokenisasi. Itu dari_dilatih() metode digunakan untuk mengembalikan kelas model yang benar berdasarkan tipe model.

Di sini kami telah menyediakan nama model di kolom “ nama model ' variabel:

nama model = 'distilbert-base-tanpa casing-dihaluskan-sst-2-english'
model pra_pelatihan =AutoModelForSequenceClassification.from_pretrained ( nama model )

Langkah 4: Impor AutoTokenizer
Berikan perintah berikut untuk menghasilkan token dengan meneruskan “ nama model ” sebagai argumennya:

dari transformator mengimpor AutoTokenizer

token yang dihasilkan =AutoTokenizer.from_pretrained ( nama model )

Langkah 5: Hasilkan Token
Sekarang, kita akan membuat token pada sebuah kalimat “Saya suka makanan enak” dengan menggunakan “ token yang dihasilkan ' variabel:

kata-kata =menghasilkantoken ( 'Aku suka makanan enak' )
mencetak ( kata-kata )

Outputnya diberikan sebagai berikut:

Kode di atas Google Co diberikan di sini.

Kesimpulan

Untuk menggunakan Tokenizer di Hugging Face, instal perpustakaan menggunakan perintah pip, latih model menggunakan AutoTokenizer, lalu berikan input untuk melakukan tokenisasi. Dengan menggunakan tokenisasi, berikan bobot pada kata-kata berdasarkan urutannya untuk mempertahankan makna kalimat. Skor ini juga menentukan nilai analisisnya. Artikel ini adalah panduan mendetail tentang cara menggunakan Tokenizer di Hugging Face Transformers.

Bagaimana Cara Menggunakan Tokenizer di Hugging Face Transformers?

Apa itu Tokenizer?

Bagaimana Cara Menggunakan Tokenizer di Hugging Face Transformers?

Kesimpulan

Kategori

Pesan Populer

SQL PILIH SEBAGAI

SQL Server Buat Sinonim

Jenis Array di C++ dengan Contoh

Apa Kegunaan SQLiteStudio?

Cara Mengatur Profil Server Khusus di Discord Nitro

Fungsi C++ cos() dengan Contoh

Apa tag opsi dalam HTML?

Cara Meminta Bash untuk Input Pengguna

Bagaimana Cara Memainkan Xbox di Laptop dengan HDMI?

Apa Perbedaan Antara Dockerfile dan Docker Compose

Grup Panda berdasarkan Agregat

Apa Perbedaan Antara S3 dan EC2?

Bagaimana Cara Mengunduh dan Menginstal WinZip Versi Lengkap untuk Windows 10/11?

Bagaimana Cara Menerapkan Efek Slow Motion pada Video di Android?

Daftar Pengguna MariaDB

Cara Menginstal Vim di Linux Mint 21

Cara Mengekspor variabel lingkungan “PATH” di Linux

Cara Menonaktifkan Acara Klik Menggunakan CSS

Bagaimana Cara Memotong Video di Android?

Cara Mengatur Elasticsearch dan Kibana di Linux