Cara Melakukan Pembersihan Data dengan Python dan Pandas

Cara Melakukan Pembersihan Data Dengan Python Dan Pandas



Mempelajari cara membersihkan data menggunakan Python dan Pandas sangat penting bagi siapa saja yang bekerja dengan data. Pembersihan data sebagian besar digunakan untuk analisis dan pemodelan yang akurat dengan menghilangkan kesalahan dan inkonsistensi. Panduan ini menjelaskan proses langkah demi langkah yang menunjukkan kepada kita cara menangani data yang hilang dan menemukan atau mengidentifikasi outlier. Dengan Python dan Pandas sebagai alatnya, kami dapat mengubah data yang berantakan menjadi informasi yang bersih dan dapat digunakan. Panduan ini juga membantu kami meningkatkan kualitas data dan mempersiapkannya untuk analisis dan pengambilan keputusan.

Membersihkan Data dengan Python dan Pandas

Data seperti landasan pengambilan keputusan saat ini. Tapi bayangkan memiliki sekelompok balok dengan bentuk dan ukuran berbeda dari koleksi ini; sulit untuk membangun sesuatu yang berarti. Di sinilah pembersihan data berguna.

Panduan ini mengeksplorasi cara membersihkan data menggunakan kerangka kerja Python yaitu Pandas untuk pengambilan keputusan yang lebih baik. Pembersihan data juga penting, mengingat kami sedang mengerjakan daftar catatan penjualan untuk sebuah toko. Kita mungkin melihat beberapa nomor hilang, tanggal aneh, dan item berulang tanpa alasan dalam daftar. Jika kita membuat perhitungan atau pencatatan berdasarkan informasi ini, masalah ini dapat mengacaukan perhitungan dan prediksi kita. Pembersihan data membantu memperbaiki masalah ini, memastikan bahwa data kami akurat dan siap digunakan.







Pembersihan data mencakup penanganan data yang hilang dan apa yang harus dilakukan ketika beberapa data hilang, menghapus duplikat, membuang barang-barang yang disalin, memperbaiki tipe data, memastikan semuanya dalam format yang benar, dan menangani outlier atau menangani angka-angka. yang tidak cocok. Kesalahan ini membuat data terlihat sama dan membuat tampilan data menjadi standar.



Untuk memulai, pastikan terlebih dahulu bahwa kita telah menginstal Python dan Pandas. Kita dapat melakukan ini dengan mengetikkan perintah di terminal komputer kita atau command prompt. Untuk mengimplementasikan kode yang disebutkan dalam panduan ini, kami dapat menggunakan IDE Python Pycharm yang diinstal pada sistem kami atau platform Python online yaitu “Google Colab” dan menginstal perintah “pip” untuk menginstal perpustakaan penting.



Sekarang, mari impor Pandas dan muat data sampel kita. Untuk contoh ini, kami menggunakan Google Colab untuk menjalankan kodenya. Jadi, pertama-tama kita impor Pandas dengan memasukkan perintah berikut:





! pip instal panda

impor panda sebagai pd

impor numpy sebagai misalnya

Kemudian kita memuat dataset yang ingin kita tampilkan menggunakan metode pd.read() yang mengambil path file sebagai parameter inputnya.

# Muat kumpulan data

data = pd. baca_csv ( '/content/sample_data/california_housing_test.csv' )

# Tampilkan beberapa baris pertama

mencetak ( data. kepala ( ) )



Pada contoh berikutnya, kami menggunakan data tentang penjualan di sebuah toko kecil. Untuk menangani data yang hilang, terkadang informasi tersebut hilang dalam data kita. Kami menyebut bagian yang hilang ini sebagai “NaN” (yang berarti “bukan angka”). Untuk menemukan nilai yang hilang ini dalam skrip Python, pertama-tama kita memuat kumpulan data seperti yang kita lakukan pada contoh sebelumnya. Kemudian, kami menemukan nilai yang hilang dalam kumpulan data menggunakan fungsi “missing_values ​​= data.isnull().sum()”. Fungsi ini menemukan semua nilai yang hilang dalam kumpulan data. Kemudian, kami menampilkannya menggunakan fungsi print().

! pip instal panda
impor panda sebagai pd
impor numpy sebagai misalnya

# Muat kumpulan data
data = pd. baca_csv ( '/content/sample_data/california_housing_test.csv' )

# Tampilkan beberapa baris pertama
mencetak ( data. kepala ( ) )

# Periksa nilai yang hilang
nilai yang hilang = data. isnull ( ) . jumlah ( )

# Tampilkan nilai yang hilang dihitung berdasarkan kolom
mencetak ( nilai yang hilang )

Setelah kami menemukan data yang hilang di baris mana pun yang menjalankan kode yang disebutkan sebelumnya, kami dapat menghapus baris tersebut karena baris tersebut tidak memiliki banyak data berguna. Kita bahkan dapat menebak nilai-nilai yang hilang tersebut dan mengisi bagian yang kosong dengan tebakan yang cerdas dengan memperkirakan data berbasis waktu berdasarkan titik-titik terdekat.

Sekarang, kami menghapus duplikat yang merupakan salinan dari hal yang sama karena dapat membingungkan analisis kami. Untuk menemukan nilai duplikat dalam kumpulan data, kami menggunakan fungsi “duplikat_baris = data[data.duplikat()]”. Untuk menghilangkan nilai duplikat ini, kita memanggil fungsi data.drop_duplications(). Kami dapat menemukan dan menghapusnya menggunakan kode berikut:

! pip instal panda
impor panda sebagai pd
impor numpy sebagai misalnya
# Muat kumpulan data
data = pd. baca_csv ( '/content/sample_data/california_housing_test.csv' )
# Tampilkan beberapa baris pertama
mencetak ( data. kepala ( ) )

# Periksa baris duplikat
duplikat_baris = data [ data. digandakan ( ) ]

# Hapus duplikat
data = data. drop_duplikat ( )

# Tampilkan beberapa baris pertama setelah menghapus duplikat
mencetak ( data. kepala ( ) )

Tipe data memutuskan data apa yang dapat disimpan untuk memperbaiki tipe data. Penting untuk memiliki tipe yang tepat untuk setiap jenis data. Misalnya, tanggal harus memiliki tipe data tanggal waktu, dan angka harus dalam tipe data seperti int, float, dll. Untuk memeriksa tipe data data kita, kita menggunakan fungsi “data.dtypes”. Fungsi ini dapat dimanfaatkan dengan cara berikut:

! pip instal panda
impor panda sebagai pd
impor numpy sebagai misalnya
# Muat kumpulan data
data = pd. baca_csv ( '/content/sample_data/california_housing_test.csv' )
# Tampilkan beberapa baris pertama
mencetak ( data. kepala ( ) )
# Periksa tipe data setiap kolom
tipe_data = data. tipe

# Menampilkan tipe data
mencetak ( tipe_data )

Jika kami menemukan masalah apa pun, kami dapat mengubah tipe data menggunakan Pandas. Misalnya, kita bisa membuat tanggal menjadi format tanggal. Atribut “dtypes” dari DataFrame memberikan informasi tentang tipe data setiap kolom. Jika kami menemukan bahwa tipe datanya tidak cocok, kami dapat menggunakan fungsi astype() Pandas untuk mengonversi kolom ke tipe yang diinginkan.

Setelah tipe data, terkadang kita menemui outlier yang merupakan nilai yang sangat berbeda dari yang lain. Mereka dapat mengacaukan perhitungan kita. Untuk menangani outlier, kita mendefinisikan fungsi yang menggunakan fungsi z-score “np.abs(stats.zscore(data))” yang membandingkan nilai yang ada pada data kita dengan nilai ambang batas. Nilai apa pun selain rentang ambang batas ini dianggap sebagai outlier . Mari kita lihat cara menemukan dan menangani outlier:

! pip instal panda
impor panda sebagai pd
impor numpy sebagai misalnya

# Muat kumpulan data
data = pd. baca_csv ( '/content/sample_data/california_housing_test.csv' )

# Tampilkan beberapa baris pertama
mencetak ( data. kepala ( ) )
dari ilmu pengetahuan impor statistik

def deteksi_outlier ( data ) :
z_score = misalnya abs ( statistik. skor z ( data ) )
kembali misalnya Di mana ( z_score > 3 )

# Deteksi dan tangani outlier di kolom 'Penjualan'
outlier = deteksi_outlier ( data [ 'garis bujur' ] )
data [ 'garis bujur' ] . tempat [ outlier ] = data [ 'garis bujur' ] . median ( )

# Deteksi dan tangani outlier di kolom 'Unit Terjual'
outlier = deteksi_outlier ( data [ 'Garis Lintang' ] )
data [ 'Garis Lintang' ] . tempat [ outlier ] = data [ 'Garis Lintang' ] . median ( )

# Tampilkan beberapa baris pertama setelah menangani outlier
mencetak ( data. kepala ( ) )

Kami menggunakan metode sederhana untuk menemukan dan memperbaiki outlier pada kode sebelumnya. Ini melibatkan penggantian nilai ekstrim dengan nilai tengah data. Kode ini menggunakan metode Z-score untuk mendeteksi outlier di kolom “bujur” dan “lintang” kumpulan data kami. Pencilan diganti dengan nilai median kolomnya masing-masing.

Untuk membuat data terlihat sama, terkadang data dapat terlihat berbeda meskipun artinya sama. Misalnya, tanggal dapat ditulis dalam berbagai format. Standardisasi melibatkan memastikan format dan representasi data yang konsisten. Hal ini dapat mencakup memformat tanggal, mengubah teks menjadi huruf kecil, atau menormalkan nilai numerik. Mari kita standarkan kolom “Tanggal” di kumpulan data kita dan pastikan data kita terlihat sama:

impor panda sebagai pd
impor numpy sebagai misalnya # Impor numpy

# Muat data
data = pd. baca_csv ( 'data_penjualan.csv' )

# Jadikan kolom 'Tanggal' terlihat konsisten
data [ 'Tanggal' ] = pd. sampai_tanggal waktu ( data [ 'Tanggal' ] )

# Lihat seperti apa sekarang
mencetak ( data. kepala ( ) )

Dalam contoh ini, kami menstandarkan format tanggal dalam kumpulan data kami ke format tanggalwaktu Python menggunakan fungsi “pd.to_datetime(data['Date'])”. Dengan mengonversi kolom “Tanggal” ke dalam format yang sama, kami mempermudah pengerjaan data ini. Outputnya menampilkan beberapa baris pertama kumpulan data dengan kolom “Tanggal” standar.

Kesimpulan

Dalam perjalanan kami melalui pembersihan data menggunakan Python dan Pandas, kami mempelajari cara meningkatkan data untuk analisis. Kami memulai dengan memahami mengapa pembersihan data sangat penting. Ini membantu kita membuat keputusan yang lebih baik. Kita mempelajari cara menangani data yang hilang, menghapus duplikat, memperbaiki tipe data, menangani outlier, dan membuat data kita terlihat sama. Dengan keterampilan ini, kita lebih siap untuk mengubah data yang berantakan menjadi sesuatu yang dapat kita percayai dan gunakan untuk menemukan suatu informasi penting. Pembersihan data adalah proses yang berkelanjutan, seperti menjaga ruangan tetap rapi, dan ini membuat perjalanan analisis data kami lebih berhasil.