Langsung ke konten utama

Mengenal apa itu Pandas?

Pandas adalah sebuah library di Python yang bersifat open source dengan lisensi BSD pandas biasa digunakan untuk menganalisis data, manipulasi data, mengubah dimensi data, mengecek data dan masih banyak lagi. Pandas memudahkan kita untuk membaca file dengan banyak format file seperti .txt, .csv, .json, dan masih banyak lagi.

Apa itu Pandas?

Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. 

Library Pandas memiliki dua tipe struktur data untuk versi terbaru yaitu Series dan Data Frame serta satu deprecated struktur data yaitu Panel (deprecated). Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut. Sedangkan data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data dalam bentuk tabel/data tabular. Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah.

Awalnya, Pandas dikembangkan oleh Wes McKinney pada 2008 saat ia bekerja di AQR Capital Management. McKinney kemudian meyakinkan AQR untuk memperbolehkan Pandas menjadi open source. Library Pandas pun berkembang dengan pesat hingga saat ini. Penggunaan Pandas dalam Python sendiri sering kali muncul pada domain akademis hingga komersial, termasuk keuangan, neurosciences, ekonomi, statistik, periklanan, analisis web, dan lain sebagainya.

Cara kerja Pandas cukup menarik. Data berpa CSV, TSV, atau SQL diubah menjadi obyek Python dengan rows dan column yang disebut sebagai data frame. Objek ini terlihat sangat mirip dengan tabel yang terdapat pada software statistika seperti Excel atau SPSS. Data yang sudah diolah akan sangat mudah dianalisis karena berbentuk daftar library.

Pandas umumnya menyediakan dua struktur data yang berguna untuk memanipulasi data. Struktur tersebut adalah Series dan DataFrame. Pandas Series merupakan array satu dimensi yang dapat memegang data dari berbagai tipe, mulai dari integer, string, hingga Python object. Pandas Series pada dasarnya sangat mirip dengan kolom pada Sheet dalam Excel. Untuk membuat Pandas Series, biasanya pengguna akan memuat datasets dari storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV, atau bahkan Excel.

Pandas DataFrame sedikit berbeda karena merupakan struktur dua dimensi. Oleh karneanya, data yang diproses akan disusun dalam bentuk tabel dengan rows dan column. Umumnya, DataFrame terdiri atas tiga komponen penting: data, rows, dan column. Untuk membuat DataFrame, biasanya pengguna akan memuat datasets dari storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV atau bahkan Excel.

Struktur Data Pandas

Pandas memiliki dua tipe struktur data untuk versi terbaru dan satu deprecated struktur data:

1. Series

Series merupakan struktur data dasar dalam Pandas. Series bisa juga diibaratkan sebagai array satu dimensi seperti halnya yang ada pada numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut.

Struktur data yang bisa ditampung berupa integer, float, dan juga string. Series juga mendukung operasi vektor. Secara definisi, Series tidak dapat mempunyai kolom ganda, untuk masalah ini bisa menggunakan struktur data frame.

2. Data Frame

Data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Secara sederhana, data frame merupakan tabel/data tabular. Setiap kolom pada Data Frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.

Keunggulan dari Pandas

Seperti yang sudah disebut sebelumnya, Pandas menjadi salah satu library yang paling sering dipakai oleh data scientist. Hal ini karena Pandas dapat digunakan bersamaan dengan library lain dalam data science. Karena dibuat menggunakan NumPy, artinya ada banyak struktur library yang digunakan atau direplika di dalam Pandas. Selain itu, data yang diproduksi oleh Pandas sering kali digunakan sebagai input plotting functions untuk Matplotlib, analisis statistik di SciPy, serta algoritma machine learning dalam Scikit-learn.

Program library Pandas sendiri dapat dijalankan menggunakan berbagai text editor, namun sangat disarankan untuk menggunakan Jupyter Notebook. Hal ini disebabkan karena kemampuan Jupyter untuk meng-execute kode dari satu cell tertentu tanpa perlu menjalankan file secara keseluruhan. Selain itu, Jupyter juga menyediakan cara yang mudah untuk memvisualisasikan data frames dan plot yang dibuat oleh Pandas.

Pandas bisa dipake apa aja sih?

Ada banyak kegunaan Pandas, terutama dalam bidang data analysis yang membutuhkan task repetitif dan memakan banyak waktu. Fungsi library Pandas antara lain:

  1. Data cleansing
  2. Data fill
  3. Normalisasi data
  4. Penggabungan dan penyatuan data
  5. Visualisasi data
  6. Analisis statistik
  7. Inspeksi data
  8. Memuat dan menyimpan data

Selain fungsi-fungsi yang disebutkan di atas, Pandas juga memungkinkan penggunanya untuk membuat DataFrame sekaligus melakukan analisis serta manipulasi dan penyimpanan database. Pandas juga dapat dimanfaatkan untuk membersihkan datasets pada machine learning.

Komentar

Postingan populer dari blog ini

Kenali apa itu Kotlin?

Kotlin adalah salah satu bahasa pemograman yang diandalkan untuk membangun aplikasi smartphone, terutama Android. Namun, apakah kamu sudah cukup familiar dengan apa itu Kotlin? Sebenarnya bahasa pemrograman ini semakin populer, lho. Pasalnya,  pada tahun 2017 lalu Google mengumumkan bahwa Kotlin menjadi salah satu bahasa resmi untuk membangun aplikasi Android. Umumnya para developer yang membuat aplikasi Android menggunakan bahasa pemrograman Java. Namun, sejak Kotlin diumumkan sebagai salah satu bahasa yang bisa digunakan untuk membuat aplikasi berbasis Android, bahasa pemrograman itu pun jadi semakin populer. Apa Itu Kotlin? Menurut GeeksforGeeks, Kotlin adalah bahasa pemrograman general-purpose yang dikembangkan oleh JetBrains. Kotlin memiliki konstruksi yang berorientasi objek dan fungsional. Pengguna bisa menggunakannya dengan orientasi objek, fungsional, atau menggabungkan keduanya. Dalam situs resminya disebutkan bahwa Kotlin adalah bahasa pemrograman open source yang pertam...

Mengenal dengan Jaringan MAN

Metropolitan Area Network (MAN) adalah sebuah jaringan komputer suatu kota yang memiliki transfer data dengan kecepatan tinggi. Jaringan tersebut biasanya menghubungkan berbagai lokasi dalam satu kota, misal perkantoran, kampus, pemerintahan dan sebagainya. Jaringan MAN merupakan gabungan jaringan LAN yang hanya bisa menghubungkan satu gedung saja. Apa itu Jaringan Metropolitan Area Network (MAN)? Menurut Wikipedia, Metropolitan area network atau yang biasa disingkat dengan MAN adalah suatu jaringan dalam suatu kota dengan transfer data berkecepatan tinggi, yang menghubungkan berbagai lokasi seperti kampus, perkantoran, pemerintahan, dan sebagainya. Jaringan MAN adalah gabungan dari beberapa LAN. Jangkauan dari WAN ini adalah antar 10 km hingga 50 km, WAN ini merupakan jaringan yang tepat untuk membangun jaringan antar kantor-kantor dalam satu kota antara pabrik/instansi dan kantor pusat yang berada dalam jangkauannya. MAN dinilai cocok untuk jaringan yang menghubungkan antar kanto...

Kenalan dengan Data Preprocessing

Sebelum terjun ke dalam dunia big data analytics, data preprocessing adalah sebuah istilah yang wajib kamu ketahui. Proses kerja ini sejatinya dapat ditemukan pada setiap perusahaan yang menggunakan data dalam jumlah besar. Pasalnya, ia diperlukan supaya data yang didapatkan perusahaan bisa diolah dan disaring dengan baik. Secara tidak langsung, ia bisa mempermudah proses data mining yang diluncurkan perusahaan. Apa Itu Data Preprocessing? Melansir laman Geeks for Geeks, data preprocessing adalah teknik yang digunakan untuk mengubah data mentah dalam format yang berguna dan efisien. Inisiatif ini diperlukan karena data mentah seringkali tidak lengkap dan memiliki format yang tidak konsisten.  Kualitas data sendiri memiliki korelasi langsung dengan keberhasilan setiap proyek yang melibatkan analisis data. Preprocessing sendiri melibatkan validasi dan imputasi data. Tujuan dari validasi adalah untuk menilai tingkat kelengkapan dan akurasi data yang tersaring.  Di sisi lain, tuju...