Langsung ke konten utama

Mengenal apa itu Pandas?

Pandas adalah sebuah library di Python yang bersifat open source dengan lisensi BSD pandas biasa digunakan untuk menganalisis data, manipulasi data, mengubah dimensi data, mengecek data dan masih banyak lagi. Pandas memudahkan kita untuk membaca file dengan banyak format file seperti .txt, .csv, .json, dan masih banyak lagi.

Apa itu Pandas?

Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. 

Library Pandas memiliki dua tipe struktur data untuk versi terbaru yaitu Series dan Data Frame serta satu deprecated struktur data yaitu Panel (deprecated). Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut. Sedangkan data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data dalam bentuk tabel/data tabular. Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah.

Awalnya, Pandas dikembangkan oleh Wes McKinney pada 2008 saat ia bekerja di AQR Capital Management. McKinney kemudian meyakinkan AQR untuk memperbolehkan Pandas menjadi open source. Library Pandas pun berkembang dengan pesat hingga saat ini. Penggunaan Pandas dalam Python sendiri sering kali muncul pada domain akademis hingga komersial, termasuk keuangan, neurosciences, ekonomi, statistik, periklanan, analisis web, dan lain sebagainya.

Cara kerja Pandas cukup menarik. Data berpa CSV, TSV, atau SQL diubah menjadi obyek Python dengan rows dan column yang disebut sebagai data frame. Objek ini terlihat sangat mirip dengan tabel yang terdapat pada software statistika seperti Excel atau SPSS. Data yang sudah diolah akan sangat mudah dianalisis karena berbentuk daftar library.

Pandas umumnya menyediakan dua struktur data yang berguna untuk memanipulasi data. Struktur tersebut adalah Series dan DataFrame. Pandas Series merupakan array satu dimensi yang dapat memegang data dari berbagai tipe, mulai dari integer, string, hingga Python object. Pandas Series pada dasarnya sangat mirip dengan kolom pada Sheet dalam Excel. Untuk membuat Pandas Series, biasanya pengguna akan memuat datasets dari storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV, atau bahkan Excel.

Pandas DataFrame sedikit berbeda karena merupakan struktur dua dimensi. Oleh karneanya, data yang diproses akan disusun dalam bentuk tabel dengan rows dan column. Umumnya, DataFrame terdiri atas tiga komponen penting: data, rows, dan column. Untuk membuat DataFrame, biasanya pengguna akan memuat datasets dari storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV atau bahkan Excel.

Struktur Data Pandas

Pandas memiliki dua tipe struktur data untuk versi terbaru dan satu deprecated struktur data:

1. Series

Series merupakan struktur data dasar dalam Pandas. Series bisa juga diibaratkan sebagai array satu dimensi seperti halnya yang ada pada numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut.

Struktur data yang bisa ditampung berupa integer, float, dan juga string. Series juga mendukung operasi vektor. Secara definisi, Series tidak dapat mempunyai kolom ganda, untuk masalah ini bisa menggunakan struktur data frame.

2. Data Frame

Data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Secara sederhana, data frame merupakan tabel/data tabular. Setiap kolom pada Data Frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.

Keunggulan dari Pandas

Seperti yang sudah disebut sebelumnya, Pandas menjadi salah satu library yang paling sering dipakai oleh data scientist. Hal ini karena Pandas dapat digunakan bersamaan dengan library lain dalam data science. Karena dibuat menggunakan NumPy, artinya ada banyak struktur library yang digunakan atau direplika di dalam Pandas. Selain itu, data yang diproduksi oleh Pandas sering kali digunakan sebagai input plotting functions untuk Matplotlib, analisis statistik di SciPy, serta algoritma machine learning dalam Scikit-learn.

Program library Pandas sendiri dapat dijalankan menggunakan berbagai text editor, namun sangat disarankan untuk menggunakan Jupyter Notebook. Hal ini disebabkan karena kemampuan Jupyter untuk meng-execute kode dari satu cell tertentu tanpa perlu menjalankan file secara keseluruhan. Selain itu, Jupyter juga menyediakan cara yang mudah untuk memvisualisasikan data frames dan plot yang dibuat oleh Pandas.

Pandas bisa dipake apa aja sih?

Ada banyak kegunaan Pandas, terutama dalam bidang data analysis yang membutuhkan task repetitif dan memakan banyak waktu. Fungsi library Pandas antara lain:

  1. Data cleansing
  2. Data fill
  3. Normalisasi data
  4. Penggabungan dan penyatuan data
  5. Visualisasi data
  6. Analisis statistik
  7. Inspeksi data
  8. Memuat dan menyimpan data

Selain fungsi-fungsi yang disebutkan di atas, Pandas juga memungkinkan penggunanya untuk membuat DataFrame sekaligus melakukan analisis serta manipulasi dan penyimpanan database. Pandas juga dapat dimanfaatkan untuk membersihkan datasets pada machine learning.

Komentar

Postingan populer dari blog ini

Kenali apa itu Kotlin?

Kotlin adalah salah satu bahasa pemograman yang diandalkan untuk membangun aplikasi smartphone, terutama Android. Namun, apakah kamu sudah cukup familiar dengan apa itu Kotlin? Sebenarnya bahasa pemrograman ini semakin populer, lho. Pasalnya,  pada tahun 2017 lalu Google mengumumkan bahwa Kotlin menjadi salah satu bahasa resmi untuk membangun aplikasi Android. Umumnya para developer yang membuat aplikasi Android menggunakan bahasa pemrograman Java. Namun, sejak Kotlin diumumkan sebagai salah satu bahasa yang bisa digunakan untuk membuat aplikasi berbasis Android, bahasa pemrograman itu pun jadi semakin populer. Apa Itu Kotlin? Menurut GeeksforGeeks, Kotlin adalah bahasa pemrograman general-purpose yang dikembangkan oleh JetBrains. Kotlin memiliki konstruksi yang berorientasi objek dan fungsional. Pengguna bisa menggunakannya dengan orientasi objek, fungsional, atau menggabungkan keduanya. Dalam situs resminya disebutkan bahwa Kotlin adalah bahasa pemrograman open source yang pertama ka

Mengenal Apa Itu Blockchain?

Dunia blockchain semakin populer di Dunia saat ini, khususnya di negara Indonesia. Semenjak tingginya rasa ingin tahu dari masyarakat terhadap dunia cryptocurrency, semakin tinggi juga pencarian mengenai teknologi blockchain. Bukan hanya di kalangan komunitas IT, namun teknologi ini mulai familiar di kalangan masyarakat awam. Fenomena yang berawal dari perkembangan teknologi internet ini kian menjadi sorotan masyarakat umum. Lalu, apa sebenarnya teknologi blockchain? Apa kaitannya dengan aset cryptocurrency? Apa itu Blockchain? Secara umum, Blockchain dapat diartikan sebagai buku besar digital, di mana setiap transaksi dicatat dan diamankan di banyak database yang tersebar luas di komputer. Dengan kata lain, Blockchain itu salah satu teknologi yang sudah tidak menggunakan pihak ketiga lagi dalam proses pertukaran data atau transaksi. Contohnya, jika kita berbelanja di suatu toko dengan metode pembayaran debit, maka pihak ketiga yang dimaksud adalah Bank yang menghubungkan pembeli denga

Mengenal dengan Jaringan MAN

Metropolitan Area Network (MAN) adalah sebuah jaringan komputer suatu kota yang memiliki transfer data dengan kecepatan tinggi. Jaringan tersebut biasanya menghubungkan berbagai lokasi dalam satu kota, misal perkantoran, kampus, pemerintahan dan sebagainya. Jaringan MAN merupakan gabungan jaringan LAN yang hanya bisa menghubungkan satu gedung saja. Apa itu Jaringan Metropolitan Area Network (MAN)? Menurut Wikipedia, Metropolitan area network atau yang biasa disingkat dengan MAN adalah suatu jaringan dalam suatu kota dengan transfer data berkecepatan tinggi, yang menghubungkan berbagai lokasi seperti kampus, perkantoran, pemerintahan, dan sebagainya. Jaringan MAN adalah gabungan dari beberapa LAN. Jangkauan dari WAN ini adalah antar 10 km hingga 50 km, WAN ini merupakan jaringan yang tepat untuk membangun jaringan antar kantor-kantor dalam satu kota antara pabrik/instansi dan kantor pusat yang berada dalam jangkauannya. MAN dinilai cocok untuk jaringan yang menghubungkan antar kantor da