Langsung ke konten utama

Mengenal apa itu Pandas?

Pandas adalah sebuah library di Python yang bersifat open source dengan lisensi BSD pandas biasa digunakan untuk menganalisis data, manipulasi data, mengubah dimensi data, mengecek data dan masih banyak lagi. Pandas memudahkan kita untuk membaca file dengan banyak format file seperti .txt, .csv, .json, dan masih banyak lagi.

Apa itu Pandas?

Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. 

Library Pandas memiliki dua tipe struktur data untuk versi terbaru yaitu Series dan Data Frame serta satu deprecated struktur data yaitu Panel (deprecated). Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut. Sedangkan data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data dalam bentuk tabel/data tabular. Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah.

Awalnya, Pandas dikembangkan oleh Wes McKinney pada 2008 saat ia bekerja di AQR Capital Management. McKinney kemudian meyakinkan AQR untuk memperbolehkan Pandas menjadi open source. Library Pandas pun berkembang dengan pesat hingga saat ini. Penggunaan Pandas dalam Python sendiri sering kali muncul pada domain akademis hingga komersial, termasuk keuangan, neurosciences, ekonomi, statistik, periklanan, analisis web, dan lain sebagainya.

Cara kerja Pandas cukup menarik. Data berpa CSV, TSV, atau SQL diubah menjadi obyek Python dengan rows dan column yang disebut sebagai data frame. Objek ini terlihat sangat mirip dengan tabel yang terdapat pada software statistika seperti Excel atau SPSS. Data yang sudah diolah akan sangat mudah dianalisis karena berbentuk daftar library.

Pandas umumnya menyediakan dua struktur data yang berguna untuk memanipulasi data. Struktur tersebut adalah Series dan DataFrame. Pandas Series merupakan array satu dimensi yang dapat memegang data dari berbagai tipe, mulai dari integer, string, hingga Python object. Pandas Series pada dasarnya sangat mirip dengan kolom pada Sheet dalam Excel. Untuk membuat Pandas Series, biasanya pengguna akan memuat datasets dari storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV, atau bahkan Excel.

Pandas DataFrame sedikit berbeda karena merupakan struktur dua dimensi. Oleh karneanya, data yang diproses akan disusun dalam bentuk tabel dengan rows dan column. Umumnya, DataFrame terdiri atas tiga komponen penting: data, rows, dan column. Untuk membuat DataFrame, biasanya pengguna akan memuat datasets dari storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV atau bahkan Excel.

Struktur Data Pandas

Pandas memiliki dua tipe struktur data untuk versi terbaru dan satu deprecated struktur data:

1. Series

Series merupakan struktur data dasar dalam Pandas. Series bisa juga diibaratkan sebagai array satu dimensi seperti halnya yang ada pada numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut.

Struktur data yang bisa ditampung berupa integer, float, dan juga string. Series juga mendukung operasi vektor. Secara definisi, Series tidak dapat mempunyai kolom ganda, untuk masalah ini bisa menggunakan struktur data frame.

2. Data Frame

Data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Secara sederhana, data frame merupakan tabel/data tabular. Setiap kolom pada Data Frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.

Keunggulan dari Pandas

Seperti yang sudah disebut sebelumnya, Pandas menjadi salah satu library yang paling sering dipakai oleh data scientist. Hal ini karena Pandas dapat digunakan bersamaan dengan library lain dalam data science. Karena dibuat menggunakan NumPy, artinya ada banyak struktur library yang digunakan atau direplika di dalam Pandas. Selain itu, data yang diproduksi oleh Pandas sering kali digunakan sebagai input plotting functions untuk Matplotlib, analisis statistik di SciPy, serta algoritma machine learning dalam Scikit-learn.

Program library Pandas sendiri dapat dijalankan menggunakan berbagai text editor, namun sangat disarankan untuk menggunakan Jupyter Notebook. Hal ini disebabkan karena kemampuan Jupyter untuk meng-execute kode dari satu cell tertentu tanpa perlu menjalankan file secara keseluruhan. Selain itu, Jupyter juga menyediakan cara yang mudah untuk memvisualisasikan data frames dan plot yang dibuat oleh Pandas.

Pandas bisa dipake apa aja sih?

Ada banyak kegunaan Pandas, terutama dalam bidang data analysis yang membutuhkan task repetitif dan memakan banyak waktu. Fungsi library Pandas antara lain:

  1. Data cleansing
  2. Data fill
  3. Normalisasi data
  4. Penggabungan dan penyatuan data
  5. Visualisasi data
  6. Analisis statistik
  7. Inspeksi data
  8. Memuat dan menyimpan data

Selain fungsi-fungsi yang disebutkan di atas, Pandas juga memungkinkan penggunanya untuk membuat DataFrame sekaligus melakukan analisis serta manipulasi dan penyimpanan database. Pandas juga dapat dimanfaatkan untuk membersihkan datasets pada machine learning.

Komentar

Postingan populer dari blog ini

Apa Perbedaan USB Type A, Type C, Micro, dan Lighting?

Charger dan kabel data menjadi perangkat yang sangat penting dan harus dimiliki oleh setiap pengguna smartphone. Berbagai tipe USB (Universal Serial Bus) bermunculan seiring berkembangnya teknologi pada gadget yang dirilis. Misalnya saja seperti charger Type C yang semakin banyak digunakan di ponsel pintar keluaran terbaru. Namun tidak hanya Type C saja yang sering digunakan, masih ada Type A, Micro, serta Lighting. Lalu, apa sih perbedaannya? Apa itu USB? Universal Serial Bus (USB) adalah standar bus serial untuk perangkat penghubung, biasanya kepada komputer namun juga digunakan di peralatan lainnya seperti konsol permainan, ponsel dan PDA. Sistem USB mempunyai desain yang asimetris, yang terdiri dari pengontrol host dan beberapa peralatan terhubung yang berbentuk "pohon" dengan menggunakan peralatan hub yang khusus. Desain USB ditujukan untuk menghilangkan perlunya penambahan expansion card ke ISA komputer atau bus PCI, dan memperbaiki kemampuan plug-and-play (pasang-dan-m...

Kenali apa itu Kotlin?

Kotlin adalah salah satu bahasa pemograman yang diandalkan untuk membangun aplikasi smartphone, terutama Android. Namun, apakah kamu sudah cukup familiar dengan apa itu Kotlin? Sebenarnya bahasa pemrograman ini semakin populer, lho. Pasalnya,  pada tahun 2017 lalu Google mengumumkan bahwa Kotlin menjadi salah satu bahasa resmi untuk membangun aplikasi Android. Umumnya para developer yang membuat aplikasi Android menggunakan bahasa pemrograman Java. Namun, sejak Kotlin diumumkan sebagai salah satu bahasa yang bisa digunakan untuk membuat aplikasi berbasis Android, bahasa pemrograman itu pun jadi semakin populer. Apa Itu Kotlin? Menurut GeeksforGeeks, Kotlin adalah bahasa pemrograman general-purpose yang dikembangkan oleh JetBrains. Kotlin memiliki konstruksi yang berorientasi objek dan fungsional. Pengguna bisa menggunakannya dengan orientasi objek, fungsional, atau menggabungkan keduanya. Dalam situs resminya disebutkan bahwa Kotlin adalah bahasa pemrograman open source yang pertam...

Mengenal dengan Jaringan MAN

Metropolitan Area Network (MAN) adalah sebuah jaringan komputer suatu kota yang memiliki transfer data dengan kecepatan tinggi. Jaringan tersebut biasanya menghubungkan berbagai lokasi dalam satu kota, misal perkantoran, kampus, pemerintahan dan sebagainya. Jaringan MAN merupakan gabungan jaringan LAN yang hanya bisa menghubungkan satu gedung saja. Apa itu Jaringan Metropolitan Area Network (MAN)? Menurut Wikipedia, Metropolitan area network atau yang biasa disingkat dengan MAN adalah suatu jaringan dalam suatu kota dengan transfer data berkecepatan tinggi, yang menghubungkan berbagai lokasi seperti kampus, perkantoran, pemerintahan, dan sebagainya. Jaringan MAN adalah gabungan dari beberapa LAN. Jangkauan dari WAN ini adalah antar 10 km hingga 50 km, WAN ini merupakan jaringan yang tepat untuk membangun jaringan antar kantor-kantor dalam satu kota antara pabrik/instansi dan kantor pusat yang berada dalam jangkauannya. MAN dinilai cocok untuk jaringan yang menghubungkan antar kanto...