Langsung ke konten utama

Mengenal apa itu Pandas?

Pandas adalah sebuah library di Python yang bersifat open source dengan lisensi BSD pandas biasa digunakan untuk menganalisis data, manipulasi data, mengubah dimensi data, mengecek data dan masih banyak lagi. Pandas memudahkan kita untuk membaca file dengan banyak format file seperti .txt, .csv, .json, dan masih banyak lagi.

Apa itu Pandas?

Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. 

Library Pandas memiliki dua tipe struktur data untuk versi terbaru yaitu Series dan Data Frame serta satu deprecated struktur data yaitu Panel (deprecated). Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut. Sedangkan data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data dalam bentuk tabel/data tabular. Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah.

Awalnya, Pandas dikembangkan oleh Wes McKinney pada 2008 saat ia bekerja di AQR Capital Management. McKinney kemudian meyakinkan AQR untuk memperbolehkan Pandas menjadi open source. Library Pandas pun berkembang dengan pesat hingga saat ini. Penggunaan Pandas dalam Python sendiri sering kali muncul pada domain akademis hingga komersial, termasuk keuangan, neurosciences, ekonomi, statistik, periklanan, analisis web, dan lain sebagainya.

Cara kerja Pandas cukup menarik. Data berpa CSV, TSV, atau SQL diubah menjadi obyek Python dengan rows dan column yang disebut sebagai data frame. Objek ini terlihat sangat mirip dengan tabel yang terdapat pada software statistika seperti Excel atau SPSS. Data yang sudah diolah akan sangat mudah dianalisis karena berbentuk daftar library.

Pandas umumnya menyediakan dua struktur data yang berguna untuk memanipulasi data. Struktur tersebut adalah Series dan DataFrame. Pandas Series merupakan array satu dimensi yang dapat memegang data dari berbagai tipe, mulai dari integer, string, hingga Python object. Pandas Series pada dasarnya sangat mirip dengan kolom pada Sheet dalam Excel. Untuk membuat Pandas Series, biasanya pengguna akan memuat datasets dari storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV, atau bahkan Excel.

Pandas DataFrame sedikit berbeda karena merupakan struktur dua dimensi. Oleh karneanya, data yang diproses akan disusun dalam bentuk tabel dengan rows dan column. Umumnya, DataFrame terdiri atas tiga komponen penting: data, rows, dan column. Untuk membuat DataFrame, biasanya pengguna akan memuat datasets dari storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV atau bahkan Excel.

Struktur Data Pandas

Pandas memiliki dua tipe struktur data untuk versi terbaru dan satu deprecated struktur data:

1. Series

Series merupakan struktur data dasar dalam Pandas. Series bisa juga diibaratkan sebagai array satu dimensi seperti halnya yang ada pada numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut.

Struktur data yang bisa ditampung berupa integer, float, dan juga string. Series juga mendukung operasi vektor. Secara definisi, Series tidak dapat mempunyai kolom ganda, untuk masalah ini bisa menggunakan struktur data frame.

2. Data Frame

Data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Secara sederhana, data frame merupakan tabel/data tabular. Setiap kolom pada Data Frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.

Keunggulan dari Pandas

Seperti yang sudah disebut sebelumnya, Pandas menjadi salah satu library yang paling sering dipakai oleh data scientist. Hal ini karena Pandas dapat digunakan bersamaan dengan library lain dalam data science. Karena dibuat menggunakan NumPy, artinya ada banyak struktur library yang digunakan atau direplika di dalam Pandas. Selain itu, data yang diproduksi oleh Pandas sering kali digunakan sebagai input plotting functions untuk Matplotlib, analisis statistik di SciPy, serta algoritma machine learning dalam Scikit-learn.

Program library Pandas sendiri dapat dijalankan menggunakan berbagai text editor, namun sangat disarankan untuk menggunakan Jupyter Notebook. Hal ini disebabkan karena kemampuan Jupyter untuk meng-execute kode dari satu cell tertentu tanpa perlu menjalankan file secara keseluruhan. Selain itu, Jupyter juga menyediakan cara yang mudah untuk memvisualisasikan data frames dan plot yang dibuat oleh Pandas.

Pandas bisa dipake apa aja sih?

Ada banyak kegunaan Pandas, terutama dalam bidang data analysis yang membutuhkan task repetitif dan memakan banyak waktu. Fungsi library Pandas antara lain:

  1. Data cleansing
  2. Data fill
  3. Normalisasi data
  4. Penggabungan dan penyatuan data
  5. Visualisasi data
  6. Analisis statistik
  7. Inspeksi data
  8. Memuat dan menyimpan data

Selain fungsi-fungsi yang disebutkan di atas, Pandas juga memungkinkan penggunanya untuk membuat DataFrame sekaligus melakukan analisis serta manipulasi dan penyimpanan database. Pandas juga dapat dimanfaatkan untuk membersihkan datasets pada machine learning.

Komentar

Postingan populer dari blog ini

Apa Perbedaan USB Type A, Type C, Micro, dan Lighting?

Charger dan kabel data menjadi perangkat yang sangat penting dan harus dimiliki oleh setiap pengguna smartphone. Berbagai tipe USB (Universal Serial Bus) bermunculan seiring berkembangnya teknologi pada gadget yang dirilis. Misalnya saja seperti charger Type C yang semakin banyak digunakan di ponsel pintar keluaran terbaru. Namun tidak hanya Type C saja yang sering digunakan, masih ada Type A, Micro, serta Lighting. Lalu, apa sih perbedaannya? Apa itu USB? Universal Serial Bus (USB) adalah standar bus serial untuk perangkat penghubung, biasanya kepada komputer namun juga digunakan di peralatan lainnya seperti konsol permainan, ponsel dan PDA. Sistem USB mempunyai desain yang asimetris, yang terdiri dari pengontrol host dan beberapa peralatan terhubung yang berbentuk "pohon" dengan menggunakan peralatan hub yang khusus. Desain USB ditujukan untuk menghilangkan perlunya penambahan expansion card ke ISA komputer atau bus PCI, dan memperbaiki kemampuan plug-and-play (pasang-dan-m...

Kenalan dengan Visual Basic .NET, Bahasa Pemrograman yang Digunakan Microsoft

VB .NET atau Visual Basic .NET adalah object-oriented programming language yang diciptakan oleh Microsoft. Pastinya kamu tak asing lagi dengan nama perusahaan teknologi raksasa ini. Ternyata, Microsoft menggunakan VB .NET untuk mengembangkan aplikasi Windows yang sering kamu gunakan sehari-hari, lho. Apa Itu Visual Basic .NET? Seperti yang sudah disebutkan sebelumnya, Visual Basic .NET merupakan bahasa pemrograman yang bersifat object-oriented. Menurut Funtech, pemrograman object-oriented berbasis konsep objek. Jadi, struktur data atau objek dalam pemrograman ini memiliki atributnya masing-masing. Bahasa pemrograman VB .NET dikembangkan dari Visual Basic (VB) yang sudah terlebih dahulu diciptakan dan digunakan oleh Microsoft. Awalnya, VB .NET dikembangkan pada tahun 2002 untuk menyempurnakan Visual Basic 6.0. Java T Point menyampaikan bahwa aplikasi yang dibuat dengan VB .NET lebih dapat diandalkan dan terukur karena menggunakan .NET framework untuk eksekusinya. Bahkan, kamu bisa membu...

Kenali apa itu Version Control System, Sistem Pelacak Modifikasi Kode dalam Software Development

Jika ingin berkecimpung dalam dunia software development, version control system merupakan sebuah tool yang perlu kamu kuasai. Alat ini dirancang agar para engineer dapat mengurangi risiko kegagalan pada data-data yang telah dimodifikasi. Oleh karena itu, version control system adalah salah satu tool yang cukup penting. Nah, kira-kira, apa sih yang dimaksud dengan sistem satu ini? Apa Itu Version Control System? Menurut Atlassian, version control system (VCS) adalah sebuah kumpulan perangkat lunak yang sudah terintegrasi dan digunakan untuk membantu software engineer mengelola perubahan dalam source code dari waktu ke waktu.  Software dalam sistem ini mampu melacak setiap modifikasi kode dalam seluruh jenis database perusahaan. Jika software menemukan kesalahan, engineer dapat membandingkan kode dari versi sebelumnya dan mulai memperbaiki kekeliruan tersebut. Karena sistem pelacakan yang akurat, version control system dapat mengurangi gangguan serta kesalahan pada kinerja semua ang...