Langsung ke konten utama

Mengenal apa itu Pandas?

Pandas adalah sebuah library di Python yang bersifat open source dengan lisensi BSD pandas biasa digunakan untuk menganalisis data, manipulasi data, mengubah dimensi data, mengecek data dan masih banyak lagi. Pandas memudahkan kita untuk membaca file dengan banyak format file seperti .txt, .csv, .json, dan masih banyak lagi.

Apa itu Pandas?

Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. 

Library Pandas memiliki dua tipe struktur data untuk versi terbaru yaitu Series dan Data Frame serta satu deprecated struktur data yaitu Panel (deprecated). Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut. Sedangkan data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data dalam bentuk tabel/data tabular. Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah.

Awalnya, Pandas dikembangkan oleh Wes McKinney pada 2008 saat ia bekerja di AQR Capital Management. McKinney kemudian meyakinkan AQR untuk memperbolehkan Pandas menjadi open source. Library Pandas pun berkembang dengan pesat hingga saat ini. Penggunaan Pandas dalam Python sendiri sering kali muncul pada domain akademis hingga komersial, termasuk keuangan, neurosciences, ekonomi, statistik, periklanan, analisis web, dan lain sebagainya.

Cara kerja Pandas cukup menarik. Data berpa CSV, TSV, atau SQL diubah menjadi obyek Python dengan rows dan column yang disebut sebagai data frame. Objek ini terlihat sangat mirip dengan tabel yang terdapat pada software statistika seperti Excel atau SPSS. Data yang sudah diolah akan sangat mudah dianalisis karena berbentuk daftar library.

Pandas umumnya menyediakan dua struktur data yang berguna untuk memanipulasi data. Struktur tersebut adalah Series dan DataFrame. Pandas Series merupakan array satu dimensi yang dapat memegang data dari berbagai tipe, mulai dari integer, string, hingga Python object. Pandas Series pada dasarnya sangat mirip dengan kolom pada Sheet dalam Excel. Untuk membuat Pandas Series, biasanya pengguna akan memuat datasets dari storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV, atau bahkan Excel.

Pandas DataFrame sedikit berbeda karena merupakan struktur dua dimensi. Oleh karneanya, data yang diproses akan disusun dalam bentuk tabel dengan rows dan column. Umumnya, DataFrame terdiri atas tiga komponen penting: data, rows, dan column. Untuk membuat DataFrame, biasanya pengguna akan memuat datasets dari storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV atau bahkan Excel.

Struktur Data Pandas

Pandas memiliki dua tipe struktur data untuk versi terbaru dan satu deprecated struktur data:

1. Series

Series merupakan struktur data dasar dalam Pandas. Series bisa juga diibaratkan sebagai array satu dimensi seperti halnya yang ada pada numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut.

Struktur data yang bisa ditampung berupa integer, float, dan juga string. Series juga mendukung operasi vektor. Secara definisi, Series tidak dapat mempunyai kolom ganda, untuk masalah ini bisa menggunakan struktur data frame.

2. Data Frame

Data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Secara sederhana, data frame merupakan tabel/data tabular. Setiap kolom pada Data Frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.

Keunggulan dari Pandas

Seperti yang sudah disebut sebelumnya, Pandas menjadi salah satu library yang paling sering dipakai oleh data scientist. Hal ini karena Pandas dapat digunakan bersamaan dengan library lain dalam data science. Karena dibuat menggunakan NumPy, artinya ada banyak struktur library yang digunakan atau direplika di dalam Pandas. Selain itu, data yang diproduksi oleh Pandas sering kali digunakan sebagai input plotting functions untuk Matplotlib, analisis statistik di SciPy, serta algoritma machine learning dalam Scikit-learn.

Program library Pandas sendiri dapat dijalankan menggunakan berbagai text editor, namun sangat disarankan untuk menggunakan Jupyter Notebook. Hal ini disebabkan karena kemampuan Jupyter untuk meng-execute kode dari satu cell tertentu tanpa perlu menjalankan file secara keseluruhan. Selain itu, Jupyter juga menyediakan cara yang mudah untuk memvisualisasikan data frames dan plot yang dibuat oleh Pandas.

Pandas bisa dipake apa aja sih?

Ada banyak kegunaan Pandas, terutama dalam bidang data analysis yang membutuhkan task repetitif dan memakan banyak waktu. Fungsi library Pandas antara lain:

  1. Data cleansing
  2. Data fill
  3. Normalisasi data
  4. Penggabungan dan penyatuan data
  5. Visualisasi data
  6. Analisis statistik
  7. Inspeksi data
  8. Memuat dan menyimpan data

Selain fungsi-fungsi yang disebutkan di atas, Pandas juga memungkinkan penggunanya untuk membuat DataFrame sekaligus melakukan analisis serta manipulasi dan penyimpanan database. Pandas juga dapat dimanfaatkan untuk membersihkan datasets pada machine learning.

Komentar

Postingan populer dari blog ini

Kenali apa itu Kotlin?

Kotlin adalah salah satu bahasa pemograman yang diandalkan untuk membangun aplikasi smartphone, terutama Android. Namun, apakah kamu sudah cukup familiar dengan apa itu Kotlin? Sebenarnya bahasa pemrograman ini semakin populer, lho. Pasalnya,  pada tahun 2017 lalu Google mengumumkan bahwa Kotlin menjadi salah satu bahasa resmi untuk membangun aplikasi Android. Umumnya para developer yang membuat aplikasi Android menggunakan bahasa pemrograman Java. Namun, sejak Kotlin diumumkan sebagai salah satu bahasa yang bisa digunakan untuk membuat aplikasi berbasis Android, bahasa pemrograman itu pun jadi semakin populer. Apa Itu Kotlin? Menurut GeeksforGeeks, Kotlin adalah bahasa pemrograman general-purpose yang dikembangkan oleh JetBrains. Kotlin memiliki konstruksi yang berorientasi objek dan fungsional. Pengguna bisa menggunakannya dengan orientasi objek, fungsional, atau menggabungkan keduanya. Dalam situs resminya disebutkan bahwa Kotlin adalah bahasa pemrograman open source yang pertam...

Mengenal dengan Jaringan MAN

Metropolitan Area Network (MAN) adalah sebuah jaringan komputer suatu kota yang memiliki transfer data dengan kecepatan tinggi. Jaringan tersebut biasanya menghubungkan berbagai lokasi dalam satu kota, misal perkantoran, kampus, pemerintahan dan sebagainya. Jaringan MAN merupakan gabungan jaringan LAN yang hanya bisa menghubungkan satu gedung saja. Apa itu Jaringan Metropolitan Area Network (MAN)? Menurut Wikipedia, Metropolitan area network atau yang biasa disingkat dengan MAN adalah suatu jaringan dalam suatu kota dengan transfer data berkecepatan tinggi, yang menghubungkan berbagai lokasi seperti kampus, perkantoran, pemerintahan, dan sebagainya. Jaringan MAN adalah gabungan dari beberapa LAN. Jangkauan dari WAN ini adalah antar 10 km hingga 50 km, WAN ini merupakan jaringan yang tepat untuk membangun jaringan antar kantor-kantor dalam satu kota antara pabrik/instansi dan kantor pusat yang berada dalam jangkauannya. MAN dinilai cocok untuk jaringan yang menghubungkan antar kanto...

Kenali Perbedaan dari Jaringan Wired dan Jaringan Wireless

Dalam jaringan, terdapat beberapa media yang digunakan sebagai penghubung. Media transmisi yang digunakan dalam jaringan komputer sebagai sarana penghubung ada dua macam, yaitu media transmisi menggunakan kabel (Wired Network) dan media nirkabel atau tanpa kabel (Wireless Network). Apa saja perbedaan dari kedua media transmisi tersebut? 1. Wired (Kabel) Jaringan Wired adalah jaringan yang menyambungkan tiap device dengan sarana kabel, biasanya menggunakan kabel Ethernet. Jaringan Wired sangat bagus untuk melakukan transfer data dalam jumlah yang sangat besar, karena kondisinya yang stabil dan kecepatannya tinggi. Kelebihan menggunakan Jaringan Wired, yaitu: Biaya rendah Memberikan performa yang bagus (meskipun instalasi agak rumit) Kecepatannya bisa mencapai Gigabit, sedangkan kecepatan Jaringan Wireless yang paling tinggi hanya mampu sampai 300 Mbps (Dengan standar 802.11n dan dilengkapi dengan antena MIMO) Relatif lebih aman dibandingkan dengan Jaringan Wireless, apalagi jika keamana...