Oleh: Prof. Madya Dr. Zamira Hasanah Zamzuri
Pensyarah Kanan
Jabatan Sains Matematik, Fakulti Sains dan Teknologi, Universiti Kebangsaan Malaysia
“Garbage in, garbage out”, merupakan pepatah yang dicipta oleh George Fuechsel, seorang pengaturcara IBM. Walaupun sudah lebih 60 tahun sejak kali pertama pepatah ini diperkenalkan, ia masih kekal relevan sehingga saat ni. Pepatah ini mengingatkan kita bahawa kualiti sesuatu hasil analisis (output) adalah bergantung kepada kualiti data yang dibekalkan (input). Dalam era kini yang dibanjiri data, kita mudah terpesona dengan hasil akhirnya; seperti papan pemuka interaktif, graf berwarna-warni, dan ramalan yang hampir dengan nilai sebenar. Namun di sebalik semua itu, ada satu proses yang kerap diabaikan dan jarang mendapat pujian, pembersihan data.
Di sebalik Tabir Pembersihan Data
Bayangkan sebuah kumpulan muzik. Vokalis berdiri di tengah pentas; disinari lampu sorot, disorak gembira oleh peminat. Namun, tanpa pemain gitar, dram, bass yang menyokong irama, lagu yang disampaikan tidak mungkin sempurna. Begitu juga dalam dunia analitik data, hasil analisis dan visualisasi diibaratkan seperti vokalis; elemen yang paling menarik perhatian, sering dipuji dan kemunculannya dinanti-nanti. Walhal, di belakang sebuah persembahan nyanyian, yang menyerlahkan lantang vokal penyanyi, berdiri elemen pembersihan data bak seorang pemain gitar atau pelantun dram, yang memastikan irama lagu kedengaran merdu menuntun suara vokalis. Hakikatnya, tanpa pembersihan data, “vokalis” boleh saja menyanyi, namun tanpa muzik, mungkin sumbang persembahannya atau tak kena pada telinga pendengar.
Satu lagi analogi berkaitan adalah dalam satu pasukan bola sepak, seseorang penyerang sering menjadi tumpuan penonton. Ini adalah kerana penyerang berperanan untuk menjaringkan gol. Apabila sesuatu gol dijaringkan, penyerang akan mendapat kredit dan diraikan secara meriah dengan sorak sorai gembira penonton. Realitinya, tanpa pemain tengah yang menghantar bola dengan tepat, tanpa pertahanan yang kukuh, kemenangan bagi pasukan bola sepak itu mungkin tidak dicapai. Begitu juga dalam analitik data, hasil analisis data ialah penyerang yang menghasilkan “gol”, dapatan bermakna, laporan yang menarik. Tetapi tanpa pembersihan data, laksana pemain pertahanan dan pemain tengah; gol itu mungkin tidak dapat dijaringkan, dan pasukan mungkin akan kalah.
Pembersihan Data: Bukan Tugas Mudah
Ramai yang menyangka proses pembersihan data hanya melibatkan langkah seperti membuang baris kosong atau membetulkan ejaan. Hakikatnya, proses ini jauh lebih kompleks, sangat memakan masa dan memerlukan pertimbangan dan kebijaksanaan pemproses data. Berdasarkan pengalaman penulis sendiri, acapkali didatangi oleh pihak yang memerlukan hasil analisis data dan mahukannya dalam tempoh yang singkat. Pernyataan seperti, “Bukankah mudah saja, masukkan data tersebut dalam perisian, kemudian dapatlah hasilnya” merupakan satu kebiasaan yang menunjukkan betapa masih ramai lagi belum celik data kerana menganggap proses pembersihan data adalah remeh, boleh dijalankan dengan tempoh yang singkat, terlalu trivial serta tidak memerlukan pertimbangan akal fikiran. Apa yang sering diabaikan adalah fakta bahawa data yang diterima datang dari pelbagai sumber; sistem lama, borang yang tidak seragam, laporan manual serta mengandungi pelbagai masalah lain, seperti nilai lenyap, format tak konsisten, data berulang dan kesilapan manusia. Adakah anda tahu bahawa sebahagian besar data yang dicerap memerlukan pembersihan dan pemformatan semula sebelum boleh dianalisis dan dihasilkan visualisasi. Satu penyelidikan telah menunjukkan bahawa penganalisis data menghabiskan 80% masa mereka hanya pada penyediaan dan pembersihan data sebelum analisis bermula.
Mengapa proses pembersihan data itu sangat penting? Sebagaimana yang telah dinyatakan di awal penulisan tadi, sekiranya input analisis itu adalah sampah, anda akan tetap mendapat output, tetapi kualitinya sampah. Sebagai contoh, satu kajian menunjukkan bahawa kesilapan dalam data (contoh: upah bernilai negatif, jantina “lelaki” tetapi “hamil = ya”) boleh wujud tanpa dapat dikesan, dan ini seterusnya memberi kesan kepada hasil analisis.
Pertimbangan dan Seni dalam Pembersihan Data
Adalah penting untuk ditekankan bahawa pembersihan data bukanlah kerja mekanikal semata-mata. Ia juga memerlukan intuisi, pemahaman konteks bagi domain data tersebut, serta pertimbangan manusia. Rujuk tiga contoh di bawah:
- Jika medan “tarikh tamat langganan” kosong; adakah itu bermaksud pengguna masih aktif atau sistem gagal merekod?
- Jika data umur seseorang dicatat 200 tahun; adakah kesilapan memasukkan data atau data rekaan?
- Bila menggabungkan tiga sistem pelanggan yang menggunakan ID berbeza, bagaimana padankan rekod dengan logik tanpa menjejaskan ketepatan?
Contoh-contoh ini memberi gambaran bagaimana proses pembersihan data bukanlah dijalankan secara mekanikal sahaja, malah lebih dari itu, yang mana menyumbang kepada keperluan masa yang lama dalam meneliti dan membersihkan sesuatu set data sebelum ia tersedia untuk dianalisis.
Mengangkat Martabat Tugas Pembersihan Data
Sudah tiba masanya untuk proses pembersihan data diberi penghargaan sewajarnya. Organisasi dan pengguna hasil analisis perlu memahami bahawa analisis hebat bermula dengan data yang bersih dan boleh dipercayai. Sebagai penulis atau pembentang, kita boleh mulakan, mengorak langkah pertama, dengan mengambil inisiatif memuatkan bahagian khusus dalam laporan yang menjelaskan perkara berikut; “Berapa lama masa dihabiskan untuk pembersihan? Apakah cabaran yang dihadapi? Apakah keputusan penting yang dibuat semasa proses itu?”. Menerusi cara ini, komuniti akan mula menghargai bahawa pembersihan data bukanlah kerja sampingan, ia kerja asas yang mesti dikuasai, besar sumbangannya dan perlu dihargai. Perlu ditekankan sekali lagi bawah proses pembersihan data bukanlah satu proses yang remeh hanya kerana ia tidak menghasilkan output yang berkilau, bersinar-sinar dan ditunggu-tunggu. Sentiasa ingatkan diri kita bahawa di sebalik hasil analisis yang gah terbentang, wujud pembersihan data yang mendokong kemegahan hasil analisis data tersebut.
Jika analisis data ialah lagu popular yang dimainkan di corong radio, maka pembersihan data ialah jurutera bunyi yang memastikan bunyi itu sedap didengar. Tanpa jurutera bunyi, lagu itu mungkin sumbang dan tidak sedap didengar. Begitu juga dalam dunia data; tanpa pembersihan yang teliti, analisis kita mungkin “tampak hebat”, namun hasilnya boleh tersalah arah. Maka, marilah kita sama-sama angkat martabat “hero tidak didendang” ini; kerana dalam dunia data, kebersihan adalah sebahagian dari kebenaran. Janganlah dibiarkan sumbangan pembersihan data sepi tanpa dirai, seperti watak Leftenan Seo Go-myung dalam filem “Good News”.
Kredit foto-techrepublic
Catatan: Penulis merupakan merupakan seorang pensyarah di Jabatan Sains Matematik, Fakulti Sains dan Teknologi, Universiti Kebangsaan Malaysia. Bidang penyelidikan beliau meliputi pemodelan data kemalangan jalan raya, statistik komputasi dan analitik data.




