Penulis: Prof. Madya Dr. Nurulkamal Masseran
Pensyarah Kanan
Jabatan Sains Matematik, Universiti Kebangsaan Malaysia
Misalkan anda merupakan seorang penganalisis data di bank dan anda ditugaskan untuk mengawasi tingkah-laku perbelanjaan kad kredit pelanggan. Jika seseorang pelanggan itu kebiasaannya membuat transaksi pembelian sekitar RM200 – RM3,000, namun secara tiba-tiba terdapat permintaan transaksi untuk pembelian bernilai RM25,000. Apakah persepsi anda terhadap transaksi tersebut?. Adakah ianya benar-benar transaksi yang sedang dibuat oleh pelanggan tersebut atas sebab-sebab tertentu?. Atau adakah ianya adalah petunjuk berlakunya penipuan dan atau jenayah?. Dalam berhadapan dengan keadaan ini, jika anda membenarkan transaksi tersebut dibuat dan ianya merupakan jenayah penipuan, pelanggan akan mengalami kerugian, anda akan dipersalahkan dan institusi anda akan mendapat nama buruk. Namun, jika anda menyekat transaksi tersebut, sebaliknya ianya merupakan transaksi yang sah, ini akan menyusahkan pelanggan yang berkemungkinan sedang terdesak dan memerlukan sumber kewangan. Ianya memberi gambaran buruk berkenaan ketakcekapan operasi bank anda. Dilema dalam situasi ini berlaku disebabkan anda tidak mengetahui sama ada kewujudan peristiwa tersebut merupakan data pencil (outlier) yang benar ataupun yang palsu
Dalam senario lain yang berbeza, wujud dilema yang berbeza, yang mana kita mungkin mengetahui secara tepat kebenaran suatu senario data pencil. Namun, disebabkan sifat data pencil merujuk kepada peristiwa yang sangat jarang berlaku, maka dilema yang timbul adalah berkaitan tindakan susulan yang perlu diambil untuk berhadapan dengan peristiwa tersebut. Contoh yang jelas, melibatkan kejadian Ribut Tropika Senyar yang melanda Malaysia baru-baru ini. Fenomena ini adalah sangat jarang dan boleh dikatakan mustahil untuk berlaku. Namun, mahu tidak mahu, walaupun dengan pengalaman dan ilmu yang kurang berkaitan senario ini, tindakan yang wajar tetap perlu diambil untuk menangani risiko dan kesan yang akan dihadapi. Jika tindakan dan langkah berjaga-jaga dibuat adalah berlebihan, kos pengurusan dan kesiapsiagaan yang tinggi perlu ditanggung. Sebaliknya, jika tindakan adalah kurang dari sepatutnya, kos akibat bencana besar pula yang akan ditanggung. Pastinya bukan mudah untuk sebarang keputusan dibuat dengan kadar segera bagi kes-kes terpencil sebegini. Namun, inilah dilema dalam dunia data pencil yang bersifat paradoks. Keganjilan yang berlaku merujuk kepada fenomena atau peristiwa yang menyimpang daripada norma atau kebiasaan umum. Ianya bukanlah sekadar hingar (noise) semata-mata, sebaliknya data pencil sering membawa makna tersirat yang sangat menarik untuk diselidiki dengan lebih mendalam.
Fenomena Data Pencil yang Melakar Sejarah Manusia
Di sebalik keganjilan dari fenomena yang jarang berlaku, kebanyakan detik-detik yang unggul dan penemuan yang menakjubkan dalam sejarah kehidupan manusia sebenarnya banyak bermula kepada peristiwa yang dianggap pelik (nilai pencil) pada mulanya, namun akhirnya membawa kepada penemuan yang unggul. Antaranya:
i-Hukum Gerakan Newton (1687)
ii-Penemuan Helium (1868)
iii-Penemuan Penisilin (1928)
iv-Penemuan lubang ozon Antartika (1985)
v-HIV’s “Berlin Patient” (2007)
vi-Teknologi (AI) AlphaGo Google DeepMind mengalahkan juara dunia pemain Go (2016)
vii-Penciptaan Model Bahasa Besar & AI generatif (2020)
Selari dengan itu, kebanyakan penemuan-penemuan saintifik yang telah memenuhi anugerah Nobel juga boleh dikaitkan dengan penemuan yang awalnya bersifat data pencil. Malah, kejayaan-kejayaan besar dalam perniagaan dan industri juga banyak yang terbit menerusi idea-idea yang menjurus kepada keadaan yang bersifat pencilan. Sebagai contoh, Airbnb bermula dengan idea terpencil: “Bagaimana jika orang yang tidak dikenali boleh tidur di rumah anda?”, Uber bermula dengan idea terpencil: “”Bagaimana jika kita boleh mendapatkan teksi semudah dengan mengetik telefon di tangan?”. Kesemua peristiwa ini menggambarkan nilai pencil merupakan tingkah laku data yang menyimpan maklumat sangat penting yang mungkin membawa kepada keunggulan. Namun, ironinya sifat data pencil boleh juga menjadi gambaran kepada ketaktentuan risiko, bahaya ataupun malapetaka besar. Antara fenomena yang boleh dikaitkan dengan kemunculan fenomena data pencil yang akhirnya membawa malapetaka besar ialah:
i-Tsunami Aceh (2004)
ii-Krisis kewangan global (2008)
iii-Tumpahan Minyak Deepwater Horizon (2010)
iv-Pendemik COVID-19 (2020)
Oleh itu, pemahaman yang baik berkaitan fenomena awal yang bersifat data pencil merupakan maklumat tidak boleh dipandang ringan. Dilema yang dibawa bersama dengan kehadiran data pencil ini perlu diurus dengan sewajarnya sama ada dalam konteks penganalisis data mahupun secara praktikal dalam pelbagai bidang.
Data pencil dalam Lensa Statistik dan Sains Data
Dari lensa statistik, data pencil umumnya ditakrif sebagai cerapan yang terletak pada jarak tidak normal daripada nilai-nilai lain dalam set data. Secara spefifiknya, data pencil kebiasannya berada lebih daripada 1.5 kali ganda dari julat antara kuartil ketiga atas atau kuartil pertama bawah. Bidang statistik klasik seringkali menganggap data pencil sebagai “tetamu tak diundang” yang menggoyahkan andaian-andaian teras seperti andaian ketaksandaran, data perlu bertaburan normal, sifat homoskedastisiti dan lain-lain. Pelanggaran andaian-andaian teras ini menjadikan keputusan dari kaedah-kaedah statistik klasik tidak sah dan sukar untuk ditafsir secara tepat. Namun, memasuki era revolusi sains data, kehadiran data pencil kini lebih diraikan. Terutama dalam berhadapan data raya yang berdimensi tinggi, nilai pencil dianggap isyarat penting yang menyimpan seribu satu maklumat yang berharga. Ini sekaligus membawa perfektif yang lebih komprehensif dalam sekolah pemikiran statistik moden terutama melalui pendekatan kaedah-kaedah statistik teguh, statistik Bayesan, pembelajaran berstatisik (statistical learning), pentaabiran sebab musabah (causal inference), dan perlombongan data bagi tujuan menjawab persoalan-persoalan seperti:
i-Adakah data pencil yang berlaku merupakan data pencil yang benar atau palsu?
ii-Mengapa data pencil tersebut berlaku?
iii-Apakah mekanisma yang mendorong keberlakuannya?.
iv-Apakah implikasi sebab musabab terhadap kewujudan data pencil?
v-Apakah kesan limpahan terhadap keberlakuan fenomena data pencil?
vii-Apakah kemungkinan peristiwa data pencil akan berulang pada masa hadapan?
viii-Dan lain-lain.

Pada masa kini, ketegasan ahli statistik terhadap data pencil telah diintegrasikan bersama sifat pragmatisme saintis data bagi tujuan mencipta pendekatan yang lebih bernuansa dan lebih praktikal untuk berurusan dengan data raya berdimensi tinggi. Suatu ungkapan yang popular dikalangan penganalisis data ialah “Data are not just numbers, they are numbers with a context”. Ini kerana, konteks dalam data adalah sangat penting untuk kita dapat memahami dengan baik dilema kewujudan suatu data pencil. Sama ada data pencil yang berlaku adalah merupakan suatu masalah untuk diselesaikan ataupun sebaliknya ianya mungkin peluang yang boleh membawa kepada keunggulan.
Akhir kata, apabila anda berhadapan dengan data pencil atau fenomena yang jarang berlaku, berfikirlah dengan cara yang berbeza dan jalankan analisis serta pengamatan dengan cara yang berbeza. Tanganilah dan uruskanlah keindahan yang cuba disampaikan oleh data pencil dengan pendekatan yang saksama.
Sumber foto utama- Universiti Airlangga
Rujukan:
Aggarwal, C. C. (2017). Outlier Analysis. Second Edition. Springer, New York.
Beamish, P. W., & Hasse, V. C. (2022). The importance of rare events and other outliers in global strategy research. Global Strategy Journal, 12(4), 697-713.
Fährmann, D., Martín, L., Sánchez, L., & Damer, N. (2024). Anomaly detection in smart environments: A comprehensive survey. IEEE access, 12, 64006-64049.
Saleh, R. A., Majzoub, S., & Saleh, A. M. E. (2025). Fundamentals of Robust Machine Learning: Handling Outliers and Anomalies in Data Science. John Wiley & Sons.
Samariya, D., & Thakkar, A. (2023). A comprehensive survey of anomaly detection algorithms. Annals of Data Science, 10(3), 829-850.
Science Museum. (2021). How was penicillin developed?. Available at: https://www.sciencemuseum.org.uk/objects-and-stories/how-was-penicillin-developed
Uber blog. What is Uber all about? Fun facts about Uber’s history. Available at: https://www.uber.com/en-ZA/blog/what-is-uber-facts/
Wang, Y. (2025). How Airbnb Convinced Millions of People to Do Something They’d Never Do. Available at: https://medium.com/@yw124/how-airbnb-convinced-millions-of-people-to-do-something-theyd-never-do-640209d90e3a




