Penulis: Prof. Madya Dr. Nurulkamal Masseran
Pensyarah Kanan
Jabatan Sains Matematik, Universiti Kebangsaan Malaysia
Dalam era data raya kini, setiap institusi mahupun individu akan cenderung untuk membuat keputusan berdasarkan maklumat daripada data. Perkembangan ini selari dengan kemunculan pelbagai aplikasi teknologi pintar dan kecerdasan buatan (AI) yang secara mudah boleh memproses maklumat daripada data dari pelbagai sumber, dan seterusnya memaparkannya dalam plot-plot yang indah dengan pelbagai ukuran-ukuran statistik deskriptif. Namun, proses pembuatan keputusan menerusi maklumat deskriptif daripada data sahaja tidak mencukupi memberitahu kita semua perkara yang perlu kita ketahui. Ini kerana kebanyakan keputusan analisis data hanya akan memberitahu kita maklumat berkenaan “apa yang berlaku” dalam data. Bagaimanapun, dalam dunia yang semakin kompleks pada masa kini, kemampuan untuk mengetahui maklumat berkaitan “apa yang berlaku” mungkin tidak lagi mencukupi untuk menjadi asas kepada pembuatan keputusan yang bijaksana. Apa yang lebih penting adalah untuk mengetahui “mengapa suatu perkara tersebut berlaku?” Dan “apakah akibatnya jika peristiwa tersebut berlaku?”. Persoalan-persoalan begini merupakan persoalan sebab-musabab/sebab-akibat (causality) yang terselindung dalam data cerapan. Ianya tidak boleh dicungkil secara terus menggunakan teknik pengvisualan dan juga kaedah statistik tradisional.
Umumnya kaedah statistik tradisional dan pengvisualan data hanya boleh mengukur hubungan suatu peristiwa dengan peristiwa yang lain menerusi ukuran statistik korelasi. Iaitu, semakin kuat ukuran korelasi, ianya membawa tafsiran hubungan antara dua peristiwa itu adalah sangat berkait. Namun, korelasi bukankan petunjuk bagi sebab-akibat bagi suatu peristiwa. Kebanyakan penganalisis data mungkin akan terkeliru antara konsep korelasi dengan konsep sebab-akibat. Secara mudahnya, korelasi menggambarkan bagaimana dua peristiwa yang berlaku secara bersama. Manakala sebab-akibat menggambarkan bagaimana satu perkara akan menyebabkan suatu peristiwa lain berlaku. Contoh yang popular berkaitan perbezaan dua ukuran ini ialah berkenaan data jualan ais krim di US (TylerVigen.com, 2025). Daripada data tersebut, penganalisis mendapati korelasi antara jualan aiskrim dengan kadar jenayah adalah tinggi. Ianya membawa tafsiran bahawa apabila penjualan ais krim meningkat, maka kadar jenayah juga meningkat.
Walaupun bukti daripada data menunjukkan senario tersebut berlaku, namun akal logik manusia akan mempertikaikan rasional terhadap hubungan tersebut. Oleh itu, apabila diselidiki dengan lebih mendalam, penganalisis mendapati hubungan tersebut adalah palsu. Kedua-dua peristiwa tersebut bukanlah merupakan sebab-akibat antara satu sama lain. Walaupun ukuran korelasi adalah tinggi, ianya tidak memberikan maklumat sebab-musabab. Penganalisis mendapati terdapat pembolehubah ketiga iaitu faktor cuaca panas yang sebenarnya telah meningkatkan jualan aiskrim, kerana orang ramai mahukan makanan sejuk semasa cuaca panas. Selari dengan itu semasa musim panas, interaksi sosial berlaku dengan lebih banyak dan kebanyakan orang mudah merasa rimas semasa cuaca panas, sekaligus boleh mempengaruhi emosi tak menentu. Keadaan ini telah menyebabkan kadar jenayah meningkat. Contoh ini jelas menunjukkan bahawa faktor penyebab tersirat antara hubungan suhu dengan ais krim, dan juga suhu dengan kadar jenayah tidak mudah untuk dikenalpasti tanpa proses penaakulan yang betul. Kekeliruan ini akan membawa kepada keputusan analisis data yang pincang dan sekaligus membawa implikasi pembuatan keputusan yang salah. Namun begitu, kelemahan ini boleh diatasi menerusi teknik penaakulan sebab-musabab (causal reasoning).
Statistik di sebalik penaakulan sebab-musabab
Penaakulan sebab-musabab sebenarnya didasari oleh salah satu cabang bidang ilmu statistik yang dikenali sebagai pentaabiran sebab-musabab (causal inference). Penaakulan ini merupakan suatu proses kognitif atau logik untuk memahami mengapa suatu peristiwa berlaku. Ianya melibatkan konsep kontrafaktual (counterfactual) yang mula diperkenalkan oleh ahli statistik Amerika iaitu Donald Rubin. Secara falsafahnya, konsep kontrafaktual ini menggambarkan “dua dunia yang selari” yang mempunyai dua senario yang berbeza terhadap satu entiti yang sama pada masa yang sama. Sebagai contoh, misalkan seorang pesakit A yang menjalani suatu ujian klinikal untuk menguji keberkesanan ubat X. Keberkesanan ubat X terhadap pesakit A hanya boleh disahkan jika kita boleh menilai dua keadaan yang berlawanan secara serentak terhadap entiti yang sama dan pada masa yang sama. Iaitu, i) apakah hasil kesihatan pesakit A jika dia mengambil ubat X, dan ii) apakah hasil kesihatan pesakit A jika dia tidak mengambil ubat X. Namun, adalah mustahil untuk kedua-dua senario tersebut diukur secara serentak terhadap pesakit A pada masa yang sama. Jika dua pesakit iaitu A dan B digunakan untuk mengambil ubat X pada masa yang sama, kepincangan akan berlaku kerana adalah mustahil pesakit A dan B mempunyai keadaan fizikal, biologi dan lain-lain aspek saya sama secara setara. Sebaliknya jika pesakit A mengambil ubat X dua kali pada masa yang berbeza, kepincangan juga akan berlaku kerana perbezaan keadaan pesakit A dalam dua masa yang berbeza. Ini menjadikan ukuran sebab-musabab kesan ubat X terhadap pesakit A adlah mustahil boleh dinilai secara tepat. Namun, permasalah ini boleh dirungkai menggunakan pendekatan statistik menerusi kesan rawatan purata (average treatment effect). Iaitu, perbandingan secara kumpulan dengan saiz sampel yang besar perlu dijalankan terhadap kelompok pesakit yang menerima rawatan dengan kelompok yang tidak menerima rawatan. Selari dengan itu, pelbagai konsep dan kaedah-kaedah statistik lain seperti ujian rawak terkawal (randomized controlled trial), kawalan kesan pemboleh ubah pembaur/pengganggu (confounder variables), kaedah perbezaan-dalam-perbezaan (difference-in-differences), pengecaman pembolehubah instrumen (instrumental variable), model penyebab berstruktur (structural causal model), dan graf asiklik terarah (directed acyclic graph) juga merupakan teknik-teknik penting yang membolehkan penaakulan sebab-musabab dapat dijalankan dengan berkesan terhadap data (Ding, 2024; Jiao et al. 2024).

AI sebab-musabab (causal AI)
Teknologi AI yang digunapakai pada masa ini dipacu oleh maklumat input data raya (big data) untuk mengenali corak suatu perkara yang berlaku. Namun, teknologi AI tradisional ini mempunyai kelemahan yang besar iaitu ianya tidak boleh memahami “mengapa suatu perkara berlaku?”. Kita sedia maklum bahawa matlamat utama teknologi AI adalah untuk meniru kepintaran manusia. Namun, kepintaran manusia tidaklah terbatas dengan hanya melihat dan memahami corak. Kepintaran manusia melangkaui aspek tersebut yang mana kita mempunyai kemampuan untuk membayangkan alternatif terhadap suatu perkara, merungkai sebab-musabab suatu peristiwa berasaskan logik dan pengalaman, mampu membuat keputusan berdasarkan penaakulan, dan lain-lain kepintaran yang tidak dimiliki oleh teknologi AI tradisional. Walaubagaimanapun, menerusi adaptasi penaakulan sebab-musabab dalam teknologi pintar, ianya akan membawa suatu revolusi AI yang lebih berkuasa pada masa akan datang. AI sebab-musabab akan meningkatkan kemampuan al-khawarizmi model pembelajaran mesin atau pembelajaran mendalam untuk memahami dan mengurus input data dengan lebih bijaksana sehinggakan ianya berkemampuan untuk memiliki pemikiran penaakulan terhadap suatu perkara yang tersirat. Sebagai contoh, AI tradisional akan cenderung untuk memberikan jawapan yang berhalusinasi jika suatu perkara yang ditanya tidak terkandung dalam input data sedia ada. Sebaliknya, teknologi AI sebab-musabab berkemampuan untuk mensimulasikan pelbagai senario ‘kontrafaktual’ tanpa berhalusinasi, walaupun perkara tersebut tidak terkandung dalam input data sedia ada. Malah, menerusi penaakulan sebab-musabab ini, pelbagai kesan intervensi akan dapat dijana oleh model AI untuk memahami pelbagai akibat yang mungkin berlaku jika suatu tindakan dibuat (Ness 2025). Adaptasi penaakulan sebab-musabab ini akan mermberikan anjakan paradigma kepada teknologi AI pada masa hadapan, iaitu daripada model peramal pintar kepada model pemahaman pintar. Ini sekaligus menjadikan proses membuat keputusan akan lebih berstrategik dan proaktif. Akhir kata, ungkapan yang boleh kita kaitkan dengan perkara ini ialah “suatu keputusan yang bijaksana bukanlah lahir daripada ramalan semata-mata, sebaliknya ianya terbit daripada kefahaman mendalam terhadap sebab, akibat dan sebarang kemungkinan yang bakal terjadi”.

Kredit foto utama-wisdomcomplexus
[ARTIKEL LAIN PENULIS – Peranan Jarak Dalam Memahami Tingkahlaku Data]
[ARTIKEL LAIN PENULIS – Dilema Data Pencil]
[ARTIKEL LAIN PENULIS – Mengapa Taburan Normal Begitu Popular?]
[ARTIKEL LAIN PENULIS- Taburan hukum-kuasa: Ketakseimbangan yang Teratur]
[ARTIKEL LAIN PENULIS – Simulasi Monte Carlo: Merungkai Kerumitan menerusi Kerawakan]
Rujukan:
Ding, P. (2024). A first course in causal inference. Chapman and Hall/CRC.
Jiao, L., Wang, Y., Liu, X., Li, L., Liu, F., Ma, W., Guo, Y., Chen, P., Yang, S., Hou, B. (2024). Causal Inference Meets Deep Learning: A Comprehensive Survey. Research 7, 0467
Ness, R. O. (2025). Causal AI. Simon and Schuster.
Tyler Vigen.com. (2025). Ice cream consumption correlates with violent crimes rates. Available at: https://tylervigen.com/spurious/correlation/9632_ice-cream-consumption_correlates-with_violent-crime-rates




