Oleh : Dr Zamira Hasanah Zamzuri

Pusat Pengajian Sains Matematik, Fakulti Sains & Teknologi, Universiti Kebangsaan Malaysia
Nota: [Berikut merupakan ringkasan jurnal MOHD SYAFIQ SAPUAN, KAMARULZAMAN IBRAHIM dan penulis sendiri berjudul ” The Extra Zeros in Traffic Accident Data: A Study on the Mixture of Discrete Distributions ” yang diterbitkan dalam Jurnal Sains Malaysiana 47(8), 1931-1940 pada tahun 2018.

Kemalangan jalan raya merupakan isu yang dekat dengan masyarakat kerana impaknya yang besar bukan sahaja dari segi kewangan tetapi boleh menyebabkan kehilangan nyawa. Memahami faktor-faktor yang menyumbang kepada berlakunya kemalangan boleh membantu kepada pencegahan atau pengurangan risiko untuk berlakunya sesuatu kemalangan. Pelbagai faktor boleh menyumbang kepada berlakunya sesuatu kemalangan yang mana secara generiknya boleh dikategorikan kepada tiga: keadaan semasa (seperti jalan dan cuaca); kenderaan dan pemandu. Statistik memainkan peranan besar dalam memahami senario ini. Penggunaan statistik bukan sahaja terhad kepada isu kemalangan jalan raya, tetapi apa jua senario yang ada melibatkan data. Statistik bukan sahaja berupaya meringkaskan data ke bentuk yang lebih mudah difahami, malah juga berperanan seperti kayu sakti pari-pari, meramal masa hadapan. Peramalan yang dibuat menerusi pendekatan berstatistik bukanlah bersifat semberono tetapi dipanggil sebagai ‘penekaan secara ilmiah’ (intelligent guess). Maka, berbalik kepada isu kemalangan jalan raya, penggunaan statistik dapat meramal kebarangkalian ataupun bilangan kemalangan jalan raya yang akan berlaku di sesuatu lokasi atau masa tertentu.
Statistik bukan sahaja berupaya meringkaskan data ke bentuk yang lebih mudah difahami, malah juga berperanan seperti kayu sakti pari-pari, meramal masa hadapan
Pelbagai kajian telah dijalankan serata dunia untuk memahami dan meramalkan kemalangan jalan raya. Salah satu isu utama dalam cerapan data bilangan kemalangan jalan raya adalah kehadiran nilai sifar yang begitu banyak. Nilai sifar ini bermaksud tiada kemalangan berlaku di kawasan dan pada masa yang dicerap. Pengkaji berteori bahawa lebihan sifar ini wujud kerana kemalangan yang tidak dilaporkan yakni kemalangan tersebut sebenarnya berlaku tetapi tidak dilaporkan maka tiada rekod data. Kebiasaannya kemalangan yang tidak dilaporkan ini merupakan kemalangan berbentuk ringan dan tiada kemalangan jiwa atau kerosakan major kepada kenderaan.
Penggunaan statistik dapat meramal kebarangkalian ataupun bilangan kemalangan jalan raya yang akan berlaku di sesuatu lokasi atau masa tertentu
Kehadiran lebihan sifar dalam data kemalangan jalan raya ini memberi kesan kepada ketepatan ramalan yang ingin dilakukan menerusi pemodelan statistik. Pemodelan statistik yang berasaskan taburan statistik biasa tidak membenarkan kehadiran sifar yang begitu banyak sebagaimana yang dicerap dalam data kemalangan ini. Maka terdapat beberapa kajian terkini menggunakan taburan yang diubahsuai, agar dapat mengambil kira kehadiran lebihan sifar ini. Taburan ini menggabungkan taburan sedia ada dengan satu proses lain yang hanya menjana nilai sifar. Maka nilai sifar dalam taburan terubah suai ini dijana dari dua proses dipanggil sebagai sifar rawak (random zeros) dan sifar sebenar (true zeros). Walau bagaimanapun, situasi ini adalah agak pelik kerana sifar sebenar bermaksud wujudnya keadaan atau lokasi yang benar-benar selamat, disebabkan prosesnya hanya menjana nilai sifar (tiada kemalangan). Maka, taburan ini dianggap kurang sesuai dari segi menjelaskan situasi sebenar dalam data kemalangan dengan lebihan sifar walaupun ia menawarkan ketepatan ramalan yang lebih baik berbanding taburan statistik biasa.

Terdapat satu lagi teori berkenaan lebihan sifar iaitu kepelbagaian dari segi lokasi dan masa dicerap. Maka, dengan bermotivasikan mencari penjelasan yang lebih boleh dipercayai, kajian dijalankan dengan tujuan untuk mentahkik teori ini. Berdasarkan teori ini, variasi dari segi lokasi ataupun masa diwakili dengan taburan yang berbeza-beza. Maka, campuran beberapa taburan diskret boleh menghasilkan lebihan sifar. Empat kajian simulasi dilaksanakan yang mana data dijana berasaskan campuran tiga taburan Poisson dan tiga taburan binomial negatif bagi menggambarkan tiga proses aliran trafik dalam jalan raya: waktu puncak, bukan puncak dan pertengahan. Menerusi simulasi yang dijalankan, terbukti kehadiran lebihan sifar dikenal pasti bagi situasi yang mana sumbangan dari proses bukan puncak adalah terbanyak. Ini menunjukkan apabila sebilangan besar dari data tersebut tertabur dengan purata yang kecil, akan wujud lebihan sifar dalam data tersebut. Apabila data ini disuaikan dengan beberapa model yang berasaskan taburan biasa dan terubahsuai, model terubahsuai untuk lebihan sifar dikenal pasti sebagai model terbaik. Ini menggambarkan lebihan sifar dikenal pasti tetapi lebihan sifar itu dijana menerusi campuran beberapa taburan doskret, bukannya proses sifar rawak dan sifar sebenar seperti dalam model terubah suai tersebut.
Menggunakan data sebenar yang mengandungi lebihan sifar, keupayaan pemodelan dengan pendekatan ini diuji. Data tersebut dibahagi kepada beberapa kumpulan terlebih dahulu dan masing-masing disuaikan dengan taburan tunggal Poisson dan negatif binomial. Terbukti pemodelan berasaskan campuran beberapa taburan diskret ini meberikan keputusan yang lebih baik berbanding dengan model terubahsuai lebihan sifar yang popular dan kerap digunakan dalam situasi ini. Maka hasil kajian ini bertindak sebagai panduan kepada penyelidik untuk lebih berhati-hati dalam memodelkan seterusnya meramal bagi data bilangan yang mempunyai kewujudan lebihan sifar. Pendekatan alternatif menggunakan campuran beberapa taburan diskret ditawarkan menerusi kajian ini yang terbukti lebih sesuai dan relevan dalam menjelaskan kehadiran lebihan sifar tersebut.
Kredit Foto :
adsoftheworld
aceable