23 °c
Kuala Lumpur
26 ° Sat
27 ° Sun
27 ° Mon
25 ° Tue
Thursday, April 30, 2026
Cart / RM0.00

No products in the cart.

No Result
View All Result
e-ISSN : 2682-8456
MajalahSains
  • Laman Utama
  • Siapa Kami
  • HANTAR ARTIKEL & F.A.Q
  • Kategori
    • Alam Semulajadi
    • Astronomi & Kosmologi
    • Berita & Peristiwa
    • Bicara Saintis
      • Sains untuk Manusia
    • Suara Saintis Muda
    • Events
    • Featured
    • Fiksyen, Buku & Filem
    • Fizik
    • Kimia
    • Komputer & IT
    • Luar Negara
    • Matematik
    • Perubatan & Kesihatan
    • Rencana
    • Sejarah & Falsafah
    • Teknologi & Kejuruteraan
    • Tempatan
    • Tenaga
    • Tokoh
  • Pengiklanan
  • Sains Shop
    • Pengajian Tinggi
    • Biografi
    • Umum
    • Siri-Ingin Tahu
    • Mengapa Sains Penting
    • Tokoh Wanita Dalam Bidang Sains
    • Kitaran Hidup
    • Gaya Hidup Sihat
    • Sains Dalam Kehidupan
    • Sains Itu Menyeronokkan
      • Careers
MajalahSains
  • Laman Utama
  • Siapa Kami
  • HANTAR ARTIKEL & F.A.Q
  • Kategori
    • Alam Semulajadi
    • Astronomi & Kosmologi
    • Berita & Peristiwa
    • Bicara Saintis
      • Sains untuk Manusia
    • Suara Saintis Muda
    • Events
    • Featured
    • Fiksyen, Buku & Filem
    • Fizik
    • Kimia
    • Komputer & IT
    • Luar Negara
    • Matematik
    • Perubatan & Kesihatan
    • Rencana
    • Sejarah & Falsafah
    • Teknologi & Kejuruteraan
    • Tempatan
    • Tenaga
    • Tokoh
  • Pengiklanan
  • Sains Shop
    • Pengajian Tinggi
    • Biografi
    • Umum
    • Siri-Ingin Tahu
    • Mengapa Sains Penting
    • Tokoh Wanita Dalam Bidang Sains
    • Kitaran Hidup
    • Gaya Hidup Sihat
    • Sains Dalam Kehidupan
    • Sains Itu Menyeronokkan
      • Careers
No Result
View All Result
MajalahSains
No Result
View All Result

Peranan Jarak dalam Memahami Tingkah Laku Data

Peranan Jarak dalam Memahami Tingkah Laku Data

Editor by Editor
30/11/2025
in Berita & Peristiwa, Matematik
0 0
0

Penulis:  Prof. Madya Dr. Nurulkamal Masseran
Jabatan Sains Matematik, Universiti Kebangsaan Malaysia

Pernahkah anda terfikir, bagaimana Netflix mengetahui filem apa yang mungkin anda berminat untuk menonton?. Bagaimana Shopee boleh mencadangkan barangan-barangan yang cenderung menarik minat kita untuk membelinya?. Bagaimana bank dapat mengesan kemungkinan transaksi wang yang sedang dibuat adalah suatu penipuan?. Di sebalik sistem pengesanan atau cadangan-cadangan promosi yang menarik hati itu, terselindung suatu idea yang mudah dan bijaksana yang diolah daripada konsep ukuran jarak dan keserupaan dalam set data

Walaupun ungkapan “jarak dan keserupaan dalam set data“ kedengaran seperti sesuatu yang remeh, namun ianya sebenarnya ialah “resepi rahsia” yang membolehkan komputer, bahasa pengaturcaraan dan teknologi AI memahami data dalam pelbagai jenis bentuk sama ada ianya adalah nombor, teks, imej, suara dan lain-lain. Selari dengan itu, dalam pelbagai sudut ilmu berkaitan statistik, sains data dan pembelajaran mesin, antara persoalan yang penting yang bermain dalam fikiran penganalisis data ialah “Sejauh manakah persamaan dan perbezaan antara titik-titik data?”. Persoalan ini pada akhirnya membawa kepada usulan pelbagai al-khwarizmi yang bertujuan untuk memahami corak dalam set data menerusi konsep ukuran jarak dan keserupaan.

Bagaimana jarak mengukur keserupaan dalam data?

Ukuran jarak merupakan suatu konsep yang mudah untuk difahami. Secara dasarnya, jarak menggambarkan sejauh mana kedudukan antara satu “perkara” dengan “perkara” yang lain. Contoh mudah, berapa jarak kilometer antara Kuala Lumpur dengan bandar Melaka?. Dalam ilmu berkaitan data, idea yang sama digunakan, cumanya ukuran jarak dalam data tidaklah melibatkan panjang “kilometer” atau “inci” secara jelas. Sebagai contoh, misalkan kita mempunyai data beberapa individu berkaitan penilaian  genre filem kegemaran mereka dengan skala yang sama (1-10):

Berdasarkan jadual tersebut, setiap tingkahlaku individu diwakili oleh nombor penilaian mereka terhadap setiap genre filem. Secara umumnya, semakin kecil ukuran jarak, maka semakin serupalah citarasa genre filem kegemaran antara mereka. Oleh kerana data ini hanyalah tiga dimensi, kita boleh melihat ukuran jarak dan kesamaan antara genre filem kegemaran mereka menerusi plot serakan mudah seperti rajah di bawah. Iaitu, individu-individu yang menggemari genre filem yang sama akan mempunyai tingkah-laku yang sama yang digambarkan dengan titik-titik data yang leboh berdekatan antara satu sama lain Oleh itu, pelantar hiburan seperti Netflix akan menggunakan maklumat tingkahlaku pelanggan yang sama ini untuk meningkatkan jumlah tontonan filem. Sebagai contoh, jika Ali dan Ahmad telah menonton filem “Top Gun: Maverick” dan mereka menyukai filem tersebut, maka Netflix akan mencadangkan filem tersebut kepada Chen, jika Chen masih belum menontonnya. Dengan tingkahlaku yang hampir sama, kemungkinan besar, Chen pasti akan berminat untuk menonton filem “Top Gun: Maverick”.

Rajah 1. Paparan plot serakan 3D bagi penilaian genre filem kegemaran.

Kepelbagaian ukuran jarak dalam data

Ukuran jarak yang paling kerap digunakan dalam pelbagai aplikasi terhadap data ialah jarak Euclidean. Formula matematik jarak Euclidean secara mudah boleh kita fahami menerusi teorem Pythagoras yang telah dipelajari di peringkat sekolah. Iaitu, jarak antara dua titik (x1,y1) dan (x2,y2)   dihitung secara garis lurus menerusi formula matematik \[d = \sqrt{(x_2 – x_1)^2 + (y_2 – y_1)^2}.\] Walaupun pada asalnya jarak Euclidean bermula dengan konsep geometri, namun aplikasinya pada hari telah melangkaui sengenap aspek teknologi dan kehidupan. Namun, dalam dunia yang penuh kerencaman pada hari ini, jarak Euclidean bukanlah satu-satunya pilihan terbaik. Terutama apabila berurusan dengan data bukan nombor seperti data teks. Sebagai contoh,  apabila kita membandingkan dokumen, satu dokumen yang mempunyai 2,000 patah perkataan dan yang lainya mengandungi 500 perkataan. Ciri kesamaan tidak boleh diungkap berdasarkan berapa panjang patah perkataan ataupun perbezaan mutlak antara kedua-dua dokumen. Namun sebaliknya sejauh mana kedua-dua dokumen membincangkan berkaitan topik yang sama. Oleh itu, ukuran jarak kesamaan antara dua dokumen ini perlu mempertimbangkan maklumat berkaitan “sudut antara vektor” dalam data. Di sini, aplikasi jarak kosinus (cosine) merupakan ukuran jarak yang lebih sesuai.

Selain daripada itu, terdapat banyak lagi ukuran-ukuran jarak yang telah diusulkan oleh penyelidik-penyelidik di seluruh negara. Antara ukuran jarak lain yang juga popular ialah:

i)    Jarak Manhattan: mengukur jarak merentasi paksi atau grid. Ianya digambarkan seperti bergerak melalui blok-blok bangunan dalam bandar.

ii)   Jarak Hamming: menghitung berapa banyak perbezaan bit antara jujukan data dedua seperti jujukan DNA atau data digital.

iii)  Jarak Jaccard: ukuran kesamaan antara dua set data dalam bentuk vektor binari tak simetri terutama berkaitan data jenis teks.

iv)  Jarak Chebyshev: ukuran jarak berdasarkan -norm.

v)   Jarak Minkowski: ukuran jarak teritlak berasakan -norm.

vi)  Jarak Canberra: merupakan ukuran jarak Manhattan berwajaran yang ianya seringkali digunakan terhadap data yang tertabur sekitar titik asalannya.

vii) Jarak Pearson: merupakan jarak berasakan nilai korelasi Pearson yang mengukur hubungan linear antara dua vektor sampel data.

viii) Jarak Mahalanobis: ukuran jarak antara titik-titik data yang mempertimbangkan maklumat taburan dan korelasi data terutama bagi data multivariat.

ix)  Dan lain-lain.

Jarak keserupaan dalam data raya berdimensi tinggi

Contoh yang dibincangkan berkaitan genre filem di atas merupakan contoh mudah untuk pemahaman umum berkaitan konsep jarak dalam data. Namun, dalam dunia sebenar, data yang perlu dianalisis bukanlah bersifat tiga dimensi ataupun maklumat dengan lima individu sahaja. Data era moden kini melibatkan data raya (big data) dengan dimensi yang sangat tinggi. Terdapat satu ungkapan yang popular dikalangan ahli statistik dan penganalisis data berkaitan sifat kompleksiti data begini iaitu, “curse of dimensionality”. Ungkapan ini membawa maksud, data raya dengan dimensi yang tinggi bukanlah mudah untuk diuruskan jika kita tidak mempunyai pengetahuan yang baik dan kemahiran yang tinggi berkaitan ilmu statistik, matematik, perkomputeran dan sains data. Ini kerana, umumnya apabila bilangan dimensi bertambah, jarak antara titik-titik data akan cenderung menjadi hampir seragam. Sebagai contoh, jika kita cuba untuk membezakan titik-titik data dalam ruang ciri 1,000 dimensi dengan menghitung jarak Euclidean antara setiap pasangan titik-titik data, kita akan mendapati kesemua jarak pasangan titik data adalah hampir sama. Fenomena ini membawa kepada permasaalahan seperti i) Kejituan yang rendah terhadap model berasaskan jarak seperti k-NN dan pengelompokan; ii) Carian melibatkan jiran terdekat antara titik-titik data yang bermakna adalah hampir mustahil, dan iii) Kos penghitungan yang tinggi disebabkan skala pengiraan jarak meningkat secara eksponen terhadap peningkatan dimensi data.

Namun begitu, tidak dapat dielakkan bahawa data raya berdimensi tinggi ini wujud dalam pelbagai bidang seperti data jujukan genomik, data satelit, data media sosial, analisis teks, pemprosesan imej, siri masa multivariat kewangan dan lain-lain. Dalam konteks untuk memahami data-data sebegini, konsep jarak masih merupakan “sense of touch” yang menjadi hujah asas pembinaan pelbagai kaedah dan al-khwarizmi yang lebih rumit dan terkehadapan seperti “collaborative filtering”, “Learned similarity metrics”, “distance-sensitive hashing”, “Scalable algorithms for billion-point nearest neighbor search” dan lain-lain. Sebahagian kaedah-kaedah ini telahpun diadaptasi dalam pelbagai teknologi pada masa kini. Tujuannya adalah sama iaitu untuk melihat makna, ciri kesamaan, struktur hubungan serta pola dalam memahami tingkah-laku data dengan baik

Jadi, selepas ini jika anda melihat saranan dari Netflix yang didahului dengan ayat “Because you watched…”, anda akan tahu bahawa ianya bukanlah suatu kebetulan ataupun silap mata. Sebaliknya, ianya adalah keindahan aplikasi ilmu statistik dan sains data yang diterjemahkan dalam konsep ukuran jarak.

Rajah 2. Sistem cadangan Netflix yang berasaskan teknik tapisan kolaboratif (collaborative filtering)


Rujukan:

Abou-Moustafa, K. (2016). What Is the Distance Between Objects in a Data Set?: A Brief Review of Distance and Similarity Measures for Data Analysis. IEEE pulse, 7(2), 41-47.

Aggarwal, C.C. (2015). Data Mining. The Textbook. Springer, New York.

Bojorque, R., Hurtado, R., Inga, A. (2018). A comparative analysis of similarity metrics on sparse data for clustering in recommender systems. In International Conference on Applied Human Factors and Ergonomics (pp. 291-299). Cham: Springer International Publishing.

Chen, Q., Zhao, B., Wang, H., Li, M., Liu, C., Li, Z., … & Wang, J. (2021). Spann: Highly-efficient billion-scale approximate nearest neighborhood search. Advances in Neural Information Processing Systems, 34, 5199-5212.

Ontañón, S. (2020). An overview of distance and similarity functions for structured data. Artificial Intelligence Review, 53(7), 5309-5351.

Saifudin, I., Widiyaningtyas, T. (2024). Systematic literature review on recommender system: Approach, problem, evaluation techniques, datasets. IEEE Access, 12, 19827-19847.

Jadon, A., Patil, A. (2024). A comprehensive survey of evaluation techniques for recommendation systems. In International Conference on Computation of Artificial Intelligence & Machine Learning (pp. 281-304). Cham: Springer Nature Switzerland.

Lehal, M. S., Kumar, A., Goyal, V. (2019). Comparative analysis of similarity measures for extraction of parallel data. International Journal of Control and Automation, 12(6), 408-417.

Math.NET. Distance Metrics. Available at: https://numerics.mathdotnet.com/Distance

 

Berikan Komen Anda Di Sini

Tags: Jabatan Sains MatematikMatematiknetflixNurulkamal Masseranperanan jarakset datatingkah laku dataUniversiti Kebangsaan Malaysia
ShareTweetShare
Previous Post

Penyakit Hati Berlemak: Epidemik Senyap di Malaysia

Next Post

Bakteria Pemakan Plastik: Penyelesaian Alam untuk Pencemaran Plastik

Editor

Editor

Related Posts

Bersenam Setiap Hari, Tetapi Berat Badan Masih Tidak Berubah?
Berita & Peristiwa

Bersenam Setiap Hari, Tetapi Berat Badan Masih Tidak Berubah?

14 hours ago
Bioteknologi: Memanfaatkan Sisa Buangan Nenas kepada Produk Industri Makanan
Alam Semulajadi

Bioteknologi: Memanfaatkan Sisa Buangan Nenas kepada Produk Industri Makanan

3 days ago
Bioreaktor Semulajadi: Memahami Mekanisma Pencernaan Ruminan Untuk Mengurangkan Kebergantungan Import
Alam Semulajadi

Bioreaktor Semulajadi: Memahami Mekanisma Pencernaan Ruminan Untuk Mengurangkan Kebergantungan Import

4 days ago
Matematik dan Kriptografi di sebalik Tandatangan Digital
Berita & Peristiwa

Matematik dan Kriptografi di sebalik Tandatangan Digital

5 days ago
Next Post
Bakteria Pemakan Plastik: Penyelesaian Alam untuk Pencemaran Plastik

Bakteria Pemakan Plastik: Penyelesaian Alam untuk Pencemaran Plastik

Kategori Produk

  • Sains Dalam Kehidupan
  • Sains Itu Menyeronokkan
  • Mengapa Sains Penting
  • Tokoh Wanita Dalam Bidang Sains
  • Pengajian Tinggi
  • Kitaran Hidup
  • Gaya Hidup Sihat
  • Biografi
  • Siri-Ingin Tahu
  • Umum
  • Laman Utama
  • Siapa Kami
  • HANTAR ARTIKEL & F.A.Q
  • Kategori
  • Pengiklanan
  • Sains Shop
e-ISSN : 2682-8456

Copyright @2026 MajalahSains | MScience Ent. (002387117-X) Berdaftar dengan Perpustakaan Negara Malaysia (PNM)

No Result
View All Result
  • Laman Utama
  • Siapa Kami
  • HANTAR ARTIKEL & F.A.Q
  • Kategori
    • Alam Semulajadi
    • Astronomi & Kosmologi
    • Berita & Peristiwa
    • Bicara Saintis
      • Sains untuk Manusia
    • Suara Saintis Muda
    • Events
    • Featured
    • Fiksyen, Buku & Filem
    • Fizik
    • Kimia
    • Komputer & IT
    • Luar Negara
    • Matematik
    • Perubatan & Kesihatan
    • Rencana
    • Sejarah & Falsafah
    • Teknologi & Kejuruteraan
    • Tempatan
    • Tenaga
    • Tokoh
  • Pengiklanan
  • Sains Shop
    • Pengajian Tinggi
    • Biografi
    • Umum
    • Siri-Ingin Tahu
    • Mengapa Sains Penting
    • Tokoh Wanita Dalam Bidang Sains
    • Kitaran Hidup
    • Gaya Hidup Sihat
    • Sains Dalam Kehidupan
    • Sains Itu Menyeronokkan
      • Careers

Copyright @2026 MajalahSains | MScience Ent. (002387117-X) Berdaftar dengan Perpustakaan Negara Malaysia (PNM)

Login to your account below

Forgotten Password? Sign Up

Fill the forms bellow to register

All fields are required. Log In

Retrieve your password

Please enter your username or email address to reset your password.

Log In