Matching Similarity for Keyword-Based Clustering
Matching Similarity for Keyword-Based Clustering
(Pencocokan Kesamaan untuk Pengelompokan
Berbasis Kata Kunci)
Mohammad
Rezaei dan Pasi Fränti
Universitas
Finlandia Timur
{rezaei,
franti} @ cs.uef.fi
Abstrak :
Pengelompokan objek
semantik seperti dokumen, situs web dan
film berdasarkan kata
kunci mereka adalah masalah yang menantang. Ini membutuhkan kesamaan
antara dua set kata kunci. Kami menyajikan ukuran baru yang berdasarkan pada
pencocokan kata-kata dua kelompok dengan asumsi bahwa ukuran kesamaan antara dua
kata individual yang tersedia.
Kesamaan pencocokan yang
diusulkan untuk mengukur menghindari masalah tindakan tradisional termasuk
minimum, maksimum, dan kesamaan rata-rata. Kami menunjukkan bahwa ini
memberikan pengelompokan yang lebih baik daripada langkah-langkah lain dalam
aplikasi layanan berbasis lokasi.
Untuk menyelesaikan
pengelompokan, kita perlu mendefinisikan kesamaan (atau jarak) antara objek. Dalam
metode aglomerasi seperti tautan
tunggal dan tautan
lengkap, kesamaan antara objek individual sudah cukup, tetapi dalam
pengelompokan parsial seperti k-means dan
perwakilan cluster k-medoid juga
diperlukan untuk mengukur objek-to-cluster yang serupa.
Inti Isi dari Jurnal :
Pengelompokan
berbasis kata kunci bertujuan untuk
mengelompokkan objek yang dijelaskan oleh satu set kata kunci atau tag. Ini
termasuk film, layanan, situs web, dan dokumen teks di umum.
Kami berasumsi di sini
bahwa satu-satunya informasi yang tersedia tentang setiap objek data adalah
kata kuncinya. Kata kunci dapat diberikan secara manual atau diekstraksi secara
otomatis.
Dalam tulisan ini, kami
menyajikan ukuran kesamaan novel antara dua set kata,
disebut kesamaan pencocokan. Kami
menerapkannya pada pengelompokan layanan berbasis kata kunci di aplikasi
berbasis lokasi. Dengan asumsi bahwa kita memiliki ukuran untuk
membandingkan semantic antara kesamaan dua kata, masalahnya adalah menemukan
ukuran yang baik untuk membandingkan set dari kata-kata.
Kesamaan pencocokan yang
diusulkan memecahkan masalah sebagai berikut. Itu berulang kali memasangkan
dua kata yang paling mirip antara objek dan kemudian mengulangi proses untuk sisa
objek hingga salah satu objek kehabisan kata-kata. Kata-kata yang tersisa
adalah kemudian dicocokkan hanya dengan rekan mereka yang paling mirip di objek
lain.
Kesamaan
Semantik Antara Kelompok Kata ada 3 yaitu :
a. Kemiripan Kata-Kata
Ukuran untuk kemiripan
semantik kata-kata dapat dikategorikan pada berbasis corpus, pencarian berbasis berbasis mesin, berbasis
pengetahuan dan hibrida.
Langkah-langkah berbasis pengetahuan menggunakan database leksikal seperti WordNet.
WordNet adalah taksonomi yang membutuhkan prosedur
untuk memperoleh skor kesamaan antara kata-kata. Terlepas dari
keterbatasannya, ini telah digunakan secara berurutan untuk pengelompokan
b. Kesamaan Kelompok Kata
Diberi ukuran untuk
membandingkan dua kata, tugas kami adalah mengukur kesamaan antara dua set
kata. Ukuran yang ada untuk menghitung minimum, maksimum, atau kesamaan
rata-rata.
Ukuran minimum dan maksimum
menemukan pasangan kata (masing-masing dari satu objek) yang paling tidak
(minimum) dan paling mirip (maksimal). Kesamaan rata-rata mempertimbangkan
semua pasangan kata dan menghitung nilai rata-rata mereka.
c. Kesamaan Pencocokan
Ukuran kesamaan pencocokan yang diusulkan didasarkan
pada algoritma paling serakah, yang pertama menemukan dua kata yang paling
mirip di set, dan kemudian iteratif cocok kata-kata serupa berikutnya.
Akhirnya, kata kunci
yang tidak dipasangkan tersisa (dari objek dengan lebih banyak kata kunci)
hanya cocok dengan kata-kata yang paling mirip di objek lain.
Efektivitas metode yang
diusulkan untuk menampilkan data dengan jumlah terbatas
cluster masih
ada. Jumlah cluster terlalu besar untuk penggunaan praktis dan kami
perlu meningkatkan
indeks validitas pengelompokan untuk menemukan kelompok yang lebih besar tetapi
tanpa membuat kelompok yang tidak berarti.
Kami juga mengamati
beberapa masalah dalam pengelompokan yang berasal dari ukuran kesamaan dua
kata, yang menyiratkan bahwa pengukuran kesamaan yang lebih baik akan
bermanfaat.
Kelebihan :
1.
Lebih cepat jika memakai
kata kunci untuk pencarian kata.
2.
Efisien Waktu
3.
Lebih memudahkan pembaca
Kekurangan :
1.
Banyak yang belum
menggunakan pencarian berdasarkan kata kunci.
2.
Dari segi Bahasa masih
ada yang kurang.
KESIMPULAN
Ukuran baru yang disebut
kesamaan pencocokan diusulkan untuk membandingkan dua kelompok kata-kata. Ini
memiliki logika yang intuitif sederhana dan itu menghindari masalah dari minimum,
maksimum dan kesamaan rata-rata, yang mana gagal untuk memberikan hasil yang
tepat dengan kasus yang lebih sederhana.
Evaluasi komparatif pada
data nyata dengan kriteria SC menunjukkan bahwa metode ini mengungguli metode
yang ada dengan marginal yang jelas. Sebagai pekerja masa depan, kami
berencana untuk menggeneralisasi kesamaan pencocokan dengan algoritma
pengelompokan lainnya seperti k-means dan k-medoid.
Komentar
Posting Komentar