253x Filetype PDF File size 1.07 MB Source: core.ac.uk
View metadata, citation and similar papers at core.ac.uk brought to you by CORE
provided by ejournal.nusamandiri.ac.id (STMIK Nusa Mandiri)
Jurnal PILAR Nusa Mandiri Vol. 14, No. 2 September 2018 41
INFORMATION RETRIEVAL SYSTEM PADA FILE PENCARIAN DOKUMEN
TESIS BERBASIS TEXT MENGGUNAKAN METODE VECTOR SPACE
MODEL
1 2
Ahmad Fauzi ; Ginabila
1, 2
Ilmu Komputer
STMIK Nusa Mandiri
1 www.nusamandiri.ac.id
2
fauzi.aau@nusamandiri.ac.id, 14002151@nusamandiri.ac.id
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi-NonKomersial 4.0 Internasional.
Abstract—Speed and density in the process of
finding documents and information has become Kata Kunci: informasi retrival, model sistem
mandatory, contained in information systems, to pengambilan ruang vector.
facilitate the search process or find documents and
information needed, it is called information retrieval PENDAHULUAN
or information retrieval system, implementation of
the theory applied in this study using the model Peningkatan arus informasi yang sangat cepat
method vector space, the purpose of this study is to dalam mendukung kegiatan browsing dan
provide general exposure to the process of finding searching bagi user untuk mempermudah aktivitas
digital documents. With the token and indexing (Irmawati, 2017) Informasi tumbuh dengan sangat
process so that the results of the masses are found in pesat dalam berbagai basis content seperti teks,
the database using keywords, so the system will image, video, visual, audio dan sebagainya. alat
search according to the keywords input into the temu kembali online public access catalog (OPAC)
system, and will be compared with the data sendiri sudah ada sejak tahun 1970. Sejak pertama
contained in the database, so that it can produce the kali diciptakan, pembuatan sistem temu kembali
correct information. informasi telah mengalami proses perubahan
sesuai perkembangannya (Lestari, 2016)
Keywords: retrival information, vector space Informasi tersebut tidak ada artinya bila informasi
retrieval system model. yang relevan tidak dapat ditemukan kembali guna
memenuhi kebutuhan informasi pemustaka. Oleh
Intisari— Kecepatan dan kepadatan dalam proses karena itu, perpustakaan perguruan tinggi
pencarian dokumen dan informasi telah menjadi membutuhkan sistem temu kembali informasi
wajib, terkandung dalam sistem informasi, untuk (information retrieval).
memudahkan proses pencarian atau menemukan perpustakaan perlu melakukan perubahan
dokumen dan informasi yang diperlukan, itu dalam pemeliharaan dan katalogisasi informasi,
disebut informasi retrival atau sistem pengambilan dari sistem tercetak menjadi online dalam bentuk
informasi, implementasi Dari teori yang digital agar dapat diakses dari mana saja (Amin,
diterapkan dalam penelitian ini menggunakan 2012). Perubahan sistem tersebut, terlihat pada
metode model ruang vektor, tujuan penelitian ini pengembangan perpustakaan digital. Layanan
adalah memberikan paparan umum tentang proses perpustakaan digital menyediakan akses instan
pencarian dokumen digital. Dengan proses token terhadap koleksi/dokumen, baik melalui metode
dan indexsing sehingga ditemukan hasil dari pencarian keyword, penulis, maupun judul.(Sjaeful
maskimal terdapat dalam database menggunakan Afandi; Firman Ardiansya; Blasius Soedarsono,
kata kunci, sehingga sistem akan melakukan 2015) masalah utama dalam proses pencarian
pencarian sesuai deanagn kata kunci yang di dokumen digital dibutuhkan waktu yang relatif
inputkan pada sistem, dan akan dibandingkan lama karena pencariannya harus menyertakan isi
dengan data yang terdapat pada database, judul dokumen secara lengkap dan benar pada
sehingga dapat menghasilkan informasi yang aplikasi ELS-NURI, hal ini menjadi tidak relevan
benar. dalam sistem temu kembali informasi. Maka dari
itu dibutuhkan sebuah search engine yang dapat
P-ISSN: 1978-1946 | E-ISSN: 2527-6514 | Information Retrival Sistem …
Jurnal Terakreditasi Peringkat 4 berdasarkan Surat Keputusan Dirjen Risbang SK Nomor 21/E/KPT/2018
42 Jurnal PILAR Nusa Mandiri Vol. 14, No. 2 September 2018
mencari dokumen-dokumen tersebut secara lebih repository.nusamandiri.ac.id yang menjadi bahan
cepat dan mudah serta menghasilkan informasi penelitian dalam penggunaan retrival information
yang relevan tanpa perlu menyertakan judul
dokumen secara lebih terperinci (Zain & Suswati, BAHAN DAN METODE
2016) penulis mecoba menerapakan metode
informasi retrival pada pembaharuan aplikasi ELS- Penulis Pengumpulan data dilakukan
NURI, guna memberikan informasi yang lebih baik dengan cara mempelajari buku dan jurnal yang
dan akurat dalam proses pencarian dokumen tesis mendukung pada penelitian ini, termasuk di
pada aplikasi ELS-NURI,sehingga mahasiswa dapat dalamnya literatur tentang penulisan dan
melakukan pencarian tanpa perlu mengetikan mengenai hal-hal yang mendukung implementasi
keyword secara lengkap dan terperinci, mahasiswa system temu kembali pada aplikasi.
hanya perlu mengetikan kata kunci pada pencarian Metadata koleksi dokumen tesis yang digunakan
dokumen,makan semua isi yang berhubungan antara tahun 2010 – 2016 yang berjumlah 169
dengan katakunci yang sedang dicari akan record. Data tersebut tidak berurutkan, Dari hasil
ditampilkan secara lengkap. penelusuran informasi, dihasilkan 6 dokumen tesis
Penelitian ini menggunakan vektor space yang sering dilihat, pada tahap selanjutnya
model yang merupakan salah satu metode penelitian ini mengambil dari enam dokumen tesis
informasi retrival yang bertujuan untuk sebagai semple pada penelitian kali ini.
mempermudah dalam proses temu kembali
informasi pada dokumen berbasis text digital, Information Retrieval System
penelitian ini pernah dilakukan oleh (Zain & Pengambilan informasi menunjukkan
Suswati, 2016) pada perpustakaan fakultas Teknik proses pencarian informasi yang diperlukan (Zhou,
universitas madurra menggunakan 3 data dan Liu, & Liu, 2012) Information retrieval (IR)
menghasilkan tiga rengking yang berbeda dari umumnya berkaitan dengan pencarian dan
query yang di input pada sebuah system, Penelitian pengambilan informasi berbasis pengetahuan
sebelumnya dilakukan oleh (Elektro et al., 2017) (Sharma & Patel, 2013) sistem information
perhitungan kemiripan dokumen menggunakan retrieval (IR). Salah satu penerapan prinsip
vector space model. Sistem secara otomatis akan relevansi yang sejak dahulu digunakan dalam
melakukan indexing secara offline dan temu pengembanngan sistem (Lestari, 2016)
kembali (retrieval) secara real time. Proses Information Retrieval System menemukan
retrieval dimulai dengan mengambil query dari informasi yang biasanya dalam bentuk dokumen
pengguna, kemudian sistem menghitung dari sebuah data yang tidak terstruktur dalam
kemiripan antara keyword dengan daftar bentuk teks untuk memenuhi kebutuhan informasi
dokumen yang diwakili oleh term-term di dalam dari koleksi data yang sangat besar umumnya
index. Dokumen akan ditampilkan diurutkan tersimpan dalam database computer (Amin &
berdasarkan dokumen yang paling mirip. Purwatiningtyas, 2015)
Penelitian sebelumnya mengenai sitem temu
kembali yang di lakukan oleh (Putung et al., 2016) Vector Space Model
yang menjelaskan pencarian informasi dokumen Model ruang vektor memberikan
skripsi. Terdapat dua proses utama dalam sistem sebuah kerangka pencocokan parsial Hal ini
temu kembali informasi yaitu indexing dan dicapai dengan menetapkan bobot non-biner
retrieval. Proses indexing adalah proses untuk untuk istilah indeks dalam query dan dokumen
memberikan bobot pada kata dalam dokumen, (Amin & Purwatiningtyas, 2015) Tidak hanya
metode pembobotan pada penelitian ini untuk pencarian teks, pencarian informasi juga
menggunakan metode pembobotan TF-IDF. dapat query elemen multimedia seperti
Prosesretrieval adalah proses untuk menghitung gambar,suara,(Yulianto, Budiharto, &
kemiripan query terhadap dokumen. Kartowisastro, 2017) metode ini melihat tingkat
Tujuan penelitian ini Untuk kedekatan atau kesamaan (smilarity) term dengan
mengimplementasikan retrieval system model cara pembobotan term. Dokumen dipandang
pada aplikasi Pengambilan informasi menjadi sebagi sebuah vektor yang memiliki magnitude
bidang penelitian yang penting dibidang ilmu (jarak) dan direction (arah). Pada Vector Space
komputer. Dalam makalah ini, peneliti mewakili Model, sebuah istilah direpresentasikan dengan
berbagai model dan teknik untuk pengambilan sebuah dimensi dari ruang vektor. Relevansi
informasi. menjelaskan metode pengindeksan sebuah dokumen ke sebuah query didasarkan pada
yang berbeda untuk mengurangi ruang pencarian similaritas diantara vektor dokumen dan vektor
dan teknik pencarian yang berbeda untuk query.(Zain & Suswati, 2016) dokumen dan query
mengambil informasi. Dari aplikasi direpresentasikan sebagai vektor dan sudut antara
keduanya.(V. K. Singh, Singh, Vishwavidyalaya,
P-ISSN: 1978-1946 | E-ISSN: 2527-6514 | Information Retrival Sistem …
Jurnal Terakreditasi Peringkat 4 berdasarkan Surat Keputusan Dirjen Risbang SK Nomor 21/E/KPT/2018
Jurnal PILAR Nusa Mandiri Vol. 14, No. 2 September 2018 43
Programmer, & Vishwavidyalaya, 2015) vektor
dihitung menggunakan fungsi cosinus kesamaan. Penelitian ini dilaksanakan dalam beberapa
Efektivitas VSM sebagian besar tergantung pada tahapan yang diilustrasikan pada Gambar 1. Data
istilah pembobotan yang diterapkan (Harcourt & yang diproses dalam sistem ini adalah koleksi
Japheth, 2016) memungkinkan hasil penghitungan dokumen digital dan query yang telah disiapkan
menjadi peringkat sesuai dengan ukuran sebelumnya.
kesamaan(J. N. Singh, 2012) Dokumen yang relevan adalah yang
paling dekat dengan query yang diberikan.
Dengan cara yang sama, dua dokumen akan
dianggap relevan jika mereka berada
diwilayah tetangganya satu sama
lain(R.K.Makhijani1, I.N.Bharambe2)
e. Membuat Ranking. Setelah menghitung nilai
cosinus lalu di buat perangkingan dari dokumen-
dokumen tersebut
Dokumen tesis yang sering dilihat menjadi sample
pada penelitian ini.
Sumber: (Afandi & Ardiansy, 2015) Contoh : Query (Q) = Kajian metode Naive Bayes
Gambar1. Ilustrasi Model Sistem Temu Kembali 1 (D1) = Kajian Penerapan Algoritma C45, Naive
Informasi Bayes Dan Neural Network Untuk Memenuhi
Penilaian Data Karyawan Service Level Agreement
Langkah metode vector space model Di Bank
2 (D2) = Alternatif Pemilihan Sepeda Motor
a. Menghitung bobot dokumen dengan tf-idf Idf Dengan Metode Analytic Hierarchy Process(Ahp):
=log(D/df) Studi Kasus Pada Masyarakat Purwokerto
b. Menghitung jarak tiap dokumen dan query 3 (D3) = Evaluasi Customer Knowledge
Sqrt (Q) = Sqrt ( ∑) Management Pada Situs E-Commerce
Sqrt (D) = Sqrt ( âˆ‘í µí±› =1 í µí±„2 ) 4 (D4) = Kajian Perbandingan Efektivitas
í µí±— í µí°½ pencarian lajur terpendek menggunakan
c. Menghitung Dot Product Sum
í µí±› 2 algoritmatabu search ant colony optimization
(Q * Di) = ( âˆ‘í µí±— = Dí µí°½, )
í µí°½ 5 (D5) = Knowledge Management System Pada
d. Menghitung Similaritas Cosine ÆŸ Event Organizer Menggunakan Pendekatan
í µí±„ ∗ í µí°· Metode Specific Actions Berbasis Web-Mobile:
| |
í µí±„ ∗ |í µí°·| Studi Kasus Kampus Amik Bsi Pontianak
6 (D6) = Penerapan Metode Adaptive-Network-
Based Fuzzy Inference System (Anfis) Model
Sugeno Untuk Memprediksi Index Saham : Studi
Kasus Saham Lq45 Idx.
HASIL DAN PEMBAHASAN
Tabel 1. Perhitungan tf (Term Frequency)
Token Q Dokumen DF Token Q Dokumen DF
1 2 3 4 5 6 1 2 3 4 5 6
Actiones 0 0 0 0 0 1 0 1 manage 0 0 0 1 0 1 0 2
Adaptive 0 0 0 0 0 0 1 1 masyarakat 0 0 1 0 0 0 0 1
Algoritma 0 1 0 0 1 0 0 2 prediksi 0 0 0 0 0 0 1 1
Alternatif 0 0 1 0 0 0 0 1 metode 1 0 1 0 0 1 1 3
Analytic 0 0 1 0 0 0 0 1 mobile 0 0 0 0 0 1 0 1
Banding 0 0 0 0 1 0 0 1 model 0 0 0 0 0 0 1 1
Based 0 0 0 0 0 0 1 1 motor 0 0 1 0 0 0 0 1
Bayes 1 1 0 0 0 0 0 1 naive 1 1 0 0 0 0 0 1
Cari 0 0 0 0 1 0 0 1 network 0 1 0 0 0 0 1 2
Colony 0 0 0 0 1 0 0 1 neural 0 1 0 0 0 0 0 1
Costomer 0 0 0 1 0 0 0 1 nilai 0 1 0 0 0 0 0 1
Data 0 1 0 0 0 0 0 1 optimization 0 0 0 0 1 0 0 1
Dekat 0 0 0 0 0 1 0 1 organizer 0 0 0 0 0 1 0 1
E-commers 0 0 0 1 0 0 0 1 pendek 0 0 0 0 1 0 0 1
Sumber: (Fauzi & Ginabila, 2019)
P-ISSN: 1978-1946 | E-ISSN: 2527-6514 | Information Retrival Sistem …
Jurnal Terakreditasi Peringkat 4 berdasarkan Surat Keputusan Dirjen Risbang SK Nomor 21/E/KPT/2018
44 Jurnal PILAR Nusa Mandiri Vol. 14, No. 2 September 2018
Sebelum melakukan perhitungan tf , perlu hasil Perhitungan tf , data sample dari jumlah
melakukan indexsing dan filtering terlebih dahulu dokumen yang ada dihasilkan 60 token dari 6
dari semua dokumen yang ada, agar data yang di dokumen dan satu query, untuk mendapatkan
hasilkan dari setiap dokumen memiliki arti yang jarak dokumen dan query, di perlukan
memiliki makna. D1, D2, D3, D4,D5,D6 = Dokumen perhitungan idf yang di hasilkan dari tokenasi
tf = banyak kata yang dicari pada sebuah hasil perhitungan pada table 2 berikut:
dokumen. D = total dokumen, df = Banyak
dokumen yang mengandung kata yang dicar,Dari
Table 2. Perhitungan Term Frequency - Inverse Document Frequency
Idf tf*idf
Log Q D1 D2 D3 D4 D5 D6
(D/df)
0.778 0 0 0 0 0 0.778 0
0.778 0 0 0 0 0 0 0.778
0.477 0 0.778 0 0 0.778 0 0
0.778 0 0 0.778 0 0 0 0
0.778 0 0 0.778 0 0 0 0
0.778 0 0 0 0 0.778 0 0
0.778 0 0 0 0 0 0 0.778
0.778 0.778 0.778 0 0 0 0 0
0.778 0 0 0 0 0.778 0 0
0.778 0 0 0 0 1 0 0
0.778 0 0 0 0.778 0 0 0
0.778 0 0.778 0 0 0 0 0
0.778 0 0 0 0 0 0.778 0
0.778 0 0 0 0.778 0 0 0
Sumber: (Fauzi & Ginabila, 2019)
TF-IDF (Term Frequency - Inverse Document digunakan untuk pembobotan dalam Information
Frequency) merupakan perhitungan statistik yang Retrieval dan text mining. Nilai TF-IDF (Term
bertujuan untuk memberikan gambarkan Frequency - Inverse Document Frequency) akan
seberapa penting sebuah kata terhadap sebuah meningkat seiring dengan banyaknya jumlah kata
koleksi dokumen yang tersedia. TF-IDF (Term yang sering muncul di dalam koleksi dokumen.
Frequency - Inverse Document Frequency)
Table 3. Perhitungan Jarak Q-D
Jara Q-D
Q D1 D2 D3 D4 D5 D6
0 0 0 0 0 0.605 0
0 0 0 0 0 0 0.605
0 0.605 0 0 0.605 0 0
0 0 0.605 0 0 0 0
0 0 0.605 0 0 0 0
0 0 0 0 0.605 0 0
0 0 0 0 0 0 0.605
0.605 0.605 0 0 0 0 0
0 0 0 0 0.605 0 0
0 0 0 0 1 0 0
0 0 0 0 0 0.605 0
0 0 0 0 0 0 0.605
0 0 0 0 0.605 0.605 0
2.422 6.660 7.871 3.027 7.660 9.082 8.099
SQRT (Q) SQRT (D)
1.556 2.580 2.805 1.739 2.767 3.013 2.845
Sumber: (Fauzi & Ginabila, 2019)
Dokumen dipandang sebagi sebuah vektor yang vektor dokumen dan query,panjang dokumen
memiliki magnitude (jarak) dan direction (arah). cendrung memiliki frekuensi kemunculan kata
Pada Vector Space Model, sebuah istilah yang besar.Setelah diketahui perhitungan jarak
direpresentasikan dengan sebuah dimensi dari antara Q-D dengan menggunakan rumus Sqrt (D)
ruang vektor. Relevansi sebuah dokumen ke = Sqrt ( âˆ‘í µí±› =1 í µí±„2 ).
sebuah query didasarkan pada similaritas diantara í µí±— í µí°½
P-ISSN: 1978-1946 | E-ISSN: 2527-6514 | Information Retrival Sistem …
Jurnal Terakreditasi Peringkat 4 berdasarkan Surat Keputusan Dirjen Risbang SK Nomor 21/E/KPT/2018
no reviews yet
Please Login to review.