Data Mining Pdf 70348 | 124747 Id Analisis Perbandingan Clustering Based D

Partial capture of text on file.
                       Seminar Nasional Aplikasi Teknologi Informasi 2009 (SNATI 2009)                                                 ISSN: 1907-5022 
                       Yogyakarta, 20 Juni 2009 
                        
                                                                   ANALISIS PERBANDINGAN 
                                    CLUSTERING-BASED, DISTANCE-BASED DAN DENSITY-BASED 
                                                              DALAM MENDETEKSI OUTLIER 
                                                              1                                      1,                                2
                                       Dedy Handriyadi , M.Arif Bijaksana, Ir .MTech  Erwin Budi Setiawan, MT  
                                         1Jurusan Teknik Informatika, Fakultas Teknik Informatika, IT Telkom Bandung 
                                                  2Jurusan Ilmu Komunikasi, Fakultas Sains, IT Telkom Bandung 
                                            E-mail: ndogBosok@yahoo.com, mab@ittelkom.ac.id, erw@ittelkom.ac.id  
                                                                                         
                   ABSTRAK 
                   Data Mining adalah proses pencarian pola-pola dan kecenderungan yang menarik dari dalam basis data berukuran 
                   besar. Sebuah outlier didefinisikan sebagai sebuah titik data pada suatu data set dimana sangat berbeda 
                   dibandingkan dengan titik data pada data set pada umumnya dengan suatu ukuran tertentu. Outlier ini walaupun 
                   mempunyai kelakuan yang abnormal, seringkali mengandung informasi yang sangat berguna. Permasalahan deteksi 
                   outlier ini mempunyai peran yang sangat penting pada aplikasi deteksi kecurangan, analisis kekuatan jaringan dan 
                   deteksi intrusi. Pencarian outlier biasanya dengan konsep keterdekatan berdasarkan hubungannya dengan sisa data 
                   yang ada. Pada data berdimensi tinggi, kepadatan data akan semakin berkurang, akibatnya dugaan akan 
                   keterdekatan antar data menjadi gagal.Pada makalah ini akan dilakukan perbandingan metode dalam pencarian 
                   suatu outlier dalam data berdimensi tinggi. Metode yang akan dibandingkan yaitu: Clustering-based, Distance-
                   based, dan Density-based. Dimana masing-masing metode telah mendukung data berdimensi tinggi.  
                        
                   Kata Kunci : data mining, outlier, deteksi outlier, metode deteksi outlier. 
                                                                                          outlier merupakan sekumpulan titik data dengan 
                   1.    PENDAHULUAN                                                      kepadatan yang sangat rendah. 
                   1.1     Latar Belakang                                                       Permasalahan yang sekarang ini adalah data yang 
                        Dewasa ini ledakan data hampir terjadi di setiap                  memiliki dimensi yang tinggi. Dengan bertambahnya 
                   penjuru dunia baik industri, instansi dan internet.                    dimensi, data akan menjadi jarang dan mengindikasikan 
                   Dengan kondisi seperti ini terdapat banyak tuntutan                    bahwa tiap titik akan mendekati sebuah outlier. Dengan 
                   untuk menemukan informasi berguna yang tenggelam                       kata lain, untuk data yang memiliki dimensi yang 
                   dalam tumpukan data dari berbagai sumber. Data                         tinggi, perkiraan untuk menemukan outlier akan 
                   dengan jumlah yang begitu besar ini akan sangat                        menjadi rumit. 
                   menyulitkan apabila kita ingin menganalisa apakah                            Banyak metode yang digunakan untuk mencari 
                   terdapat suatu kesalahan dalam data tersebut. Data yang                outlier akan tetapi jika digabungkan dengan data yang 
                   mempunyai sifat dan karakteristik yang berbeda dari                    memiliki dimensi yang tinggi, maka hanya ada 
                   data – data pada umumnya dan mempunyai kemunculan                      beberapa metode yang dapat digunakan yaitu 
                   kejadian relatif sedikit dikatakan sebagai outlier.                    Clustering-based, Distance-based, dan Density-based.  
                        Sebuah outlier dapat didefinisikan sebagai sebuah                        
                   titik data pada suatu database dimana sangat berbeda                   1.2      Tujuan  
                   dibandingkan dengan titik data pada database pada                            Berdasarkan rumusan masalah diatas, maka tujuan 
                   umumnya dengan suatu ukuran tertentu. Titik ini                        yang ingin dicapai dalam penelitian ini adalah: 
                   seringkali mempunyai informasi yang sangat berguna                     1.    Mempelajari metode Clustering-based, Distance-
                   yang didefinisikan data pada kelakuan sistem yang                            based dan Density-based dalam mendeteksi outlier. 
                   abnormal. Teknik deteksi outlier digunakan pada                        2.    Membangun perangkat lunak deteksi outlier 
                   aplikasi kecurangan kartu kredit, network intrusion                          dengan menerapkan metode Clustering-based, 
                   detection, aplikasi keuangan dan lain lain.                                  Distance-based dan Density-based. 
                        Banyak metode data mining dalam pencarian                         3.    Melakukan pengujian presentase ketepatan metode 
                   outlier seperti clustering yang mendefinisikan sebuah                        pencarian outlier pada beberapa dataset yang telah 
                   outlier tidak terdapat dalam cluster tersebut, dengan                        diketahui nilai kebenaran akan data anomalinya 
                   kata lain, clustering secara  implisit mendefinisikan                        maupun yang tidak diketahui secara benar data 
                   outlier sebagai noise dari suatu cluster tertentu. Teknik                    yang termasuk data anomali. Dataset yang akan 
                   lainnya mendefinisikan outlier sebagai titik dimana                          diujikan mempunyai dimensi baik rendah maupun 
                   bukan dari bagian cluster maupun noise cluster tersebut,                     tinggi. 
                   akan tetapi titik tertentu yang berkelakuan sangat                            
                   berbeda dengan keadaan yang normal. Metode statistik                   2.     DASAR TEORI 
                   dengan medefinisikan sebuah outlier berada diluar                      2.1     Deteksi Outlier 
                   sekumpulan data yang ada. Metode distance-based                              Sebuah sumber data atau dataset pada umumnya 
                   mendefinisikan sebuah outlier berada jauh dari pusat                   mempunyai nilai-nilai pada setiap obyek yang tidak 
                   data. Metode density-based mendefinisikan sebuah                       terlalu berbeda jauh dengan obyek lain. Akan tetapi 
                                                                                          terkadang pada data tersebut juga ditemukan obyek-
                                                                                    F-101 
                     Seminar Nasional Aplikasi Teknologi Informasi 2009 (SNATI 2009)                                        ISSN: 1907-5022 
                     Yogyakarta, 20 Juni 2009 
                                                                                                                       
                 obyek yang mempunyai nilai atau sifat atau  2.1.1.3                           Fungsi Jarak 
                 karakteristik yang berbeda dibandingkan dengan obyek                   Perhitungan jarak antara dua obyek data dilakukan 
                 pada umumnya.                                                     dengan menggunakan fungsi Euclidan dimana fungsi 
                      Deteksi oulier adalah suatu teknik untuk mencari             ini dapat digunakan pada dimensi yang tinggi. 
                 obyek dimana obyek tersebut mempunyai perilaku yang 
                 berbeda dibandingkan obyek-obyek pada umumnya.                                                                  2
                 Teknik data mining dapat digunakan untuk mendeteksi                                           i= Z1
                                                                                                                                          (1) 
                                                                                                ()[]
                 adanya suatu outlier pada sebuah dataset. Teknik data               distance Z ,Z         =         Z −Z           
                                                                                                   1   2        ∑ 1i          2i
                 mining yang diganakan adalah Clustering-based,                                                  i=1
                 Distance-based dan Density-based.                                              
                                                                                   2.1.1.4     Analisis cluster 
                 2.1.1  Metode Clustering-based                                         Penentuan bahwa suatu cluster merupakan cluster 
                      Clustering merupakan salah satu teknik analisis              outlier, CLAD menggunakan 2 attribut pada cluster 
                 dalam Data Mining dimana clustering melakukan                     yang telah terbentuk yaitu distance dan density dari 
                 pengelompokan data berdasarkan kesamaan cluster lain. Dikarenakan setiap cluster memiliki lebar 
                 karakteristik data. Dengan kesamaan karakteristik pada            cluster yang tetap maka kepadatan (density) dari setiap 
                 sebuah kelompok ini dapat diambil suatu informasi                 cluster dihitung berdasarkan jumlah obyek yang 
                 yang mempunyai arti dan berguna.                                  termasuk dalam cluster tersebut. Jarak (distance) antar 
                                                                                   cluster dihitung dengan menggunakan average inter-
                                                                                   cluster distance (ICD). 
                                                                                                j=C
                                                                                              ⎡                        ⎤
                                                                                    ICD =           distance(c ,c ) ÷(C −1)               (2) 
                                                                                         i    ⎢ ∑                i   j ⎥
                                                                                              ⎢j=1,j≠i                 ⎥
                                                                                              ⎣                        ⎦
                                                                   
                                   Gambar 1 Ilustrasi clustering                        Standar deviasi yang digunakan adalah median 
                                                                                   absolute deviation (MAD) dikarenakan persebaran 
                 2.1.1.1     Algoritma CLAD                                        jumlah anggota cluster yang tidak merata. 
                      Pada CLAD terdapat dua fase utama yaitu 
                                                                                                                                     
                                                                                                         ({            ( )        })
                 pembuatan cluster dan meng-assign obyek – obyek data               MAD(P)=median p−medianP : p∈P                         (3) 
                 pada data set. Secara sederhana dapat dideskripsikan 
                 sebagai berikut:                                                       Dengan menggunakan fungsi ICD dan MAD dapat 
                 1)  inisialisasi cluster_outier = 0                               diketahui apakah suatu cluster dikatakan sebagai cluster 
                 2)  //fase_1                                                      outlier. Cluster dengan label sparse dikatakan sebagai 
                 3)  untuk setiap cluster_outlier hitung jarak centroid            local outlier, sedangkan cluster dengan label distant 
                      cluster dengan setiap obyek data                             dikatakan sebagai global outlier. Sebuah cluster 
                 4)  jika jarak obyek data dengan centroid cluster                 dikatakan sebagai cluster outlier apabila cluster tersebut 
                      kurang dari lebar_cluster masukkan obyek ke                  distant dan sparse yang merupakan gabungan dari local 
                      dalam cluster                                                outlier dan global outlier. 
                 5)  jika jarak obyek data lebih dengan centroid lebih 
                      dari lebar_cluster dan obyek data belum menjadi                                                                    
                                                                                             {                      (     )     (     )}
                                                                                    C      = c ∈C|ICD >AVG ICD +SD ICD                      (4) 
                      anggota cluster_outlier lain maka buat                          distant  i           i
                      cluster_outlier baru dengan obyek data sebagai                                                                    
                                                                                            {                    (     )       (     )}
                                                                                     C    = c ∈C|Count >AVGCount −MADCount                  (5) 
                      centroid                                                        sparse  i          i
                 6)  //fase_2 
                                                                                                                                         
                                                                                           {                     (      )       (     )}
                 7)  untuk setiap cluster_outlier hitung jarak centroid             Cdemse = ci ∈C |Counti > AVG Count +MAD Count           (6) 
                      cluster dengan setiap obyek data                                  Sebuah cluster diakatakan sebagai cluster_outlier 
                 8)  jika jarak centroid cluster_outlier dengan obyek              jika memiliki status distant dan sparse. 
                      data kurang dari lebar cluster dan obyek data belum                
                      menjadi anggota cluster_outlier maka masukkan                2.1.2  Metode Distance-based 
                      obyek data ke dalam cluster_outlier                               Sebuah metode pencarian outlier yang populer 
                                                                                   dengan menghitung jarak pada obyek tetangga terdekat 
                 2.1.1.2     Lebar cluster                                         (nearest neighbor). Dalam pendekatan ini, satu obyek 
                      Lebar  cluster dideskripsikan sebagai jangkauan              melihat obyek-obyek local neighborhood yang 
                 antara centroid cluster_outlier dengan obyek data.                dedefinisikan dengan k-nearest neighbor. Jika 
                 Perhitungan parameter lebar cluster_dilakukan dengan              ketertetanggaan antar obyek relatif dekat maka 
                 mengambil sampel data dari data set kemudian dihitung             dikatakan obyek tersebut normal, akan tetapi jika 
                 jarak rata-rata.                                                  ketertetanggaan antar obyek relatif sangat jauh maka 
                                                                                   dikatakan obyek tersebut tidak normal. 
                                                                             F-102 
                       Seminar Nasional Aplikasi Teknologi Informasi 2009 (SNATI 2009)                                                 ISSN: 1907-5022 
                       Yogyakarta, 20 Juni 2009 
                                                                                                                                  
                         
                   2.1.2.1     Algoritma Bay’s 
                        Algoritma Bay’s mencari outlier dengan 
                   menghitung jarak antar obyek data pada dataset. 
                   Pencarian ini dilakukan dengan membandingkan jarak 
                   yang telah dihitung dengan jarak pada k tetangga 
                   terdekat (k-nearest neighbor), kemudian dipilih untuk 
                   menjadi tetangga terdekat menggantikan tetangga 
                   terdekat yang terjauh.                                                                                                      
                                                                                               Gambar 3 Analisa obyek data pada metode Density-
                   2.1.2.2     Analisis obyek data 
                        Obyek data dikatakan sebagai outlier apabila obyek                                              based 
                   tersebut memiliki obyek tetangga yang sangat sedikit                         
                   pada jarak tertentu dan memiliki jarak yang jauh                       2.1.3.3      Pengaruh nilai parameter MinPts 
                   dibandingkan dengan jarak rata-rata obyek-obyek data                         Algoritma density-based hanya membutuhkan satu 
                   tetangga terdekat.                                                     parameter yaitu MinPts, jumlah tetanga terdekat untuk 
                                                                                          menghitung ketertetanggaan lokal 
                            
                                                                                                 
                            
                            
                            
                            
                             Gambar 2 Analisa obyek data pada metode 
                                           Distance-based 
                   2.1.3  Metode Distance-based                                                                                                             
                        Metode density-based tidak secara eksplisit                                            Gambar 4 Pengaruh MinPts 
                   mengklasifikasikan sebuah obyek adalah outlier atau 
                   bukan, akan tetapi lebih kepada pemberian nilai kepada                                                      
                   obyek sebagai derajat kekuatan obyek tersebut dapat                          Gambar diatas menunjukkan obyek – obyek data 
                   dikategorikan sebagai outlier. Ukuran derajat kekuatan                 didistribusikan dengan menggunakan distribusi 
                   ini adalah local outlier factor (LOF). Pendekatan untuk                Gaussian. Untuk setiap nilai MinPts berkisar antara 2 
                   pencarian outlier ini hanya membutuhkan satu  sampai 50, minimum, maksimum dan rata – rata nilai 
                   parameter yaitu MinPts, dimana MinPts adalah jumlah                    LOF. Karena nilai MinPts dapat berubah secara 
                   tetangga terdekat yang digunakan untuk mendefinisikan                  fluktuatif, maka digunakan jangkauan dari MinPts yaitu 
                   local neighborhood suatu obyek. MinPts diasumsikan                     MinPtsLB dan MinPtsUB untuk mendefinisikan 
                   sebagai jangkauan dari nilai MinPtsLB dan MinPtsUB.                    jangkauan terendah dan jangkauan tertinggi dari 
                   Nilai MinPtsLB dan MinPtsUB disarankan bernilai 10                     MinPts. Dengan melihat gambar 2.5 standar deviasi dari 
                   dan 20. Akhirnya semua obyek dalam dataset dihitung                    LOF hanya stabil saat MinPts mulai dari nilai 10 
                   nilai LOFnya.                                                          sampai nilai kurang dari 30. 
                                                                                                 
                   2.1.3.1     Algoritma LOF (Local Outlier Factor)                       2.2     Data 
                        Secara sederhana algoritma LOF dapat                                    Sebuah dataset merupakan sekumpulan dari obyek-
                   dideskripsikan sebagai berikut:                                        obyek data. Sebuah dataset terdiri dari beberapa 
                   1)  menghitung jumlah tetangga terdekat                                dimensi data. Masing-masing dimensi data mempunyai 
                   2)  menghitung kepadatan lokal dari setiap obyek                       tipe data yang berbeda antara satu dimensi dengan yang 
                   3)  menghitung LOF untuk setiap obyek data                             lain. 
                   4)  me-maintain obyek-obyek data dengan nilai LOF                             
                        yang tinggi                                                       2.2.1  Jumlah data 
                                                                                                Dalam data mining permasalahan yang sering 
                   2.1.3.2     Analisis obyek data                                        muncul adalah banyaknya jumlah data yang harus 
                        Obyek data akan dianggap memiliki nilai outlier                   diproses untuk menemukan informasi. Peningkatan 
                   yang tinggi jika pada jarak k tetangga terdekat memiliki               jumlah data akan berpengaruh terhadap sumber daya 
                   kepadatan yang sangat kecil. Semakin banyak obyek –                    dan waktu untuk melakukan pemrosesan. 
                   obyek tetangga dalam jarak k-tetangga terdekat, obyek                         
                   ini memiliki nilai LOF mendekati 1 dan tidak                           2.2.2  Dimensi data 
                   seharusnya diberi label sebagai outlier.                                     Suatu dataset dapat memiliki satu atau lebih 
                                                                                          attribut atau dimensi, suatu dataset dikatakan 
                                                                                          berdimensi tinggi jika data set tersebut memiliki attribut 
                                                                                    F-103 
                               Seminar Nasional Aplikasi Teknologi Informasi 2009 (SNATI 2009)                                                                                           ISSN: 1907-5022 
                               Yogyakarta, 20 Juni 2009 
                                                                                                                                                                                
                         yang banyak (minimal 4).                                                                           3.2       Distance-based 
                                                                                                                            3.2.1  DAD level 0  
                                                                                                           
                                                                                                                                                                                                                   
                                                                                                                            3.2.2  DAD level 1  
                                                                                                       
                                                                                                                                                                                                                       
                                  Gambar 5 Pengaruh penambahan jumlah dimensi                                               3.3       Density-based 
                                                                                                                            3.3.1  DAD level 0 
                         2.2.3  Tipe data 
                                 Terdapat beberapa tipe data pada dimensi sebuah 
                         data. Tipe data ini menentukan bagaimana harus 
                         memperlakukan data pada suatu operasi data.  
                                  
                         3.       ANALISIS DAN PERANCANGAN 
                         3.1        Clustering-based                                                                                                                                                                  
                         3.1.1  DAD level 0                                                                                                                               
                                                                                                                            3.3.2  DAD level 1 
                                                                                                             
                         3.1.2  DAD level 1 
                                      User      nameOfTable  4.       nameOfTable DataPoint
                                                          Change Table
                                                                                                 dataPointValue
                                                                                                                                                                                                                     
                                   outlierClusterData                            dataPointValue              1.
                                                                                                           MaxWidth
                                                                                                                                    
                                                                                                                            4.      PENGUJIAN 
                                      3.                                            2.                                             Pengujian dilakukan untuk melihat apakah sistem 
                                   Cluster Analysis         clusterFinal          Clustering         maxWidthValue
                                                                                                                            yang dibuat sudah memenuhi tujuan yang diharapkan 
                                                                                                                            atau belum. Pengujian ini dilakukan dengan 
                                                                                                                            menggunakan data sintetis, data-data riil nilai 
                                                                                                                            mahasiswa STT TELKOM, data bayi, dan data riil 
                                                                                                                            penggunaan telepon pada PT. TELKOM DIVRE II 
                                                                                                                            Datel Bogor. 
                                                                                                                             
                                                                                                                   F-104
The words contained in this file might help you see if this file matches what you are looking for:

...Seminar nasional aplikasi teknologi informasi snati issn yogyakarta juni analisis perbandingan clustering based distance dan density dalam mendeteksi outlier dedy handriyadi m arif bijaksana ir mtech erwin budi setiawan mt jurusan teknik informatika fakultas it telkom bandung ilmu komunikasi sains e mail ndogbosok yahoo com mab ittelkom ac id erw abstrak data mining adalah proses pencarian pola kecenderungan yang menarik dari basis berukuran besar sebuah didefinisikan sebagai titik pada suatu set dimana sangat berbeda dibandingkan dengan umumnya ukuran tertentu ini walaupun mempunyai kelakuan abnormal seringkali mengandung berguna permasalahan deteksi peran penting kecurangan kekuatan jaringan intrusi biasanya konsep keterdekatan berdasarkan hubungannya sisa ada berdimensi tinggi kepadatan akan semakin berkurang akibatnya dugaan antar menjadi gagal makalah dilakukan metode yaitu masing telah mendukung kata kunci merupakan sekumpulan pendahuluan rendah latar belakang sekarang dewasa led...
Related files

Share

Help

Related files

Share

Share to social media

Help

Login Area