FREQUENT ITEMSET MINING PADA ARTIKEL COVID-19 MENGGUNAKAN WEB CRAWLING DAN ALGORITMA FP-GROWTH

FREQUENT ITEMSET MINING ON COVID-19 ARTICLES USING WEB CRAWLING AND FP-GROWTH ALGORITHM

  • Rizky Dwi Hadisaputro PSTI FT UNRAM
  • I Gede Putu Wirarama Wadashwara Wirawan Universitas Mataram
  • Ariyan Zubaidi Universitas Mataram
Keywords: Data Mining, Web Crawling, Corona, Frequent Itemset, FP-Growth

Abstract

Virus Corona COVID-19 merupakan penyakit yang telah menjadi pandemi di seluruh Dunia. Khususnya Indonesia yang berada di posisi 20 besar negara yang menyumbang kasus terbanyak COVID-19. Hal ini menyebabkan banyaknya pemberitaan tentang virus ini oleh berbagai media massa. Salah satu cara penyampaian informasi yang cukup populer adalah melalui portal berita daring. Dalam mengekstraksi kata yang mengandung dampak serta bahasan virus corona dapat menggunakan teknik data mining. Data mining akan memudahkan dalam mengekstraksi informasi yang bermanfaat dan pengetahuan terkait dari berbagai basis data besar. Dalam mendapatkan basis data berita yang besar pada penelitian ini digunakan teknik web. Hasil crawling selanjutnya akan diolah dan dicari kombinasi kata yang sering muncul atau dikenal dengan istilah frequent itemset. Teknik Frequent Patten Growth (FP-Growth) adalah salah satu algoritma dalam mencari frequent itemset yang merupakan pengembangan dari algoritma Apriori. Data yang digunakan sebanyak 7857 berita dari 10 kategori berita dengan kata kunci pencarian “Corona Indonesia”. Nilai ambang batas yang digunakan untuk studi kasus ini berada pada nilai 0,8 untuk support dan 0,7 untuk confidence yang menghasilkan frequent itemset sebanyak 246869. Dalam penelitian ini strong rule association yang dihasilkan adalah kombinasi kata (Baca, Indonesia) dengan kata (Corona, Orang, Covid) yang memiliki nilai confidence 1,0, adapun untuk nilai rule terendah berada pada kombinasi kata (Baca, Indonesia, Video) dengan kata (Gambas, Laku, Corona, Sebar, Orang, Covid, Detik) dengan nilai confidence yang dihasilkan 0,8.

Published
2022-09-29