Data Mining

  Umum

Berikut adalah hasil text mining dari artikel https://www.kajianpustaka.com/2017/09/data-mining.html .

Dari Artikel tersebut saya ingin melihat fokus pembahasan pada artikel diatas. anda juga dapat mengambil data txt nya pada github berikut https://raw.githubusercontent.com/ullilfahri/OpenData/master/textmining/datamining.txt

Pada Plot diatas dapat dilihat, artikel pada website tersembut paling sering membahas tentang data, proses, mining, dll.

berikut adalah coding python yang saya gunakan :

import  nltk
import  matplotlib.pyplot as plt
from  nltk.corpus import  stopwords
import numpy
import  csv

#Membaca Data
file = open("/home/mfahri/github/OpenData/textmining/datamining.txt")
bacafile = file.read()

#Transform menjadi huruf kecil
bf = bacafile.lower()



#memisahkan kata
token = bf.split()




#Stopword Indnesia
list = set(stopwords.words('indonesian'))

removed = []
for t in token:
    if t not in list:
        removed.append(t)

muncul = nltk.FreqDist(removed)
print("")
print("==============================================================")
print("Kata - Kata Yang Sering Muncul")


af = numpy.array(muncul.most_common(30))
print(af)


#Pembuatan Grafik

muncul.plot(30)
plt.show()


#split kalimat
kalimat = bf.split(".")
b = numpy.array(kalimat)
#print(kalimat)

#Export Ke CSV
with open('export2.csv', mode='w') as ef:
    ew = csv.writer(ef)
    ew.writerow(kalimat)

Output

/home/mfahri/python/venv/bin/python /home/mfahri/python/dataminingpython/textmining/datamining.py

==============================================================
Kata - Kata Yang Sering Muncul
[['data' '62']
 ['proses' '30']
 ['mining' '28']
 ['informasi' '11']
 ['pola' '10']
 ['fungsi' '9']
 ['basis' '8']
 ['menemukan' '8']
 ['prediksi' '7']
 ['data.' '7']
 ['variabel' '7']
 ['nilai' '7']
 ['teknik' '5']
 ['pengetahuan' '5']
 ['klasifikasi' '5']
 ['tugas' '5']
 ['estimasi' '5']
 ['objek' '5']
 ['tahap' '5']
 ['memiliki' '4']
 ['berguna' '4']
 ['hubungan' '4']
 ['dimengerti' '4']
 ['jenis' '4']
 ['model' '4']
 ['asosiasi' '4']
 ['berdasarkan' '4']
 ['tahapan' '4']
 ['kdd' '4']
 ['mengidentifikasi' '3']]

Process finished with exit code 0

Pada data output dapat dilihat ranking ( tranding ) kata – kata yang paling sering digunakan dalam artikel data mining. dari hasil text mining tersebut dapat dimanfaatkan untuk membuat kata kunci tentang data mining.

LEAVE A COMMENT