Data Mining

  Umum
  1. Menurut Larose, data mining melakukan beberapa proses, yaitu deskripsi (identifikasi pola tersembunyi yang tersembunyi dalam pola tersembunyi dan transformasi pola menjadi aturan yang dapat dipahami oleh para ahli), prediksi (klasifikasi berdasarkan yang dapat diprediksi di masa depan) Perilaku), estimasi (prediksi (dengan pengecualian variabel estimasi, yang lebih numerik), klasifikasi (menemukan model fungsional dan menggambarkan data untuk kelas),
  2. Berkat teknologi akuisisi data otomatis seperti “pemindai barcode”, penggunaan “aturan penugasan” untuk menemukan pola reguler antara produk dalam transaksi yang sangat besar yang dicatat oleh sistem pos (titik penjualan) di supermarket telah menjadi umum di masa lalu. Penemuan pengetahuan ‚ÄĚdalam ritel
  3. Apa itu data? Data adalah kumpulan fakta dan dapat memberikan gambaran. Setiap kali kami mengambil data, data disimpan dan pola data diperiksa secara manual sehingga kami tahu apa yang akan terjadi
  4. Beberapa pola ini bersifat deskriptif (menjelaskan hubungan timbal balik atau persamaan dan kesamaan antara atribut yang berbeda), sementara yang lain bersifat prediksi (memprediksi ‘nilai / hasil’ yang akan terjadi dengan atribut tertentu).
  5. Penambangan data diperlukan ketika terlalu banyak data tersedia (mis. Data dari sistem basis data perusahaan, e-commerce, data inventaris, data sensus dan data bioinformatika), tetapi tidak tahu pola mana yang dapat diambil
  6. Model adalah representasi matematis (persamaan linear sederhana dan / atau persamaan kompleks sangat nonlinier) yang mengidentifikasi pola antara atribut objek yang berbeda (mis. Pelanggan) dalam kumpulan data
  7. “Apakah penjualan pemutar DVD berhubungan dengan penjualan pesawat televisi?” “Penambangan data yang didorong oleh penemuan” mencari pola, tautan, dan hubungan lain yang tersembunyi dalam dataset.
  8. Bagaimana cara kerja penambangan data menggunakan data yang ada dan relevan? Penambangan data menciptakan beberapa model untuk mengidentifikasi pola antara atribut dalam dataset
  9. Pola yang ditampilkan harus mudah dipahami dan diterapkan pada data yang diprediksi dengan tingkat kepastian tertentu, berguna dan baru
  10. Cari pola yang cocok (aturan yang cocok) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam transaksi

Pola Data Mining

  1. Tahap-tahap penambangan data yang dilakukan dalam proses penambangan data dimulai dengan pemilihan data dari sumber data ke dalam data target, fase preprocessing untuk meningkatkan kualitas data, transformasi, penambangan data dan interpretasi serta fase evaluasi, yang merupakan output dalam bentuk yang baru Data menciptakan pengetahuan yang diharapkan dapat memberikan kontribusi yang lebih baik
  2. Penambangan data mencari sesuatu yang bermakna dari korelasi, pola, dan tren baru dengan menyortir sejumlah besar data yang disimpan dalam repositori menggunakan teknologi pengenalan pola serta teknik matematika dan statistik
  3. Penambangan data adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan pembelajaran mesin untuk mengekstraksi dan mengidentifikasi informasi yang berguna dan pengetahuan terkait dari berbagai basis data besar
  4. KDD mencakup seluruh proses pencarian pola atau informasi dalam database, dari pemilihan dan kompilasi data hingga representasi pola dalam bentuk yang mudah dipahami oleh pihak yang berkepentingan untuk memahami
  5. selama proses pengkodean atau penambangan data, analis menentukan bahwa pembersihan tidak berkinerja sempurna, atau mungkin menemukan data atau informasi baru untuk “memperkaya” data yang ada.
  6. Klasifikasi berarti menemukan model atau fungsi yang menjelaskan atau membedakan antara konsep atau kelas data dengan tujuan untuk dapat menilai kelas suatu objek yang namanya tidak diketahui.
  7. proses pengayaan dilakukan, yaitu proses “memperkaya” data dengan data atau informasi lain yang relevan dan diperlukan untuk bidang tersebut, mis. B. data yang ada atau informasi eksternal
  8. Proses pembersihan meliputi, antara lain, menghilangkan duplikasi data, memeriksa ketidakkonsistenan data dan memperbaiki kesalahan data, mis. kesalahan ketik
  9. Pola interpretasi / evaluasi informasi yang dihasilkan dari proses penambangan data harus ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan
  10. Tugas deskriptif adalah tugas penambangan data yang sering diperlukan dalam teknik pasca-pemrosesan untuk memvalidasi dan menjelaskan hasil dari proses penambangan data

Proses Data Mining

  1. algoritma lain harus dijalankan untuk waktu yang relatif lama jika sejumlah besar prediktor akan digunakan sebagai model. Oleh karena itu, teknik pohon keputusan biasanya digunakan pada tahap pertama penambangan data untuk membuat subset prediktor baru yang berguna. Hasilnya dimasukkan ke dalam teknik data lainnya.
  2. Jika ternyata hasil yang diperoleh tidak setuju dengan hipotesis, berbagai alternatif dapat dipilih, misalnya Umpan balik untuk meningkatkan proses penambangan data, teknik penambangan data lain yang sesuai, atau penerimaan hasil ini. Hasil tak terduga yang dapat bermanfaat
  3. Penambangan data adalah bidang ilmu interdisipliner yang menggabungkan teknik pembelajaran mesin, pengenalan pola, statistik, basis data, dan visualisasi untuk mengatasi masalah penggalian informasi dari basis data besar
  4. Penambangan data mencari sesuatu yang bermakna dari korelasi, pola, dan tren baru dengan menyortir sejumlah besar data yang disimpan dalam repositori menggunakan teknologi pengenalan pola serta teknik matematika dan statistik
  5. Secara khusus, data mining menggunakan ide-ide seperti (1) pemindaian, estimasi dan pengujian hipotesis berdasarkan statistik dan (2) algoritma pencarian, teknik pemodelan dan teori pembelajaran untuk kecerdasan buatan, pengenalan pola dan pembelajaran mesin
  6. Penambangan data juga dapat menggunakan pengalaman masa lalu atau bahkan kesalahan masa lalu untuk meningkatkan kualitas model dan hasil analisisnya. Salah satunya adalah keterampilan belajar yang ditawarkan berbagai teknik penambangan data seperti klasifikasi
  7. Data mining adalah proses yang menggunakan teknik statistik, matematika, dan kecerdasan buatan

Teknik Data Mining

  1. Beberapa kategori algoritma cluster yang terkenal adalah metode partisi, di mana pengguna harus menentukan jumlah partisi k yang diinginkan dan kemudian diperiksa apakah semua data dimasukkan ke dalam partisi. Metode lain yang telah dikenal sejak lama adalah metode hierarkis yang dibagi lagi menjadi dua
  2. Karena dataset tumbuh dalam ukuran dan kompleksitas, analisis data manual telah ditingkatkan secara manual menggunakan berbagai alat pemrosesan otomatis yang menggunakan metode, metode, dan algoritma yang canggih
  3. Regresi dapat memecahkan banyak masalah bisnis, seperti: . Metode distribusi, kapasitas distribusi, musim dan perkiraan kecepatan angin berdasarkan suhu, tekanan udara dan kelembaban
  4. Berdasarkan cara di mana pola diekstraksi dari data historis, algoritma pembelajaran (algoritma pembelajaran) dapat diklasifikasikan sebagai “dipantau” atau “tanpa pengawasan” dalam metode penambangan data.
  5. Penambangan data adalah analisis pengamatan basis data untuk menemukan hubungan yang tidak terduga dan meringkas data dengan cara atau metode baru yang dapat dipahami dan berguna bagi pemilik data
  6. Clustering juga baru-baru ini dikembangkan berdasarkan metode kepadatan data, yaitu jumlah data yaitu data yang telah diidentifikasi dalam sebuah cluster
  7. Banyak algoritma pengelompokan membutuhkan fungsi jarak untuk mengukur kesamaan antara data. Metode normalisasi berbagai atribut data juga diperlukan
  8. Metode regresi mirip dengan metode klasifikasi. Ini ditandai oleh fakta bahwa metode regresi tidak dapat mencari pola yang digambarkan sebagai kelas
  9. Metode klasifikasi lainnya adalah Bayesian, jaringan saraf, algoritma genetika, fuzzy, penalaran berbasis kasus dan tetangga terdekat
  10. Pohon keputusan Pohon keputusan adalah salah satu metode klasifikasi yang paling populer karena mudah bagi orang untuk menafsirkannya

Metode Data Mining

  1. svm adalah sistem pembelajaran yang menggunakan ruang hipotesis dalam bentuk fungsi linear dalam ruang fitur dimensi tinggi dan berlatih dengan algoritma pembelajaran yang didasarkan pada teori optimisasi dengan menerapkan distorsi pembelajaran yang berasal dari teori pembelajaran statistik
  2. Algoritma maksimalisasi ekspektasi (algoritma em) adalah algoritma yang sering digunakan untuk menentukan estimasi nilai probabilitas maksimum (ml) dari suatu parameter dalam model probabilitas, model juga tergantung pada variabel laten yang belum diketahui.
  3. Sebagian besar algoritma pengelompokan membuat model dari serangkaian iterasi dan berhenti ketika model telah terpusat atau terakumulasi (batas-batas segmentasi ini telah stabil).
  4. Sebagian besar algoritma pengelompokan membuat model dari serangkaian iterasi dan berhenti ketika model telah terpusat atau terakumulasi (batas-batas segmentasi ini telah stabil).
  5. Teknik lain yang didukung oleh SQL Server Data Mining termasuk pohon regresi (bagian dari algoritma Microsoft Declaration Tree) dan jaringan saraf

LEAVE A COMMENT