Adattárház,  adatbányászati technológiák  gyakorlat
ELTE, 2013/2014. tanév II.félév MSc
IPM-08irABTG 
Gyakorlat vezetők: Vincellér Zoltán  és  Hajas Csilla
Csütörtök 16:00-17:30  D.ép. 00-807 Adatbázis labor

  

back Honlap     1. TUDNIVALÓK     2. TEMATIKA     3. LINKEK

ÁTTEKINTÉS: -- A gyakorlatok menete és segédanyagok: itt
        (1) Osztályozás (classification) -- Előrejelző feladatok I.
2014. márc. 20.  6.gy: 1.f.: Adatok előkészítése  2.f: Naiv Bayes
2014. márc. 27.  7.gy: 3.f: Dönt.fa  4.f.: SVM oszt.  5.f:  Log.regr.  
        (2) Csoportosítás (clustering) -- Leíró-feltáró feladatok I.
2014. április 03.  8.gy: 6.f: O-klaszter  7.f:  K-közép
        (3) Egyéb feladatok (asszociációs elemzés, regresszió, stb)
2014. április 10. 9.gy. 8.f.: Asszoc.  9.f: Anom. -- Leíró-feltáró II. vagy
2014. április 24. 10.gy. 10.f: SVM regr. 11.f: Lin.regr.  -- Előrejelző II.
         Feladatok bemutatása: -- A három beadandó feladatról: itt
2014. május 15. 11.gy. beadandó feladatok bemutatása (+/- 2hét)
   
1. Tudnivalók a gyakorlatokról és a követelmények
   
Gyakorlat: Csütörtök 16:00-17:30 D.ép.00-807 Adatbázis labor
A gyakorlaton két fő témakört dolgozunk fel, különböző gyak.vezetőkkel:
(5 hét) Adattárházak építése (Vincellér Zoltán)
-- Lásd Vincellér Zoltán honlapján az Adattárház könyvtár segédanyagait.
(6 hét) Adatbányászati technológiák (Hajas Csilla)
-- Lásd itt: 2. Az adatbányászati rész tematikája és segédanyagai
Előadás: Szerda 16:00-17:30  D.ép.00-807 Adatbázis labor (Kiss Attila)
-- Lásd itt: Adattárházak, adatbányászati technológiák előadások anyaga
   
Az adatbányászati gyakorlatoknak a célkitűzése: különböző adatbányászati
algoritmusokat próbáljuk ki az Oracle Data Miner 11gR2 (ODM) szoftverrel:
az adatokban rejtett törvényszerűségek, tendenciák, szabályok, minták feltárása,
az eredmények kiértékelése, értelmezése, jelentések és előrejelzések elkészítése.
   
A gyakorlati követelményeket a Hallgatói követelményrendszer határozza meg.
- A félév során mind a két témakörből lesznek elkészítendő beadandó feladatok.
- A gyakorlati jegyet a két témakörből szerzett jegyek (felfelé kerekített) átlaga adja.
   
Tudnivalók a beadandó feladatokról
Az adatbányászati technológiák témakörből három beadandó feladatot
kell írásban elkészíteni és emailben beküldeni, majd személyesen is bemutatni.
   
A beadandó három feladat témaköre:
(1) Osztályozás/klasszifikáció feladatát az Oracle Data Miner által támogatott
      négy technika: Bayes módszer, Döntési fa, SVM, Logisztikus regresszió  
      valamelyikével (az egyikkel, amelyik a legalkalmasabb az adathalmazra)
(2) Csoportosítás/klaszterezés feladata: K-közép vagy O-klaszter technikával
(3) Egyéb technikák (Asszociációs elemzés, Anomáliák keresése, Regresszió)
    
Lépések:
- Az adathalmazok leírása és a forrás: honnan és mikor töltötte le az adatokat?
   Az internetről letöltött szabadon választott adatokra kell egy-egy adatbányászati
   módszert bemutatni, lehetőleg mindenki más adathalmazt válasszon az elemzésre!
   Kérem, hogy a beadandóban NE a Tutorial vagy az órai demo feladatok példáit
   küldjék be, hanem az internetről töltsenek le új adatokat, és azzal dolgozzanak. 
   Az lenne a jó, ha 3 hallgatónál többen nem használnák ugyanazt az adathalmazt.
- Az adatok betöltése az Oracle-be. Milyen adat-előkészítésre volt szükség?
  A betöltésnél vigyázzanak arra, hogy a *.csv fájlokban vessző az elválasztójel és
  a számoknál tizedespont áll, amíg általában a Windows illetve Oracle beállításnál
  a magyar beállítás szerint a számokra tizedesvesszőt használ (ezért a betöltés előtt
  elválasztónak használjunk például pontosvesszőt, a számoknál pont helyett vesszőt).
- Az adatokhoz megfelelő adatbányászati feladat és technika kiválasztása és
  végrehajtása. Adja meg azt is, hogy közben milyen paramétereket alkalmazott!
- Jelentés elkészítése, amely tartalmazza az eredmény kiértékelését, értelmezését.
- Bemutatás: A félév végén személyesen is be kell mutatni a beküldött feladatokat.
   
Az ODM beadandó feladatok bemutatása és a gyakorlati jegyek zárása: 
Az utolsó gyakorlaton: május 15. csütörtök 16:00-20:00-ig 00-807 AB-laborban,
16:00-17:30-ig az órán, illetve meghosszabítva 20:00-ig lehet bemutatni a feladatot.
A vizsgaidőszak első két hetében, lásd vizsgaidőszakra vonatkozó elérhetőségem
-- Máj.15.Csüt.16:00-20:00 között. Terem: 00-807 AB labor.
-- Máj.20.Kedd 8:15-10:00 között. Terem: 00-807 AB labor.
-- Máj.27.Kedd 8:15-10:00 között. Terem: 2-520  MI labor.
-- Máj.29.Csüt.16:00-20:00 között. Terem: 2-520  MI labor.
      
2. Az adatbányászati rész tematikája és segédanyagai
      
Áttekintés az Oracle adatbányászat (ODM) feladatokról
Négy alapvető adatbányászati feladat    
az adatbányászati feladatok általában két fő kategóriába sorolhatók, ezek:
-- Előrejelző feladatok: Prediktív modellezés (osztályozás, regresszió)
-- Leíró feladatok (klaszterezés, asszociációs elemzés,anomália keresés)
   
data_mining.png
     
Adatbányászat -- Digitális Tankönyvtár:
> Bevezetés az adatbányászatba, Panem Kft., Pang-Ning Tan, Michael Steinbach, Vipin Kumar
> Bevezetés az adatbányászatba: Előadásfóliák (Ispány Márton, 2011) -->> Slides
> Oracle adatbányászat (Hajas Csilla, 2010-2011) -->> ODM (Hajas Cs)
ODM -- Oracle Documentation: 
> Oracle Data Mining Concepts 11gR2
Oracle Data Mining Tutorial 11gR1
   
A három beadandó témaköre:  gyak. Concepts Tutorial Slides ODM (Hajas Cs)
-- Előkészítés (ODM használata)
1.f.: Adatok előkészítése 
 6.gy
 6.gy
Ch.1-3
Ch.19
Ch.3   
Ch.1
Ch12
Ch.3
 
ODM_attekintes.pdf
Előrejelző feladatok:                
(1) Osztályozás (Classification)
2.f: Naiv Bayes
3.f: Döntési fa  
4.f: SVM osztályozásra
5.f: Logisztikus regresszió  
 
 
 6.gy
 7.gy
 7.gy
10.gy
   
 
Ch.5, 15
Ch.5, 11
Ch.5, 18
Ch.5, 12
   
 
Ch.5
Ch.7
Ch.8
---
Ch.4
Ch.5
 
 
 
   
 
 
ODM_class1.pdf
ODM_class2.pdf
ODM_SVM1.pdf
   
Leíró-feltáró feladatok:            
(2) Csoportosítás (Clustering)
6.f: O-klaszter  
7.f: K-közép
   
 
 8.gy
 8.gy
   
 
Ch.7, 17
Ch.7, 13
   
 
Ch.10
Ch.11
Ch.8
Ch.9
 
 
 
 
ODM_clust1.pdf
ODM_clust2.pdf
(3a) Egyéb (leíró-feltáró)
8.f: Asszociációs szabályok 
9.f: Rendellenességek feltárása
(3b) Egyéb (előrejelző)
10.f: SVM regresszióra
11.f: Lineáris regresszió  
12.f: Attribútum fontosság
   
 9.gy
 9.gy
   
10.gy
10.gy
10.gy
   
Ch.8, 10
Ch.6, 18
   
Ch.4, 18
Ch.4, 18
Ch.9, 14
   
Ch.13
Ch.12
   
Ch.9
---
Ch.4
Ch.6
Ch.7
Ch.10
 
 
 
 
 
   
ODM_SVM3.pdf
 
ODM_SVM2.pdf
ODM_regres.pdf
   
-- Feladatok bemutatása 11.gy.     
    
   
   
6.gyak./ODM-1.hét - 2014. március 20.

OSZTÁLYOZÁS-1
   
1.feladat: ODM- Oracle Data Miner használata, adatok előkészítése
2.feladat: Naiv Bayes osztályozásra
   
1.feladat: Oracle Data Miner használata, adatok előkészítése
Letöltés
: Az Oracle ODM ingyenesen letölthető (regisztráció után)
az Oracle Technology Network: otn.oracle.com oldalról .zip-ben,
nem igényel telepítést, csak ki kell csomagolni és lehet is futtatni.
LETÖLTVE (jelszavas könyvtárban, jelszó, mint a segédanyagoknál)
1.) Data Miner 11.1 -->> Download 48MB odminer-11.zip 
     Demok:  ODM Demos és ODM_Tutorial.pdf
2.) Data Miner 11.2 az sqldeveloper 3-as verziója felett használható,
     SQL Developer: az Adatbázis-laborban telepített verzióhoz lett
     a Repository beállítva, ehhez >> sqldeveloper-4.0.0.12.27-no-jre.zip
ÚJ: Data Miner 11.2 sqldeveloper frissítés: jelenleg a PC laborok gépein
     SQL Developer 4.0.2. (4.0.2.15.21) May 5, 2014 verzió van telepítve,
     és a Repository is ehhez lett átállítva LETÖLTVE (jelszavas könyvtárban)
     >> Windows 64-bit - zip file includes the JDK 7 -->> Download 310 M
     >> Windows Installation Notes -->> Download 225MB (windows32/64)  
           ehhez JDK 7.1 -->> Download  128MB (x86) | Download 130MB (x64)
     >> RPM for Linux Installation Notes -->> 231 MB Letöltés (linux.rpm)
   
Beállítások:
Az ELTE-n athos Oracle11gR2 adatbázist használjuk, az elérése:
          Hostname: athos.inf.elte.hu
          Port: 1521
          Service name: ablinux.inf.elte.hu
1.) Data Miner 11.1 -- zip kibontása után odminer11103\bin mappából
     Indítása: odminer11103\bin mappából: odminerw.exe  (w: windows)
     Beállítások: például -> Data -> Import használatához szükséges: 
      -> Tools -> Preferences -> "SQL Loader Executable" mező kitöltése
      "C:\product\11.2.0\dbhome_1\bin\sqlldr.exe" (MI- ill. AB-labor pc)
      (saját gépen előbb Oracle 11g Rel2 kliens vagy SQL Loader kell)
    Jogok: Oracle DBA-tól: dmshgrants.sql (ezzel nincs teendőnk).
    lásd Data Mining Administrator's Guide (adatbányászati jogok)
2.)  Data Miner 11.2 -- sqldeveloper >> View >> Data Miner Connection
         
Adatok előkészítése és feltárása:  
Ez fontos, a demo példákhoz futtassuk le az athoson az alábbi scriptet:
> dmshsql.txt  -- amellyel az SH séma tábláiból készítünk nézeteket.
>  további nézetek: dmshpelda.txt CREATE VIEW <név>_v AS ...
    ezekre a nézetekre készíthetünk tárolt nézeteket is:
    CREATE MATERIALIZED VIEW <név>_mv AS ...
 
2.feladat: Osztályozás - Naiv Bayes
> TÁMOP keretében készülő segédanyag: ODM_class1.pdf
-- Data Mining Concepts Part II. Feladatok: 5. Classification
-- Data Mining Concepts Part III. Algoritmus: 15. Naive Bayes
> Példa2.1: ODM_Tutorial.pdf (lásd Chapter 5 /és 6/- Bayes)
    demo-adathalmaz: MINING_DATA_BUILD_V
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
   

7.gyak./ODM-2.hét - 2014. március 27.

OSZTÁLYOZÁS-2

> Könyv: dmbook sample chapter4: Classification: Basic Concepts.pdf
> Slide: Han EA: 08ClassBasic.ppt vagy Kumar EA: chap4.pdf
3.feladat: Döntési fa osztályozásra     
4.feladat: SVM (támaszvektor) osztályozásra
5.feladat: Logisztikus regresszió osztályozásra  
    
3.feladat: Osztályozás - Döntési fa
> TÁMOP keretében készülő segédanyag: ODM_class2.pdf
-- Data Mining Concepts Part II. Feladatok: 5. Classification
-- Data Mining Concepts Part III. Algoritmus: 11. Decision Tree
> Példa3.1: ODM_Tutorial.pdf (lásd Chapter 7 - Döntési fa)
    demo-adathalmaz: MINING_DATA_BUILD_V
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
> Példa3.2: Adatok: bank-data.csv -- innen: Döntési fa (WEKA)
> További adathalmazokat lásd például innen:
   >> http://www.kdnuggets.com/datasets/index.html
   >> http://archive.ics.uci.edu/ml/datasets.html
   >> http://www.cs.waikato.ac.nz/ml/weka/datasets.html
    
4.feladat: Támaszvektor (SVM) osztályozásra, folyt.9.gyak
> TÁMOP keretében készülő segédanyag: ODM_SVM1.pdf
-- Data Mining Concepts Part II. Feladatok: 5. Classification
-- Data Mining Concepts Part III. Algoritmus: 18. SVM
> Példa4.1: ODM_Tutorial.pdf (lásd Chapter 8)
    demo-adathalmaz: MINING_DATA_BUILD_V
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
    
5.feladat: Osztályozás - Logisztikus regresszió, folyt.10.gyak
-- Data Mining Concepts Part II. Feladatok: 5. Classification
-- Data Mining Concepts Part III. Algoritmus: 12. GLM
> Erre visszatérünk a 10.gyakorlaton a lineáris regresszió után!
     

8.gyak./ODM-3.hét - 2014. április 03.
 
CSOPORTOSÍTÁS
> Könyv: dmbook sample chapter8: Cluster Analysis
> Han EA: 10Clust.ppt  vagy Kumar EA: chap8.pdf  
6.feladat: O-klaszter klaszterezésre  
7.feladat: K-közép klaszterezésre
    
6.feladat: Csoportosítás - O klaszter
> TÁMOP keretében készülő segédanyag: ODM_clust1.pdf 
-- Data Mining Concepts Part II. Feladatok: 7. Clustering
-- Data Mining Concepts Part III. Algoritmus: 17. O-Cluster
> Példa6.1: ODM_Tutorial.pdf (lásd Chapter 10)
> Példa6.2: Adatok2: pollen.csv -> Data -> Import
   
7.feladat: Csoportosítás - K-közép
> TÁMOP keretében készülő segédanyag: ODM_clust2.pdf
-- Data Mining Concepts Part II. Feladatok: 7. Clustering
-- Data Mining Concepts Part III. Algoritmus: 13. K-Means 
> Példa7.1: ODM_Tutorial.pdf (lásd Chapter 11)
> Példa7.2: Adatok2: pollen.csv -> Data -> Import
> Példa7.3: K-közép (WEKA)
   
9.gyak./ODM-4.hét - 2014. április 10.

ASSZOCIÁCIÓS szabályok, ANOMÁLIÁK feltárása
> Könyv: dmbook sample chapter6: Association Analysis.pdf
> Slide: Han EA: 06FP.ppt vagy Kumar EA: chap6.pdf
8.feladat: Asszociációs szabályok feltárása
9.feladat: SVM anomália  feltárására
     
8.feladat: Asszociációs szabályok feltárása:
> TÁMOP keretében készülő segédanyag: ...
-- Data Mining Concepts Part II. Feladatok: 8. Asszociáció
-- Data Mining Concepts Part III. Algoritmus: 10. Apriori
> Példa8.1: ODM_Tutorial.pdf (lásd Chapter 13 - Associations)
> Példa8.2: market_basket_v view : Used for association rules
    helyett market_basket_matv (materialized view) tárol nézettáblában
> Példa8.2: Adatok2: origo-user-topic.csv -> Data -> Import
    (Origo témakörökhöz a hozzászólások, az origo oldaláról)
> További adathalmazok: data_arules  jelszavas könyvtárban,
    az adathalmazok leírását lásd például arules.pdf (r-project)  
> Példa8.3: Asszociáció (WEKA)
      
9.feladat: Rendellenességek (anomáliák) feltárása
> TÁMOP keretében készülő segédanyag: ODM_SVM3.pdf
-- Data Mining Concepts Part II. Feladatok: 6. Anomália-keresés
-- Data Mining Concepts Part III. Algoritmus: 18. SVM
> Példa9.1: ODM_Tutorial.pdf (lásd Chapter 12)  
   
10.gyak./ODM-5.hét - 2014. április 24.
   
   
REGRESSZIÓ
10.feladat: SVM (támaszvektor) regresszióra/előrejelzésre
11.feladat: Lineáris regresszió az előrejelzésre    
   
10.feladat: Regresszió/Előrejelzés - Támaszvektor (SVM)
> A Tutorial on Support Vector Regression
> TÁMOP keretében készülő segédanyag: ODM_SVM2.pdf
-- Data Mining Concepts Part II. Feladatok: 4. Regresszió
-- Data Mining Concepts Part III. Algoritmus: 18. SVM
> Példa10.1: ODM_Tutorial.pdf (lásd Chapter 9)
      
11.feladat: Regresszió/Előrejelzés - Lineáris regresszió (GLM)
> Ismétlés: stat.ea - lineáris regresszió
> TÁMOP keretében készülő segédanyag: ODM_regres.pdf
-- Data Mining Concepts Part II. Feladatok: 4. Regresszió
-- Data Mining Concepts Part III. Algoritmus: 12. GLM
> Példa11.1: mining_data_build_v views : Used for data mining
    helyett mining_data_build_matv (materialized view) táblában
> Példa6.2: Adatok: ksh-adatok.csv -> Data -> Import
    KSH oldaláról a települések adatai (népesség, lakásszám, stb)
   
Visszatérve az 5.feladatra: Osztályozás - Logisztikus regresszió
> TÁMOP keretében készülő segédanyag: ...
-- Data Mining Concepts Part II. Feladatok: 5. Classification
-- Data Mining Concepts Part III. Algoritmus: 12. GLM
> Példa5.1...
   
Ha marad idő: 12.feladat: Attribútum fontosság
> TÁMOP keretében készülő segédanyag: ...
-- Data Mining Concepts Part II. Feladatok: 9. Feature Selection
-- Data Mining Concepts Part III. Algoritmus: 14. Min.Desc.Length
> Példa12.1...
  
11.gyak./ODM-6.hét - 2014. május 15.
    

Az adatbányászati technológiák témakörből három beadandó feladatot
kell írásban elkészíteni és emailben beküldeni, majd személyesen is bemutatni,
részleteket lásd 1. TUDNIVALÓK -- Tudnivalók a beadandó feladatokról
   
A beadandó három feladat témaköre:
(1) Osztályozás/klasszifikáció: Bayes módszer, Döntési fa, SVM, Log.regr.
(2) Csoportosítás/klaszterezés feladata: K-közép, O-klaszter
(3) Egyéb technikák: Asszociációs elemzés, Anomáliák keresése, Regresszió
       
Az ODM beadandó feladatok bemutatása és a gyakorlati jegyek zárása:
 
- az utolsó gyakorlaton: május 15. csütörtök 16:00-20:00-ig 00-807 AB-laborban
- a vizsgaidőszak első két hetében, lásd vizsgaidőszakra vonatkozó elérhetőségem
   
3. HASZNOS LINKEK
   
Ajánlott irodalom az adatbányászathoz 
Adatbányászathoz ajánlott irodalom és hasznos linkek (külön lapon)
 
Hasznos linkek az Oracle Data Minerhez:
ODM: http://www.oracle.com/technology/products/bi/odm/index.html
   Oracle Data Miner 11gR2  innen - DOWNLOAD
   Oracle Data Mining (p235) Tutorial: (forrás: innen letölthető)
   
> Oracle Database Online Documentation 11g Release2
    Elérhető a tanszéki honlapról: http://medusa.inf.elte.hu/
    Data Warehousing and Business Intelligence, Data Mining
    >> Data Mining Concepts
    >> Data Mining Application Developer's Guide
    >> Data Mining Administrator's Guide
      
Adathalmazok:
> UCI Machine Learning Repository  --> például: Iris
    >> http://archive.ics.uci.edu/ml/datasets.html
http://www.kdnuggets.com/datasets/index.html 
> http://www.cs.waikato.ac.nz/ml/weka/datasets.html
   
Vissza a honlapra: Hajas Csilla © ELTE IK  --- vagy  Fel a lap tetejére