Adattárház,  adatbányászati technológiák  gyakorlat
ELTE, 2014/2015. tanév II.félév MSc
IPM-08irABTG 
Gyak.vez: Vincellér Zoltán (ODW), Hajas Csilla (ODM)
Szerda 16:00-17:30  Déli Tömb 00-807 Adatbázis labor

  

back Honlap     1. Tudnivalók     2. Tematika/Tananyag     3. Linkek/Adatok

1. TUDNIVALÓK: a gyakorlatokról és a követelmények
   
Gyakorlat: Szerda 16:00-17:30 Déli Tömb 00-807 Adatbázis labor
A gyakorlaton két fő témakört dolgozunk fel, különböző gyak.vezetőkkel:
Tavaszi szünetig: 1-7.hét (ODW) Adattárházak építése (Vincellér Zoltán)
-- Lásd Vincellér Zoltán honlapján az Adattárház könyvtár segédanyagait.
Tavaszi szünet után: 8-14.hét (ODM) Adatbányászat (Hajas Csilla)
-- Lásd itt: 2. Az adatbányászati rész tematikája és segédanyagai
Előadás: Kedd 16:00-17:30  D.ép.00-807 Adatbázis labor (Kiss Attila)
-- Lásd itt: Adattárházak, adatbányászati technológiák előadások anyaga
   
Az adatbányászati gyakorlatoknak a célkitűzése: adatbányászati algoritmusok
gyakorlati alkalmazásának bemutatása az Oracle 11g adatbázis-kezelő rendszer
által biztosított PL/SQL package-ek és függvények segítégével, és az ODM
(Oracle Data Miner) szoftver használatának elsajátítása. Az adatokban rejtett
törvényszerűségek, tendenciák, szabályok, minták feltárása, az eredmények
kiértékelése, értelmezése, jelentések és előrejelzések elkészítése és beadása.
   
A gyakorlati követelményeket a Hallgatói követelményrendszer határozza meg.
A gyakorlati jegyet a két témakörből (ODW és ODM) szerzett jegyek átlaga adja
(féljegy esetén az ODW jegyet egy kicsit jobban beszámítjuk a gyakorlati jegybe).
      
TUDNIVALÓK AZ ODM BEADANDÓ FELADATOKRÓL
   
Az adatbányászat (ODM) témakörből KÉT beadandó feladatot kell írásban
elkészíteni és emailben beküldeni, majd személyesen is bemutatni. A két témakör:
(1) Prediktív modellezés és előrejelzés (osztályozás, regresszió) feladatát 
     az Oracle Data Miner (ODM) által támogatott technikák: Bayes módszer,
     Döntési fa, SVM, Logisztikus regresszió, Lineáris regresszió valamelyikével,
(2) Leíró-feltáró feladatok (klaszterezés, asszociációs elemzés) feladata:
     K-közép, O-klaszter, Asszociációs elemzés, Anomáliák keresése egyikével.
    
Lépések  --- Kérem, hogy a beadandóban dokumentálják az alábbi lépéseket:
- Az adathalmazok leírása és a forrás: honnan és mikor töltötte le az adatokat, 
   az internetről letöltött szabadon választott adatokat használjon az adatbányászati
   módszerek gyakorlati bemutatására. Kérem, hogy a beadandóban NE a Tutorial
   vagy az órai demo feladatok példáit küldjék be, hanem töltsenek le új adatokat,
   lent a 3. Linkek/Adatok szakaszban találhatnak tippeket az internetes forrásokra.
- Az adatok betöltése az Oracle-be. Milyen adat-előkészítésre volt szükség?
  A betöltésnél vigyázzanak arra, hogy a *.csv fájlokban vessző az elválasztójel és
  a számoknál tizedespont áll, amíg általában a Windows illetve Oracle beállításnál
  a magyar beállítás szerint a számokra tizedesvesszőt használ (ezért a betöltés előtt
  elválasztónak használjunk például pontosvesszőt, a számoknál pont helyett vesszőt).
- Az adatokhoz megfelelő adatbányászati feladat és technika kiválasztása és
  végrehajtása. Adja meg azt is, hogy közben milyen paramétereket alkalmazott, stb.
- Jelentés elkészítése, amely tartalmazza az eredmény kiértékelését, értelmezését.
- Bemutatás: A félév végén személyesen is be kell mutatni a beküldött feladatokat.
  
Beadandó beküldése e-mailben, a honlapomon van egy eredmény-táblázat: ITT 
(hallgato/******** jelszóval, a jelszót kurzusmailben küldtem ki a csoportnak)
tudják ellenőrizni az ODM beadandók: D(oku) és a B(emutatók) eredményét és
a gyakorlati jegyeket. A gyakorlati jegyeket május 15-én írom be a Neptunba.
   
Az ODM beadandó feladatok bemutatása és a gyakorlati jegyek zárása: 
Az utolsó gyakorlaton: május 13. szerda 16:00-17:30-ig 00-807 AB-laborban.
A beadandók bemutatása (eddig egyeztetett) időpontjai és helyei:
a szorgalmi időszak utolsó két hetében:
(1) május 6 szerdán (az óra elején) 16:00-16:30 között 00-807 AB-labor,
(2) május 12 kedden 8:30-10:00 között 2.503.szoba v. 00-807 AB-labor,
(3) május 13 szerdán (utolsó órán) 16:00-17:45 között 00-807 AB-labor, 
(4) május 15 pénteken 8:30-11:00 között 2.503.szoba v. 00-807 AB-labor,
valamint a vizsgaidőszak első három hetében:
(5) május 19 kedden 8:30-10:00 között, továbbá 16:00-18:00 között is, 
(6) május 26 kedden 8:30-10:00 között, továbbá 16:00-18:00 között is, 
(7) június 2 kedden 8:30-10:00 között 2.503.szoba v. 00-807 AB-labor,
(8) június 3 szerdán 17:00-18:00 között 2.503.szoba v. 00-807 AB-labor.
Megj.: "2.503.szoba v. 00-807 AB-labor" jelentése: a 2.503-ban vagyok
és aki saját lapopon hozza a beadandót, itt tudja bemutatni (van wifi is és
hálózati kábel is), akinek nincs saját gépe lemegyünk az Adatbázis laborba
és a laborgépen tudja bemutatni. Kérem, hogy a bemutatás előtt e-mailben
küldje el a dokumentációt: adathalmazok leírását, eredmények kiértékelését.
Megadom a két helyszín közötti útvonalamat, nehogy elkerüljük egymást:  
A II.emeletről a főlépcsőn nyílegyenesen a földszinti büféig, onnan a büfétől
le a lépcsőn az alagsorba a 00-807 Adatbázis-laborba, visszafelé ugyanígy.
   
2. TEMATIKA: az adatbányászati rész tananyaga és segédanyagai
      
Áttekintés az Oracle adatbányászat (ODM) feladatokról
Négy alapvető adatbányászati feladattal foglalkozunk:     
az adatbányászati feladatok általában két fő kategóriába sorolhatók, ezek:
- Prediktív modellezés és előrejelző feladatok: osztályozás, regresszió
- Leíró-feltáró feladatok: klaszterezés, asszociációs elemzés, anomália keresés
   
data_mining.png
     
Adatbányászat -- Digitális Tankönyvtár:
> Bevezetés az adatbányászatba, Panem Kft., Pang-Ning Tan, Michael Steinbach, Vipin Kumar
> Bevezetés az adatbányászatba: Előadásfóliák (Ispány Márton, 2011) -->> Slides
> Oracle adatbányászat (Hajas Csilla, 2010-2011) -->> ODM (Hajas Cs)
ODM -- Oracle Documentation: 
> Oracle Data Mining Concepts 11gR2
Oracle Data Mining Tutorial 11gR1
   
    ÁTTEKINTÉS  Gyak: Concepts Tutorial Slides ODM (Hajas Cs)
Előkészítés (ODM használata)
1.f.: Adatok előkészítése 
 8.gy
 8.gy
Ch.1-3
Ch.19
Ch.3   
Ch.1
Ch12
Ch.3
 
ODM_attekintes.pdf
I. Prediktív modellezés és előrejelzés:  
Osztályozás (Classification)
2.f: Naiv Bayes
3.f: Döntési fa  
Osztályozás (Classification)
4.f: SVM osztályozásra
5.f: Logisztikus regresszió  
Regresszió (Regression)
6.f: SVM regresszióra
7.f: Lineáris regresszió  
   
 8.gy
 8.gy
 
 9.gy
 9.gy
 
10.gy
10.gy
    
Ch.5, 15
Ch.5, 11
 
Ch.5, 18
Ch.5, 12
 
Ch.4, 18
Ch.4, 18
    
Ch.5
Ch.7
 
Ch.8
---
   
Ch.9
---
   
Ch.4
Ch.5
 
 
 
   
   
ODM_class1.pdf
ODM_class2.pdf
 
ODM_SVM1.pdf
   
   
ODM_SVM2.pdf
ODM_regres.pdf
II. Leíró-feltáró feladatok:  
Csoportosítás (Clustering)
8.f: O-klaszter  
9.f: K-közép
Egyéb (leíró-feltáró)
10.f: Asszociációs szabályok 
11.f: Anomáliák feltárása
    
11.gy
11.gy
 
12.gy
12.gy
    
Ch.7, 17
Ch.7, 13
 
Ch.8, 10
Ch.6, 18
    
Ch.10
Ch.11
 
Ch.13
Ch.12
   
Ch.8
Ch.9
 
Ch.6
Ch.10
   
ODM_clust1.pdf
ODM_clust2.pdf
 
 
ODM_SVM3.pdf
   

8.gyak./ODM-1.hét - 2015. április 8.

OSZTÁLYOZÁS-1
   
1.feladat: ODM- Oracle Data Miner használata, adatok előkészítése
2.feladat: Naiv Bayes osztályozásra
3.feladat: Döntési fa osztályozásra    
     
1.feladat: Oracle Data Miner használata, adatok előkészítése
Letöltés
: Az Oracle ODM ingyenesen letölthető (regisztráció után)
az Oracle Technology Network: otn.oracle.com oldalról .zip-ben,
nem igényel telepítést, csak ki kell csomagolni és lehet is futtatni.
LETÖLTVE (jelszavas könyvtárban, jelszó, mint a segédanyagoknál)
Data Miner 11.1 -->> Download 48MB odminer-11.zip 
Demok:  ODM Demos és ODM_Tutorial.pdf
   
Beállítások:
Az ELTE-n  az aramis Oracle11gR2 adatbázist használjuk, az elérése:
          Hostname: aramis.inf.elte.hu
          Port: 1521
          Service name: eszakigrid97
Data Miner 11.1 -- zip kibontása után odminer11103\bin mappából
     Indítása: odminer11103\bin mappából: odminerw.exe  (w: windows)
     Beállítások: például -> Data -> Import használatához szükséges: 
      -> Tools -> Preferences -> "SQL Loader Executable" mező kitöltése
      "C:\product\11.2.0\dbhome_2\bin\sqlldr.exe" (MI- ill. AB-labor pc)
      (saját gépen előbb Oracle 11g Rel2 kliens vagy SQL Loader kell)
    Jogok: Oracle DBA-tól: dmshgrants.sql (ezzel nincs teendőnk).
    lásd Data Mining Administrator's Guide (adatbányászati jogok)
         
Adatok előkészítése és feltárása:  
Ez fontos, a demo példákhoz futtassuk le az aramison az alábbi scriptet:
> dmshsql.txt  -- amellyel az SH séma tábláiból készítünk nézeteket.
>  további nézetek: dmshpelda.txt CREATE VIEW <név>_v AS ...
    ezekre a nézetekre készíthetünk tárolt nézeteket is:
    CREATE MATERIALIZED VIEW <név>_mv AS ...
 
2.feladat: Osztályozás - Naiv Bayes
> TÁMOP keretében készülő segédanyag: ODM_class1.pdf
-- Data Mining Concepts Part II. Feladatok: 5. Classification
-- Data Mining Concepts Part III. Algoritmus: 15. Naive Bayes
> Példa2.1: ODM_Tutorial.pdf (lásd Chapter 5 /és 6/- Bayes)
    demo-adathalmaz: MINING_DATA_BUILD_V
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
 
3.feladat: Osztályozás - Döntési fa
> TÁMOP keretében készülő segédanyag: ODM_class2.pdf
-- Data Mining Concepts Part II. Feladatok: 5. Classification
-- Data Mining Concepts Part III. Algoritmus: 11. Decision Tree
> Példa3.1: ODM_Tutorial.pdf (lásd Chapter 7 - Döntési fa)
    demo-adathalmaz: MINING_DATA_BUILD_V
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
> Példa3.2: Adatok: bank-data.csv -- innen: Döntési fa (WEKA)
> További adathalmazokat lásd például innen:
   >> http://www.kdnuggets.com/datasets/index.html
   >> http://archive.ics.uci.edu/ml/datasets.html
   >> http://www.cs.waikato.ac.nz/ml/weka/datasets.html
 
9.gyak./ODM-2.hét - 2015. április 15.

OSZTÁLYOZÁS-2

> Könyv: dmbook sample chapter4: Classification: Basic Concepts.pdf
> Slide: Han EA: 08ClassBasic.ppt vagy Kumar EA: chap4.pdf
 
4.feladat: SVM (támaszvektor) osztályozásra
5.feladat: Logisztikus regresszió osztályozásra  
    
4.feladat: Támaszvektor (SVM) osztályozásra
> TÁMOP keretében készülő segédanyag: ODM_SVM1.pdf
-- Data Mining Concepts Part II. Feladatok: 5. Classification
-- Data Mining Concepts Part III. Algoritmus: 18. SVM
> Példa4.1: ODM_Tutorial.pdf (lásd Chapter 8)
    demo-adathalmaz: MINING_DATA_BUILD_V
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
    
5.feladat: Osztályozás - Logisztikus regresszió
-- Data Mining Concepts Part II. Feladatok: 5. Classification
-- Data Mining Concepts Part III. Algoritmus: 12. GLM
   

10.gyak./ODM-3.hét - 2015. április 22.
   
REGRESSZIÓ
6.feladat: SVM (támaszvektor) regresszióra/előrejelzésre
7.feladat: Lineáris regresszió az előrejelzésre    
   
6.feladat: Regresszió/Előrejelzés - Támaszvektor (SVM)
> A Tutorial on Support Vector Regression
> TÁMOP keretében készülő segédanyag: ODM_SVM2.pdf
-- Data Mining Concepts Part II. Feladatok: 4. Regresszió
-- Data Mining Concepts Part III. Algoritmus: 18. SVM
> Példa6.1: ODM_Tutorial.pdf (lásd Chapter 9)
   
7.feladat: Regresszió/Előrejelzés - Lineáris regresszió (GLM)
> Ismétlés: stat.ea - lineáris regresszió
> TÁMOP keretében készülő segédanyag: ODM_regres.pdf
-- Data Mining Concepts Part II. Feladatok: 4. Regresszió
-- Data Mining Concepts Part III. Algoritmus: 12. GLM
> Példa7.1: mining_data_build_v views : Used for data mining
    helyett mining_data_build_matv (materialized view) táblában
> Példa7.2: Adatok: ksh-adatok.csv -> Data -> Import
    KSH oldaláról a települések adatai (népesség, lakásszám, stb)
   
11.gyak./ODM-4.hét - 2015. április 29.
 
KLASZTEREZÉS, CSOPORTOSÍTÁS
> Könyv: dmbook sample chapter8: Cluster Analysis
> Han EA: 10Clust.ppt  vagy Kumar EA: chap8.pdf  
> Ispány M. magyar fordításában: KumarChapter8.pdf
8.feladat: O-klaszter klaszterezésre  
9.feladat: K-közép klaszterezésre
    
8.feladat: Csoportosítás - O klaszter
> TÁMOP keretében készülő segédanyag: ODM_clust1.pdf 
-- Data Mining Concepts Part II. Feladatok: 7. Clustering
-- Data Mining Concepts Part III. Algoritmus: 17. O-Cluster
> Példa8.1: ODM_Tutorial.pdf (lásd Chapter 10)
> Példa8.2: Adatok: ksh-adatok.csv -> Data -> Import
    KSH oldaláról a települések adatai (népesség, lakásszám, stb)
> Példa8.3: Adatok2: pollen.csv -> Data -> Import
   
9.feladat: Csoportosítás - K-közép
> TÁMOP keretében készülő segédanyag: ODM_clust2.pdf
-- Data Mining Concepts Part II. Feladatok: 7. Clustering
-- Data Mining Concepts Part III. Algoritmus: 13. K-Means 
> Példa9.1: ODM_Tutorial.pdf (lásd Chapter 11)
> Példa9.2: K-közép (WEKA)
   
12.gyak./ODM-5.hét - 2015. május 6.
   

ASSZOCIÁCIÓS szabályok, ANOMÁLIÁK feltárása
> Könyv: dmbook sample chapter6: Association Analysis.pdf
> Slide: Han EA: 06FP.ppt vagy Kumar EA: chap6.pdf
10.feladat: Asszociációs szabályok feltárása
11.feladat: SVM anomália  feltárására
     
10.feladat: Asszociációs szabályok feltárása:
> TÁMOP keretében készülő segédanyag: ...
-- Data Mining Concepts Part II. Feladatok: 8. Asszociáció
-- Data Mining Concepts Part III. Algoritmus: 10. Apriori
> Példa10.1: ODM_Tutorial.pdf (lásd Chapter 13 - Associations)
> Példa10.2: market_basket_v view : Used for association rules
    helyett market_basket_matv (materialized view) tárol nézettáblában
> Példa10.2: Adatok2: origo-user-topic.csv -> Data -> Import
    (Origo témakörökhöz a hozzászólások, az origo oldaláról)
> További adathalmazok: data_arules  jelszavas könyvtárban,
    az adathalmazok leírását lásd például arules.pdf (r-project)  
> Példa10.3: Asszociáció (WEKA)
      
11.feladat: Anomáliák (rendellenességek) feltárása
> TÁMOP keretében készülő segédanyag: ODM_SVM3.pdf
-- Data Mining Concepts Part II. Feladatok: 6. Anomália-keresés
-- Data Mining Concepts Part III. Algoritmus: 18. SVM
> Példa11.1: ODM_Tutorial.pdf (lásd Chapter 12)  
    

13.gyak./ODM-6.hét - 2015. május 13.
    

Az adatbányászati technológiák ODM feladatok BEMUTATÁSA:
> lásd TUDNIVALÓK AZ ODM BEADANDÓ FELADATOKRÓL
   fent találja meg a Tudnivalókat a beadandókról és a követelményeket,
   továbbá a beadandók bemutatásának előre egyeztetett időpontjait is.
    
3. HASZNOS LINKEK: Adathalmazok és további linkek
   
ADATHALMAZOK
> UCI Machine Learning Repository  
    >> http://archive.ics.uci.edu/ml/datasets.html
-- például: az Iris adathalmaz és
-- erre: az Irisz adathalmaz leírása a Tankönyvben is!
http://www.kdnuggets.com/datasets/index.html
> http://www.cs.waikato.ac.nz/ml/weka/datasets.html
   
A gyakorlatok adathalmazai az órai demokhoz:
> Osztályozáshoz:   data_class  könyvtárban 
> Regresszióhoz:  data_regres 
> Klaszterezéshez:  data_cluster  
> Asszociációhoz:    data_arules  
-- az adathalmazok leírását lásd például arules.pdf (r-project)  
   
Ajánlott irodalom az adatbányászathoz 
Adatbányászathoz ajánlott irodalom és hasznos linkek (külön lapon)
   

Vissza a honlapra: Hajas Csilla © ELTE IK  --- vagy  Fel a lap tetejére