Adattárház, adatbányászati technológiák gyak.
ELTE, 2011/2012. tanév II.(tavaszi) félév - PI MSc/IR szakirány
Gyakorlat vezetők: Vincellér Zoltán és Hajas Csilla (ELTE IK)
IPM-08irABTG gyak - Kedd 12:15-13:45 D.ép. 2.520 MI labor

      
Tankönyv:
  1. Tudnivalók a gyakorlatokról és a gyak.követelmények
  2. A gyakorlatok beosztása és az ODM rész tematikája
  A beadandó három ODM feladat témaköre:
  I. Asszociációs szabályok feltárása, regresszió feladata
  6.gy. 1.f.: Adatok előkészítése 2.f.: Asszociációs szabályok
  7.gy. 3.f.: Lineáris regresszió    4.f: SVM regresszióra
  II. Osztályozás feladata
   8.gy: 5.f:  Naív Bayes    6.f: Döntési fa osztályozásra 
   9.gy: 7.f.: Log.regr.  8.f.: SVM oszt.ra  9.f: Anomáliák
  III. Klaszterezés feladata
  10.gy: 10.f: O-klaszter   11.f:  K-közép klaszterezésre
  Feladatok bemutatása: 11.gy: máj.15., Eredmények
     
1. KÖVETELMÉNYEK, INFORMÁCIÓ
   
1.1. Tudnivalók a gyakorlatokról
1.2. Gyakorlati követelmények
> 1.3. Tudnivalók a beadandó feladatokról
      
1.1. Tudnivalók a gyakorlatról
      
A tantárgy felvétele: Az ETR-en keresztül lehet jelentkezni.
Gyakorlat:
Kedd 12:15-13:45  D.ép.2-520 Mest.int. labor
   
Előadás: Hétfő 10:15-11:45  D.ép.00-807 Adatbázis labor (Kiss Attila)
-- Lásd itt: Adattárházak, adatbányászati technológiák előadások anyaga
   
A gyakorlaton két fő témakört dolgozunk fel, különböző gyak.vezetőkkel:
(5 hét) Adattárházak építése (Vincellér Zoltán)
-- Lásd Vincellér Zoltán honlapján az Adattárház könyvtár segédanyagait.
(6 hét) Adatbányászati technológiák (Hajas Csilla)
-- Lásd itt: 2.1. Gyak.tematika és 2.2. Gyakorlatok segédanyagai
   
Adatbányászati technológiák témakörön belül a különböző adatbányászati
algoritmusokat próbáljuk ki az Oracle Data Miner 11gR2 (ODM) szoftverrel. 
Az adatbányászati gyakorlatoknak a célkitűzése:
az adatokban rejtett törvényszerűségek, tendenciák, szabályok, minták feltárása,
az eredmények kiértékelése, értelmezése valamint jelentések és előrejelzések
elkészítése (az algoritmusok ismerete csak az előadásra és vizsgára szükséges).
    
1.2. Gyakorlati követelmények
   
A gyakorlati követelményeket a Hallgatói követelményrendszer határozza meg,
lásd ELTE_SZMSZ_II . Hallgatói követelményrendszer.pdf (külön ablakban nyílik)
A gyakorlati követelmények:
- A félév során mind a két témakörből lesznek elkészítendő beadandó feladatok.
- A gyakorlati jegyet a két témakörből szerzett jegyek (felfelé kerekített) átlaga adja.
   
1.3. Tudnivalók a beadandó feladatokról
   
Az adatbányászati technológiák témakörből három beadandó feladatot
kell írásban elkészíteni és emailben beküldeni, majd személyesen is bemutatni.
- Az adatokról szóló leírást: az internetről letöltött szabadon választott adatokra
kell három adatbányászati módszert bemutatni. Az elemzés előtt meg kell adni
az adathalmazok leírását, a forrást: honnan és mikor töltötte le az adatokat?
Mit jelentenek az adatok? Milyen előkészítésre, adattisztításra volt szükség?
- Három adatbányászati módszert kell bemutatnia ezeken az adatokon és
erről jelentést kell készíteni, amely tartalmazza az eredmény kiértékelését. 
- Kérem, hogy a beadandóban ne a Tutorial vagy az órai demo feladatok
példáit küldjék be, hanem az internetről töltsenek le új adatokat, és azt
elemezzék, adják meg milyen adatelőkészítésre volt szükség valamint
milyen feladatokra alkalmazható az adathalmaz, végezzék el a feladatot,
végül értékeljék ki, értelmezzék az eredményt a beküldendő jelentésben.
- A félév végén személyesen is be kell mutatni a beküldött feladatokat.
   
A beadandó három feladat témaköre:
1.) Asszociációs szabályok, illetve regresszió (lineáris regresszió, SVM)
2.) Osztályozás (döntési fa, Bayes, logisztikus regresszió, SVM)
3.) Klaszterezés (k-közép, O-klaszter)
     
Az ODM beadandó feladatok bemutatása és a gyakorlati jegyek zárása:
 
- az utolsó gyakorlaton: május 15. kedden 12:15-13:45-ig 2.520 MI laborban és
- a vizsgaidőszak első két hetében: május 22., 29. kedden 12:15-13:45-ig MI labor.
Elérhetőségem: http://people.inf.elte.hu/sila/main/fogad12f.html
    
2. TEMATIKÁK, SEGÉDANYAGOK
   
> 2.1. A gyakorlatok beosztása és témakörei
> 2.2. Gyakorlatok segédanyagai (jelszavas)
> 2.3. Ajánlott irodalom és hasznos linkek
         
2.1. A gyakorlatok beosztása és témakörei
    
    H.  Kedd  Sze. Cs. P. Szo. V.  
február 13 02.14  1.gy. 15 16 17 18 19 február
    20 02.21  2.gy. 22 23 24 25 26    
    27 02.28  3.gy. 29 1 2 3 4 március
március 5 03.06  4.gy. 7 8 9 10 11    
    12 03.13  5.gy. 14 15 16 17 18    
    19 03.20  6.gy. 21 22 23 24 25    
    26 03.27  7.gy. 28 29 30 31 1 április
április 2 04.03 -     4 5 6 7 8    
    9 04.10 -     11 12 13 14 15    
    16 04.17  8.gy. 18 19 20 21 22    
     23 04.24  9.gy. 25 26 27 28 29    
    30 05.01 -     2 3 4 5 6 május
május 7 05.08  10.gy. 9 10 11 12 13    
    14 05.15  11.gy. 16 17 18 19 20    
               
2.2. Gyakorlati segédanyagok az adatbányászathoz
     
Segédanyagok a gyakorlatok adatbányászati részéhez
A gyakorlaton jelszóval érhetőek el az órai segédanyagok és adathalmazok.
A TÁMOP keretében készülő segédanyag jelszavas könyvtárban van.
Kérem, hogy csak innen használják a segédanyagot, vagyis NE tegyék
publikussá az elérését, ugyanis azt még rendszeresen frissítem, és kérem,
hogy ha hibát vagy hiányosságot fedeznek fel, azt jelezzék személyesen
vagy emailben, hogy ki tudjam azt javítani. Köszönettel, Hajas Csilla
   
6.gyak./ODM-1.hét - 2012. március 20.
   
1.feladat: ODM- Oracle Data Miner használata, adatok előkészítése
2.feladat: Asszociációs szabályok feltárása
   
1.feladat: Oracle Data Miner használata, adatok előkészítése
Letöltés
:
Az Oracle ODM és sqldeveloper legfrissebb verziója ingyenesen letölthető
az Oracle Technology Network: otn.oracle.com oldalról (regisztráció után)
nem igényel telepítést, csak ki kell csomagolni és lehet futtatni, működik.
Letöltve: odminer 11.1 odminer-11.zip és odminer 11.2 sqldeveloper-3.zip
Demok (jelszavas könyvtárban) ODM Demos és ODM_Tutorial.pdf
      
Beállítások:
> Data Mining Administrator's Guide
Adatbányászati jogok megadása (a rendszergazdától): dmshgrants.sql
ODM 11.1 beállítások: például -> Data -> Import használatához szükséges: 
          -> Tools -> Preferences -> "SQL Loader Executable" mező kitöltése
           "C:\product\11.2.0\dbhome_1\bin\sqlldr.exe" (MI- ill. AB-labor pc)
           (saját gépen előbb egy Oracle 11g Rel2 klienst kell telepíteni a gépre)
     
Adatok előkészítése és feltárása:  
>  Előismeretek: Han EA: 02Data.ppt vagy Kumar EA: chap3.pdf
Script: dmshpelda.txt  -- az SH séma tábláiból készítsünk nézeteket: 
    CREATE VIEW <név>_v AS ... valamint ezekre a nézetekre készítsünk
    tárolt nézeteket is: CREATE MATERIALIZED VIEW <név>_mv AS ...
        
2.feladat: Asszociációs szabályok feltárása:
>  Előismeretek: Han EA: 06FP.ppt vagy Kumar EA: chap6.pdf
> Alapok: Data Mining Concepts
-- Part I. Bevezetés
-- Part II. Feladatok: 8. Asszociáció
-- Part III. Algoritmus: 10. Apriori
> Példa2.1: ODM_Tutorial.pdf (lásd Chapter 13 - Associations)
> Példa2.2: market_basket_v view : Used for association rules
    helyett market_basket_matv (materialized view) tárol nézettáblában
> Példa2.2: Adatok2: origo-user-topic.csv -> Data -> Import
    (Origo témakörökhöz a hozzászólások, az origo oldaláról)
> További adathalmazok: data_arules  jelszavas könyvtárban,
    az adathalmazok leírását lásd például arules.pdf (r-project)  
   

7.gyak./ODM-2.hét - 2012. március 27.
     
3.feladat: Lineáris regresszió az előrejelzésre    
4.feladat: SVM (támaszvektor) regresszióra/előrejelzésre
   
3.feladat: Regresszió/Előrejelzés - Lineáris regresszió (GLM)
> Ismétlés: stat.ea - lineáris regresszió
> TÁMOP keretében készülő segédanyag: ODM_regres.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 4. Regresszió
-- Part III. Algoritmus: 12. Generalized Linear Models (GLM)
> Példa3.1: mining_data_build_v views : Used for data mining
    helyett mining_data_build_matv (materialized view) táblában
> Példa3.2: Adatok: ksh-adatok.csv -> Data -> Import
    KSH oldaláról a települések adatai (népesség, lakásszám, stb)
   
4.feladat: Regresszió/Előrejelzés - Támaszvektor (SVM)
> A Tutorial on Support Vector Regression
> TÁMOP keretében készülő segédanyag: ODM_regres.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 4. Regresszió
-- Part III. Algoritmus: 18. Support Vector Machines
> Példa4.1: ODM_Tutorial.pdf (lásd Chapter 9)
   

8.gyak./ODM-3.hét - 2012. április 17.
     
5.feladat: Naív Bayes osztályozásra   
6.feladat: Döntési fa osztályozásra 
   
7.előadás: Osztályozás
- Kiss Attila: Adatbányászat (osztályozás, döntési fák)
- Han előadások: 08Class.ppt 
- Kumar előadások: chap4.pdf
   
5.feladat: Osztályozás - Naív Bayes
   
> TÁMOP keretében készülő segédanyag: ODM_class1.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Classification
-- Part III. Algoritmus: 15. Naive Bayes
> Példa5.1: ODM_Tutorial.pdf (lásd Chapter 5 /és 6/- Bayes)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
 
6.feladat: Osztályozás - Döntési fa
> TÁMOP keretében készülő segédanyag: ODM_class2.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Classification
-- Part III. Algoritmus: 11. Decision Tree
> Példa6.1: ODM_Tutorial.pdf (lásd Chapter 7 - Döntési fa)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
> Példa6.2: Adatok: bank-data.csv - innen: WEKA: döntési fa példa
    

9.gyak./ODM-4.hét - 2012. április 24.
    
7.feladat: Logisztikus regresszió osztályozásra  
8.feladat: SVM (támaszvektor) osztályozásra
9.feladat: SVM anomália  feltárására
     
7.feladat: Osztályozás - Logisztikus regresszió
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Osztályozás
-- Part III. Algoritmus: 12. Generalized Linear Models (GLM)
> Példa7.1: mining_data_build_v views : Used for data mining
    helyett mining_data_build_matv (materialized view) táblában
     
8.feladat: Támaszvektor (SVM) osztályozásra
> TÁMOP keretében készülő segédanyag: ODM_SVM1.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Osztályozás
-- Part III. Algoritmus: 18. Support Vector Machines
> Példa8.1: ODM_Tutorial.pdf (lásd Chapter 8)
     
9.feladat: Támaszvektor (SVM) anomáliák feltárására
> TÁMOP keretében készülő segédanyag: ODM_SVM3.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 6. anomáliák feltárása
-- Part III. Algoritmus: 18. Support Vector Machines
> Példa9.1: ODM_Tutorial.pdf (lásd Chapter 12)  
   
10.gyak./ODM-5.hét - 2012. május 8.
   
10.feladat: O-klaszter klaszterezésre  
11.feladat: K-közép klaszterezésre
    
10.feladat: Klaszterezés - O klaszter
>  Előismeretek: Han EA: 10Clust.ppt  vagy Kumar EA: chap8.pdf  
> TÁMOP keretében készülő segédanyag: ODM_clust1.pdf 
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 7. Clustering
-- Part III. Algoritmus: 17. O_Cluster
> Példa10.1: ODM_Tutorial.pdf (lásd Chapter 10)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
> Példa10.2: Adatok2: pollen.csv -> Data -> Import
   
11.feladat: Klaszterezés - k közép
> TÁMOP keretében készülő segédanyag: ODM_clust2.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 7. Clustering
-- Part III. Algoritmus: 13. k-Means 
> Példa11.1: ODM_Tutorial.pdf (lásd Chapter 11)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
> Példa11.2: Adatok2: pollen.csv -> Data -> Import
   
11.gyak./ODM-6.hét - 2012. május 15.
    

Az adatbányászati technológiák témakörből három beadandó feladatot
kell írásban elkészíteni és emailben beküldeni, majd személyesen is bemutatni,
részleteket lásd 1.3. Tudnivalók a beadandó feladatokról
    
Az ODM beadandó feladatok bemutatása és a gyakorlati jegyek zárása:
 
- az utolsó gyakorlaton: május 15. kedden 12:15-13:45-ig 2.520 MI laborban és
- a vizsgaidőszak első két hetében: május 22., 29. kedden 12:15-13:45-ig MI labor.
Elérhetőségem: http://people.inf.elte.hu/sila/main/fogad12f.html
     
Eredmények: (név helyett 3kar kóddal) ABTGY_Kedd_1215.pdf (jelszóval)
       
A beadandó három feladat témaköre:
1.) Asszociációs szabályok, illetve regresszió (lineáris regresszió, SVM)
2.) Osztályozás (döntési fa, Bayes, logisztikus regresszió, SVM)
3.) Klaszterezés (k-közép, O-klaszter)
        
2.3. AJÁNLOTT IRODALOM ÉS HASZNOS LINKEK
   
Adathalmazok: 
>> lásd például itt: http://archive.ics.uci.edu/ml/datasets.html
>> A gyakorlatokon szereplő adathalmazok az órai demohoz: 
  1.) Asszociációhoz:    data_arules  jelszavas könyvtárban   
  2.) Regresszióhoz:  data_regres 
  3.) Osztályozáshoz:  data_class  
  4.) Klaszterezéshez:  data_cluster  
    
Oracle Data Minerhez:
ODM: http://www.oracle.com/technology/products/bi/odm/index.html
   Oracle Data Miner 11gR2  innen - DOWNLOAD
   Oracle Data Mining (p235) Tutorial: (forrás: innen letölthető)
   
> Oracle Database Online Documentation 11g Release2
    Elérhető a tanszéki honlapról: http://medusa.inf.elte.hu/
    Data Warehousing and Business Intelligence, Data Mining
    >> Data Mining Concepts
    >> Data Mining Application Developer's Guide
    >> Data Mining Administrator's Guide
   
SAS Enterprise Minerhez:
> Getting Started with SAS Enterprise Miner 6.1  (.pdf, 76 oldal)
> SAS Enterprise Miner 6.Extension Nodes Developer’s Guide (.pdf, 191 oldal)
> Data Mining Using SAS Enterprise Miner: A Case Study Approach (.pdf, 134 o.)
   
Adatbányászathoz:
Adatbányászat oktatása (külön lapon)
> http://www.kdnuggets.com/
   This site is an excellent source of information about data mining.
   It includes a bibliography of publications.
> http://www.twocrows.com/
   On this site, you will find the free tutorial: Introduction to Data Mining and
   Knowledge Discovery, and other useful information about data mining.
        
Budapest, 2012. február 6.                   
Utolsó módosítás: márc.12.
 
 Lap tetejére     
dr. Hajas Csilla, ELTE, IK
E-mail: sila@inf.elte.hu 

  Vissza a Kezdőlapra