Adattárház, adatbányászati technológiák gyak.
ELTE, 2010/2011. tanév II.(tavaszi) félév - PI MSc/IR szakirány
Gyakorlat vezetők: Vincellér Zoltán és Hajas Csilla (ELTE IK)
IPM-08irABTG gyak - Péntek 12:30-14:00 D.ép. 2.520 MI labor

      
1. Követelmények, gyak. információ  
1.1. Tudnivalók az előadásról
1.2. Tudnivalók a gyakorlatokról
1.3. Gyakorlati követelmények
2. Tematikák, segédanyagok                
> 2.1. A gyakorlatok beosztása és témaköre
> 2.2. Gyakorlatok segédanyagai (jelszavas)
> 2.3. Ajánlott irodalom és hasznos linkek
   
1. KÖVETELMÉNYEK, INFORMÁCIÓ
   
1.1. Tudnivalók az előadásról
   
Előadó: Dr. Kiss Attila honlap
Előadás: Kedd 8:30-10:00 D.ép. 00-807 Adatbázis labor
Adattárházak, adatbányászati technológiák előadások anyaga
   
1.2. Tudnivalók a gyakorlatról
   
A tantárgy felvétele: Az ETR-en keresztül lehet jelentkezni.
Gyakorlat:
Péntek 12:30-14:00 D.ép. 2-520 Mest.int.labor
   
Két fő témakört dolgozunk fel a gyakorlatokon, különböző gyakorlat-vezetőkkel:
(6 hét) Adattárházak építése (Vincellér Zoltán)
-- Lásd Vincellér Zoltán honlapján az Adattárház könyvtár segédanyagait.
(6 hét) Adatbányászati technológiák (Hajas Csilla)
-- Lásd itt: 2.1. Gyak.tematika és 2.2. Gyakorlatok segédanyagai (jelszavas)
Adatbányászati technológiák témakörön belül a különböző adatbányászati
algoritmusokat próbáljuk ki az Oracle Data Miner 11gR2 (ODM) szoftverrel.
Az adatbányászati gyakorlatoknak a célkitűzése:
az adatokban rejtett törvényszerűségek, tendenciák, szabályok, minták feltárása,
az eredmények kiértékelése, értelmezése valamint jelentések és előrejelzések
elkészítése (az algoritmusok ismerete csak az előadásra és vizsgára szükséges).
    
1.3. Gyakorlati követelmények
   
A gyakorlati követelményeket a Hallgatói követelményrendszer határozza meg.
A gyakorlati követelmények:
- A félév során mind a két témakörből lesznek elkészítendő beadandó feladatok.
- A gyakorlati jegyet a két témakörből szerzett jegy felfelé kerekített átlaga adja.
   
Adatbányászati technológiák témakörből a félév során mindenkinek szabadon
választott adatokra (pl. mintaadatok elérhetőek:  hasznos linkek /adathalmazok)
három adatbányászati módszert kell bemutatnia az adatokon, amihez írásban kell
elkészítenie és beadnia a feladat leírását és az eredmény kiértékelését (jelentést),
valamint személyesen is be kell mutatnia a beadott feladatokat az ODM-ben.
A beadandó három feladat témaköre:
1.) Asszociációs szabályok vagy Regresszió (lineáris regresszió vagy SVM)
2.) Osztályozás (döntési fa, Bayes, logisztikus regresszió vagy SVM)
3.) Klaszterezés (k-közép vagy O-klaszter)
     

2. TEMATIKÁK, SEGÉDANYAGOK
     
2.1. A gyakorlatok beosztása és témakörei
     
EA-Kedd  GY-Péntek A gyakorlatok témaköre                
 ADATTÁRHÁZAK       (VZ) Oracle Warehouse Builder 
 1.) 02.15. 1.hét 02.18. (VZ)  
 2.) 02.22. 2.hét 02.25. (VZ)  
 3.) 03.01. 3.hét 03.04. (VZ)  
 4.) 03.08. 4.hét 03.11. (VZ)  
 --  03.15. 5.hét 03.18. (VZ)  
 5.) 03.22. 6.hét 03.25. (VZ)  
 ADATBÁNYÁSZAT  (HCs) Oracle Data Miner   
 6.) 03.29.  1.hét 04.01.  Előkészítés: ODM használata 1.) Asszociációs szabályok
 7.) 04.05. 2.hét 04.08. 2.) Regresszió: Lineáris regresszió  3.) Osztályozás: Log.regr.
 8.) 04.12. 3.hét 04.15. 4.) Osztályozás: Bayes módszer  5.) Osztályozás: Döntési fa
 --  04.19.  -- 04.22. -- Tavaszi szünet (ápr.18-26)         
 --  04.26. 4.hét 04.29. 6.) Klaszterezés: O-klaszter  7.) Klaszterezés: k-közép
 9.) 05.03. 5.hét 05.06. 8.) SVM az osztályozásra és SVM: 9.) regr. | 10.)anom.feltárásra
10.) 05.10.  -- 05.13. -- Pázmány nap (május 13)        
11.) 05.17. 6.hét 05.20.  11.) Egyéb módszerek, technikák 12.) ODM esettanulmányok
           

2.2. Gyakorlati segédanyagok az adatbányászathoz
     
Segédanyagok a gyakorlatok adatbányászati részéhez
A gyakorlaton (jelszóval) elérhetőek az órai segédanyagok és adathalmazok.
   
1.hét - 2011. április 1.
1.feladat: Oracle Data Miner használata, adatok előkészítése
Letöltés:
Az Oracle ODM és sqldeveloper legfrissebb verziója ingyenesen letölthető
az Oracle Technology Network: otn.oracle.com oldalról (regisztráció után)
nem igényel telepítést, csak ki kell csomagolni és lehet futtatni, működik.
Letöltve: odminer 11.1 odminer-11.zip és odminer 11.2 sqldeveloper-3.zip
Demok (jelszavas könyvtárban) ODM Demos és ODM_Tutorial.pdf
         
Beállítások:
> Data Mining Administrator's Guide
Adatbányászati jogok megadása (a rendszergazdától): dmshgrants.sql
ODM 11.1 beállítások: például -> Data -> Import használatához szükséges: 
          -> Tools -> Preferences -> "SQL Loader Executable" mező kitöltése
           "C:\product\11.2.0\dbhome_1\bin\sqlldr.exe" (MI- ill. AB-labor pc)
           (saját gépen előbb egy Oracle 11g Rel2 klienst kell telepíteni a gépre)
     
Adatok előkészítése és feltárása:  
>  Előismeretek: Han EA: 02Data.ppt vagy Kumar EA: chap3.pdf
Script: dmshpelda.txt  -- az SH séma tábláiból készítsünk nézeteket: 
    CREATE VIEW <név>_v AS ... valamint ezekre a nézetekre készítsünk
    tárolt nézeteket is: CREATE MATERIALIZED VIEW <név>_mv AS ...
          
1.feladat: Asszociációs szabályok feltárása:
>  Előismeretek: Han EA: 06FP.ppt vagy Kumar EA: chap6.pdf
> Alapok: Data Mining Concepts
-- Part I. Bevezetés
-- Part II. Feladatok: 8. Asszociáció
-- Part III. Algoritmus: 10. Apriori
> Példa1.1: ODM_Tutorial.pdf (lásd Chapter 13 - Associations)
> Példa1.2: market_basket_v view : Used for association rules
    helyett market_basket_matv (materialized view) tárol nézettáblában
> Példa1.2: Adatok2: origo-user-topic.csv -> Data -> Import
-- További adathalmazok: data_arules  jelszavas könyvtárban,
    az adathalmazok leírását lásd például arules.pdf (r-project)  
   

2.hét - 2011. április 8.
2.feladat: Regresszió/Előrejelzés - Lineáris regresszió (GLM)
> TÁMOP keretében készülő segédanyag: ODM_regres.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 4. Regresszió
-- Part III. Algoritmus: 12. Generalized Linear Models (GLM)
> Példa2.1: mining_data_build_v views : Used for data mining
    helyett mining_data_build_matv (materialized view) táblában
> Példa2.2: Adatok2: ksh-adatok.csv -> Data -> Import
-- További adathalmazok: data_regres  jelszavas könyvtárban.
   
3.feladat: Regresszió/Előrejelzés - Támaszvektor (SVM)
> TÁMOP keretében készülő segédanyag: ODM_SVM.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 4. Regresszió
-- Part III. Algoritmus: 18. Support Vector Machines
   

3.hét - 2011. április 15.
4.feladat: Osztályozás - Naív Bayes
>  Előismeretek: Han EA: 08Class.ppt  vagy Kumar EA: chap4.pdf
> TÁMOP keretében készülő segédanyag: ODM_class1.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Classification
-- Part III. Algoritmus: 15. Naive Bayes
> Példa4.1: ODM_Tutorial.pdf (lásd Chapter 5 /és 6/- Bayes)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
 
5.feladat: Osztályozás - Döntési fa
> TÁMOP keretében készülő segédanyag: ODM_class2.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Classification
-- Part III. Algoritmus: 11. Decision Tree
> Példa5.1: ODM_Tutorial.pdf (lásd Chapter 7 - Döntési fa)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
     
4.hét - 2011. április 28.
Klaszterezés
A beadandó három feladat témaköréből még a 3.témakörről nem esett szó
1.) Asszociációs szabályok vagy Regresszió (lineáris regresszió vagy SVM)
2.) Osztályozás (döntési fa, Bayes, logisztikus regresszió vagy SVM)
3.) Klaszterezés (k-közép vagy O-klaszter)
   
6.feladat: Klaszterezés - O klaszter
>  Előismeretek: Han EA: 10Clust.ppt  vagy Kumar EA: chap8.pdf  
> TÁMOP keretében készülő segédanyag: ODM_clust1.pdf 
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 7. Clustering
-- Part III. Algoritmus: 17. O_Cluster
> Példa6.1: ODM_Tutorial.pdf (lásd Chapter 10)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
> Példa6.2: Adatok2: pollen.csv -> Data -> Import
   
7.feladat: Klaszterezés - k közép
> TÁMOP keretében készülő segédanyag: ODM_clust2.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 7. Clustering
-- Part III. Algoritmus: 13. k-Means 
> Példa7.1: ODM_Tutorial.pdf (lásd Chapter 11)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
> Példa7.2: Adatok2: pollen.csv -> Data -> Import
   

5.hét - 2011. május 6.
   
Támaszvektorok (SVM) és alkalmazási területei
8.feladat: Támaszvektor (SVM) osztályozásra
> TÁMOP keretében készülő segédanyag: ODM_SVM1.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Osztályozás
-- Part III. Algoritmus: 18. Support Vector Machines
> Példa8.1: ODM_Tutorial.pdf (lásd Chapter 8)
   
9.feladat: Támaszvektor (SVM) regresszióra
> TÁMOP keretében készülő segédanyag: ODM_SVM2.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 4. Regresszió
-- Part III. Algoritmus: 18. Support Vector Machines
> Példa9.1: ODM_Tutorial.pdf (lásd Chapter 9)
       
10.feladat: Támaszvektor (SVM) anomáliák feltárására
> TÁMOP keretében készülő segédanyag: ODM_SVM3.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 6. anomáliák feltárása
-- Part III. Algoritmus: 18. Support Vector Machines
> Példa10.1: ODM_Tutorial.pdf (lásd Chapter 12)
              
2.3. AJÁNLOTT IRODALOM ÉS HASZNOS LINKEK
   
Adathalmazok: 
>> lásd például itt: http://archive.ics.uci.edu/ml/datasets.html
>> A gyakorlatok és beadandók adathalmazai:    
  1.) Asszociációhoz:    data_arules  jelszavas könyvtárban   
  2.) Regresszióhoz:  data_regres 
  3.) Osztályozáshoz:  data_class  
  4.) Klaszterezéshez:  data_cluster  
          
Oracle Data Minerhez:
ODM: http://www.oracle.com/technology/products/bi/odm/index.html
   Oracle Data Miner 11gR2  innen - DOWNLOAD
   Oracle Data Mining (p235) Tutorial: (forrás: innen letölthető)
   
> Oracle Database Online Documentation 11g Release2
    Elérhető a tanszéki honlapról: http://medusa.inf.elte.hu/
    Data Warehousing and Business Intelligence, Data Mining
    >> Data Mining Concepts
    >> Data Mining Application Developer's Guide
    >> Data Mining Administrator's Guide
   
SAS Enterprise Minerhez:
> Getting Started with SAS Enterprise Miner 6.1  (.pdf, 76 oldal)
> SAS Enterprise Miner 6.Extension Nodes Developer’s Guide (.pdf, 191 oldal)
> Data Mining Using SAS Enterprise Miner: A Case Study Approach (.pdf, 134 o.)
   
Adatbányászathoz:
Adatbányászat oktatása (külön lapon)
> http://www.kdnuggets.com/
   This site is an excellent source of information about data mining.
   It includes a bibliography of publications.
> http://www.twocrows.com/
   On this site, you will find the free tutorial: Introduction to Data Mining and
   Knowledge Discovery, and other useful information about data mining.
        
Budapest, 2011. január 6.                   
Utolsó módosítás: ápr.30.   
 
 Lap tetejére     
dr. Hajas Csilla, ELTE, IK
E-mail: sila@inf.elte.hu 

  Vissza a Kezdőlapra