Adattárház, adatbányászati technológiák gyak.
ELTE, 2012/2013. tanév II.(tavaszi) félév - PI MSc/IR szakirány
Gyakorlat vezetők: Vincellér Zoltán és Hajas Csilla (ELTE IK)
IPM-08irABTGY - Csütörtök 12:00-13:30 D.ép. 2.520 MI labor

  

back Vissza a honlapomra     1. TUDNIVALÓK     2. FELADATOK

ÁTTEKINTÉS a gyakorlatok menetéről és a három beadandó feladatról:
        (1) Osztályozás (classification) -- Felügyelt tanulás I.
2013. április   4.  7.gy: 1.f.: Adatok előkészítése  2.f: Naiv Bayes
2013. április 11.  8.gy: 3.f: Dönt.fa  4.f:  Log.regr.  5.f.: SVM oszt.
        (2) Csoportosítás (clustering) -- Felügyelet nélküli tanulás I.
2013. április 18.  9.gy: 6.f: O-klaszter  7.f:  K-közép
+Ehhez kapcs.ea: április 24. sze.14.15-15:30: Abonyi J: Csoportosítás
        (3) Egyéb feladatok (asszociációs szabályok, regresszió, stb)
2013. április 25. 10.gy. 8.f.: Asszoc.  9.f: Anom. -- Felü.nélk.tan.II.
+Ehhez kapcs.ea: május 2. csüt.13.00-13.30: T. Ban: Fuzzy asszoc.
2013. május  2.  11.gy. 10.f: Attr.f. 11.f: Lin.regr. 12.f: SVM regr. -- Felü.t.II
         Feladatok bemutatása
2013. május 16. 12.gy. beadandó feladatok bemutatása
2013. május 23. pótgy. beadandó feladatok bemutatása
   
1. Tudnivalók a gyakorlatokról és a követelmények
   
Gyakorlat: Csütörtök 12:00-13:30 D.ép.2-520 Mesterséges intelligencia labor
A gyakorlaton két fő témakört dolgozunk fel, különböző gyak.vezetőkkel:
(6 hét) Adattárházak építése (Vincellér Zoltán)
-- Lásd Vincellér Zoltán honlapján az Adattárház könyvtár segédanyagait.
(6 hét) Adatbányászati technológiák (Hajas Csilla)
-- Lásd itt: 2. Az adatbányászati rész tematikája és segédanyagai
Előadás: Hétfő 10:15-11:45  D.ép.00-807 Adatbázis labor (Kiss Attila)
-- Lásd itt: Adattárházak, adatbányászati technológiák előadások anyaga
   
Az adatbányászati gyakorlatoknak a célkitűzése: különböző adatbányászati
algoritmusokat próbáljuk ki az Oracle Data Miner 11gR2 (ODM) szoftverrel,
az adatokban rejtett törvényszerűségek, tendenciák, szabályok, minták feltárása,
az eredmények kiértékelése, értelmezése valamint jelentések és előrejelzések
elkészítése (az algoritmusok ismerete csak az előadásra és vizsgára szükséges).
   
A gyakorlati követelményeket a Hallgatói követelményrendszer határozza meg,
lásd ELTE_SZMSZ_II . Hallgatói követelményrendszer.pdf (külön ablakban nyílik)
- A félév során mind a két témakörből lesznek elkészítendő beadandó feladatok.
- A gyakorlati jegyet a két témakörből szerzett jegyek (felfelé kerekített) átlaga adja.
   
Tudnivalók a beadandó feladatokról
Az adatbányászati technológiák témakörből három beadandó feladatot
kell írásban elkészíteni és emailben beküldeni, majd személyesen is bemutatni.
- Az adatokról szóló leírást: az internetről letöltött szabadon választott adatokra
kell három adatbányászati módszert bemutatni. Az elemzés előtt meg kell adni
az adathalmazok leírását, a forrást: honnan és mikor töltötte le az adatokat?
Mit jelentenek az adatok? Milyen előkészítésre, adattisztításra volt szükség?
- Három adatbányászati módszert kell bemutatnia ezeken az adatokon és
erről jelentést kell készíteni, amely tartalmazza az eredmény kiértékelését. 
- Kérem, hogy a beadandóban ne a Tutorial vagy az órai demo feladatok
példáit küldjék be, hanem az internetről töltsenek le új adatokat, és azt
elemezzék, adják meg milyen adatelőkészítésre volt szükség valamint
milyen feladatokra alkalmazható az adathalmaz, végezzék el a feladatot,
végül értékeljék ki, értelmezzék az eredményt a beküldendő jelentésben.
- A félév végén személyesen is be kell mutatni a beküldött feladatokat.
   
A beadandó három feladat témaköre:
(1) Osztályozás (Bayes módszer, döntési fa, stb)
(2) Klaszterezés (k-közép, O-klaszter)
(3) Egyéb technikák (asszociációs szabályok feltárása, stb)
     
Az ODM beadandó feladatok bemutatása és a gyakorlati jegyek zárása:
 
- az utolsó gyakorlaton: május 16. csütörtök 12:00-13:30-ig 2.520 MI laborban
- a vizsgaidőszak első hetében: május 23. csütörtök12:00-13:30-ig MI laborban.
Elérhetőségem: http://people.inf.elte.hu/sila/main/fogad13f.html
              
2. Az adatbányászati rész tematikája és segédanyagai
      
Áttekintés az Oracle adatbányászat (ODM) feladatokról
A három beadanó témaköre:  gyak. Concepts Tutorial
-- Előkészítés (ODM használata)
1.f.: Adatok előkészítése 
7.gy 
7.gy
Ch.1-3
Ch.19
Ch.3   
Ch.1
(1) Osztályozás (Classification)
2.f: Naiv Bayes
3.f: Döntési fa  
4.f: Logisztikus regresszió  
5.f: SVM osztályozásra
 
7.gy
8.gy
8.gy
8.gy
   
Ch.5, 15
Ch.5, 11
Ch.5, 12
Ch.5, 18
   
Ch.5
Ch.7
---
Ch.8
(2) Csoportosítás (Clustering)
6.f: O-klaszter  
7.f:  K-közép
   
9.gy
9.gy
   
Ch.7, 17
Ch.7, 13
   
Ch.10
Ch.11
(3a) Egyéb (felügyelet nélküli)
8.f.: Asszociációs szabályok 
9.f: Rendellenességek feltárása
(3b) Egyéb (felügyelt tanulás)
10.f. Attribútum fontosság
11.f.: Lineáris regresszió  
12.f: SVM regresszióra
   
10.gy
10.gy
   
11.gy
11.gy
11.gy
   
Ch.8, 10
Ch.6, 18
   
Ch.9, 14
Ch.4, 12
Ch.4, 18
   
Ch.13
Ch.12
   
Ch.4
---
Ch.9
-- Feladatok bemutatása 12.gy.     
    
   
A TÁMOP keretében elkészült segédanyagok jelszavas könyvtárban vannak,
a jelszót kurzusmailben, e-mailben küldöm el a gyakorlatot felvett hallgatóknak.
Kérem, hogy innen használják a segédanyagot, NE tegyék publikussá az elérését,
mert azt még rendszeresen frissítem, és kérem, hogy ha hibát vagy hiányosságot
fedeznek fel, azt jelezzék személyesen vagy emailben, hogy ki tudjam azt javítani.
   
7.gyak./ODM-1.hét - 2013. április 4.

OSZTÁLYOZÁS-1
   
1.feladat: ODM- Oracle Data Miner használata, adatok előkészítése
2.feladat: Naiv Bayes osztályozásra
   
1.feladat: Oracle Data Miner használata, adatok előkészítése
Letöltés
:
Az Oracle ODM és sqldeveloper legfrissebb verziója ingyenesen letölthető
az Oracle Technology Network: otn.oracle.com oldalról (regisztráció után)
nem igényel telepítést, csak ki kell csomagolni és lehet futtatni, működik.
Letöltve: odminer 11.1 odminer-11.zip és odminer 11.2 sqldeveloper-3.zip
Demok (jelszavas könyvtárban) ODM Demos és ODM_Tutorial.pdf
      
Beállítások:
> Data Mining Administrator's Guide
Adatbányászati jogok megadása (a rendszergazdától): dmshgrants.sql
ODM 11.1 beállítások: például -> Data -> Import használatához szükséges: 
          -> Tools -> Preferences -> "SQL Loader Executable" mező kitöltése
           "C:\product\11.2.0\dbhome_1\bin\sqlldr.exe" (MI- ill. AB-labor pc)
           (saját gépen előbb egy Oracle 11g Rel2 klienst kell telepíteni a gépre)
     
Adatok előkészítése és feltárása:  
Script: dmshpelda.txt  -- az SH séma tábláiból készítsünk nézeteket: 
    CREATE VIEW <név>_v AS ... valamint ezekre a nézetekre készítsünk
    tárolt nézeteket is: CREATE MATERIALIZED VIEW <név>_mv AS ...
 
2.feladat: Osztályozás - Naiv Bayes
> TÁMOP keretében készülő segédanyag: ODM_class1.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Classification
-- Part III. Algoritmus: 15. Naive Bayes
> Példa2.1: ODM_Tutorial.pdf (lásd Chapter 5 /és 6/- Bayes)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD 
  

8.gyak./ODM-2.hét - 2013. április 11.

OSZTÁLYOZÁS-2

> Könyv: dmbook sample chapter4: Classification: Basic Concepts.pdf
> Slide: Han EA: 08ClassBasic.ppt vagy Kumar EA: chap4.pdf
3.feladat: Döntési fa osztályozásra     
4.feladat: Logisztikus regresszió osztályozásra  
5.feladat: SVM (támaszvektor) osztályozásra
 
3.feladat: Osztályozás - Döntési fa
> TÁMOP keretében készülő segédanyag: ODM_class2.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Classification
-- Part III. Algoritmus: 11. Decision Tree
> Példa3.1: ODM_Tutorial.pdf (lásd Chapter 7 - Döntési fa)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
    azonosító: CUST_ID és a célváltozó: AFFINITY_CARD
> Példa3.2: Adatok: bank-data.csv - innen: WEKA: döntési fa példa
> További adathalmazokat lásd például innen:
   >> http://www.kdnuggets.com/datasets/index.html
   >> http://archive.ics.uci.edu/ml/datasets.html
   >> http://www.cs.waikato.ac.nz/ml/weka/datasets.html
      
4.feladat: Osztályozás - Logisztikus regresszió
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Classification
-- Part III. Algoritmus: 12. Generalized Linear Models (GLM)
> Példa4.1: mining_data_build_v views : Used for data mining
    helyett mining_data_build_matv (materialized view) táblában
     
5.feladat: Támaszvektor (SVM) osztályozásra, folyt.9.gyak
> TÁMOP keretében készülő segédanyag: ODM_SVM1.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 5. Classification
-- Part III. Algoritmus: 18. Support Vector Machines
> Példa5.1: ODM_Tutorial.pdf (lásd Chapter 8)


9.gyak./ODM-3.hét - 2013. április 18.
 
CSOPORTOSÍTÁS
> Könyv: dmbook sample chapter8: Cluster Analysis
> Han EA: 10Clust.ppt  vagy Kumar EA: chap8.pdf  

6.feladat: O-klaszter klaszterezésre  
7.feladat: K-közép klaszterezésre
    
6.feladat: Csoportosítás - O klaszter
> TÁMOP keretében készülő segédanyag: ODM_clust1.pdf 
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 7. Clustering
-- Part III. Algoritmus: 17. O_Cluster
> Példa10.1: ODM_Tutorial.pdf (lásd Chapter 10)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
> Példa10.2: Adatok2: pollen.csv -> Data -> Import
   
7.feladat: Csoportosítás - k közép
> TÁMOP keretében készülő segédanyag: ODM_clust2.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 7. Clustering
-- Part III. Algoritmus: 13. k-Means 
> Példa11.1: ODM_Tutorial.pdf (lásd Chapter 11)
    mining_data_build_v views : Used for data mining helyett
    mining_data_build_matv (materialized view) táblában
> Példa11.2: Adatok2: pollen.csv -> Data -> Import
 
+ EHHEZ A TÉMÁHOZ KAPCSOLÓDÓ ELŐADÁS:
MEGHÍVÓ a ''Formális eszközök az informatikában'' szeminárium
következő előadására 2013. április 24-én (szerda) 14.15 - 15:30-ig
a Déli ép. 7.103-as (Andreanszky Gábor) teremben tartandó előadásra
- Előadó: Abonyi  János
- Az előadás címe: Csoportosítási algoritmusok és alkalmazási lehetőségeik
- Az előadás rövid kivonata: Csoportosítás során egy halmaz elemeit a csoportosítás szempontjából kiemelt tulajdonságaik alapján úgy soroljuk egymástól elkülönülő csoportokba, hogy az azonos csoportba tartozó elemek hasonlóak legyenek egymáshoz, és jelentős mértékben különbözzenek más csoportok tagjaitól. A csoportosítás tehát a vizsgált objektumok hasonlósága alapján történik. Az előadás során azt a kérdést járjuk körbe, hogy a hasonlóságmértékek célirányos megválasztásával miként generálhatók olyan algoritmusok, melyek regressziós, osztályozási, változó redukciós, és idősor-szegmentálási feladatok megoldásában hatékonyak. Illusztratív és valós alkalmazáshoz kötődő példákon túl a bemutatott algoritmusok alkalmazhatóságát támogató eszközöket is ismerteti.
- Minden kedves érdeklődőt szeretettel várunk!
   
10.gyak./ODM-4.hét - 2013. április 25.

ASSZOCIÁCIÓS szabályok, ANOMÁLIÁK feltárása
> Könyv: dmbook sample chapter6: Association Analysis.pdf
> Slide: Han EA: 06FP.ppt vagy Kumar EA: chap6.pdf
8.feladat: Asszociációs szabályok feltárása
9.feladat: SVM anomália  feltárására
     
8.feladat: Asszociációs szabályok feltárása:
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 8. Asszociáció
-- Part III. Algoritmus: 10. Apriori
> Példa8.1: ODM_Tutorial.pdf (lásd Chapter 13 - Associations)
> Példa8.2: market_basket_v view : Used for association rules
    helyett market_basket_matv (materialized view) tárol nézettáblában
> Példa8.2: Adatok2: origo-user-topic.csv -> Data -> Import
    (Origo témakörökhöz a hozzászólások, az origo oldaláról)
> További adathalmazok: data_arules  jelszavas könyvtárban,
    az adathalmazok leírását lásd például arules.pdf (r-project)  
     
+ EHHEZ A TÉMÁHOZ KAPCSOLÓDÓ ELŐADÁS:
MEGHÍVÓ a köv. gyakorlat végén 2013. május 2-án 13.00 - 13:30-ig
- Lecturer: Tiberiu Ban, Babes-Bolyai Univ., CEEPUS Student
- Title: Data Association: Applications and Supervised Learning Variations
- Short description: The Market Basket Analysis techniques of E-Commerce can also be applied and adapted to other business domains. An interesting application is in the field of education, extracting interesting knowledge from analysing mistakes made by students in Test Papers, based on the rationale that some mistakes trigger others in a chain reaction. Variations of APriori Algorithm and techniques from Supervised Learning; Extending the Mathematical Model towards a Fuzzy Approach.
      
9.feladat: Rendellenességek (anomáliák) feltárása
> TÁMOP keretében készülő segédanyag: ODM_SVM3.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 6. Rendellenességek feltárása
-- Part III. Algoritmus: 18. Support Vector Machines
> Példa9.1: ODM_Tutorial.pdf (lásd Chapter 12)  
   
11.gyak./ODM-5.hét - 2013. május 2.
 
   
REGRESSZIÓ
10.feladat: Lineáris regresszió az előrejelzésre    
11.feladat: SVM (támaszvektor) regresszióra/előrejelzésre
   
10.feladat: Regresszió/Előrejelzés - Lineáris regresszió (GLM)
> Ismétlés: stat.ea - lineáris regresszió
> TÁMOP keretében készülő segédanyag: ODM_regres.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 4. Regresszió
-- Part III. Algoritmus: 12. Generalized Linear Models (GLM)
> Példa6.1: mining_data_build_v views : Used for data mining
    helyett mining_data_build_matv (materialized view) táblában
> Példa6.2: Adatok: ksh-adatok.csv -> Data -> Import
    KSH oldaláról a települések adatai (népesség, lakásszám, stb)
   
11.feladat: Regresszió/Előrejelzés - Támaszvektor (SVM)
> A Tutorial on Support Vector Regression
> TÁMOP keretében készülő segédanyag: ODM_regres.pdf
> Alapok: Data Mining Concepts
-- Part II. Feladatok: 4. Regresszió
-- Part III. Algoritmus: 18. Support Vector Machines
> Példa7.1: ODM_Tutorial.pdf (lásd Chapter 9)
  
12.gyak./ODM-6.hét - 2013. május 16. +pótgyak. május 23
    

Az adatbányászati technológiák témakörből három beadandó feladatot
kell írásban elkészíteni és emailben beküldeni, majd személyesen is bemutatni,
részleteket lásd Tudnivalók a beadandó feladatokról
    
Az ODM beadandó feladatok bemutatása és a gyakorlati jegyek zárása:
 
- az utolsó gyakorlaton: május 16. csütörtök 12:00-13:30-ig 2.520 MI laborban
- a vizsgaidőszak első hetében: május 23. csütörtök12:00-13:30-ig MI laborban.
Elérhetőségem: http://people.inf.elte.hu/sila/main/fogad13f.html
       
A beadandó három feladat témaköre:
(1) Osztályozás (Bayes módszer, döntési fa, stb)
(2) Klaszterezés (k-közép, O-klaszter)
(3) Egyéb technikák (asszociációs szabályok feltárása, stb)
      
3. AJÁNLOTT IRODALOM ÉS HASZNOS LINKEK
   
Adathalmazok:
>> http://www.kdnuggets.com/datasets/index.html
>> http://archive.ics.uci.edu/ml/datasets.html
>> http://www.cs.waikato.ac.nz/ml/weka/datasets.html
>> A gyakorlatokon szereplő adathalmazok az órai demohoz: 
     Osztályozáshoz:   data_class  jelszavas könyvtárban   
     Regresszióhoz:  data_regres 
     Asszociációhoz:    data_arules  
     Klaszterezéshez:  data_cluster  
    
Oracle Data Minerhez:
ODM: http://www.oracle.com/technology/products/bi/odm/index.html
   Oracle Data Miner 11gR2  innen - DOWNLOAD
   Oracle Data Mining (p235) Tutorial: (forrás: innen letölthető)
   
> Oracle Database Online Documentation 11g Release2
    Elérhető a tanszéki honlapról: http://medusa.inf.elte.hu/
    Data Warehousing and Business Intelligence, Data Mining
    >> Data Mining Concepts
    >> Data Mining Application Developer's Guide
    >> Data Mining Administrator's Guide
   
SAS Enterprise Minerhez:
> Getting Started with SAS Enterprise Miner 6.1  (.pdf, 76 oldal)
> SAS Enterprise Miner 6.Extension Nodes Developer’s Guide (.pdf, 191 oldal)
> Data Mining Using SAS Enterprise Miner: A Case Study Approach (.pdf, 134 o.)
   
Adatbányászathoz:
Adatbányászat oktatása (külön lapon)
> http://www.kdnuggets.com/
   This site is an excellent source of information about data mining.
   It includes a bibliography of publications.
> http://www.twocrows.com/
   On this site, you will find the free tutorial: Introduction to Data Mining and
   Knowledge Discovery, and other useful information about data mining.
      

Vissza a főoldalra: Hajas Csilla © ELTE IK Információs Rendszerek Tanszék