Adattárházak, adatbányászati technológiák

 

(Utolsó módosítás: 2012. március 12. )

 

Tematika:

Az adatfeltárás folyamata, adatbányászat feladata. Adattárház építése, architektúrák, jellemző sémák, adatkockák szerepe, műveletei. Adatelemzések, statisztikai jellemzők, adat-transzformációk, távolságok. Asszociációs szabályok, paraméterek, algoritmusok, példák. Osztályozási feladatok, algoritmusok, döntési fák, példák. Klaszterezési feladatok, algoritmusok, példák. Adattárház építése Oracle-ben. Adatbányászat Oracle-ben, illetve weka programmal.

 

Vizsgakérdések:

1. Az adatbányászat, tudásfeltárás feladata, a tudásfeltárása folyamata, példákkal magyarázva..

2. Az adattárházak építése, architektúrák, példákkal magyarázva.

3. Az adatkockák szerepe, műveletei, példákkal magyarázva.

4. Az asszociációs szabályok előállítása, példákkal magyarázva

5. Az osztályozás feladata, a döntési fák előállítása, példákkal magyarázva.

6. A klaszterezés feladata, két klaszterező algoritmus, példákkal magyarázva.

 

 

Beadandó:

Egy-két adatbányászati cikk (legalább 10 oldalas) összefoglalása alapján magyar nyelvű legalább 10 oldalas tanulmány készítése:

A cikkek 2011-es adatbányászati konferencián szerepeltek:

http://www.kdnuggets.com/meetings/past-meetings-2011.html

A cikkeket Ti vadásszátok le a szerző oldaláról, vagy a http://scholar.google.hu/ , http://www.sciencedirect.com/ ,  http://dl.acm.org/ segítségével.

(Az utóbbiról az egyetemi előfizetés révén egyetemi IP címekről a legtöbb cikk letölthető.)

 

 

TANULMÁNY:

 

          * 1-2 cikk kiválasztása 2012. március 15-ig és ehakód.rar (a cikk pdf-ben, tömörítve) formában elküldése a 2012adatbanya@gmail.com címre

          * a tanulmány összefoglalja a cikkekben leírtakat

          * a tanulmány szerkezete:

          * Címe: Saját neved (ehakód): A téma megnevezése, amiről a cikk szól

 

1.      Rövid összefoglalás (absztrakt: kb. 10 mondat)

2.      Bevezetés (a vizsgált problémák közérthető megfogalmazása: kb. 2-3 oldal)

3.      Kapcsolódó munkák (a hivatkozásban milyen eredményeket értek el eddig: kb.0,5-1 oldal)

4.      Alapfogalmak (definíciók, tulajdonságok, módszerek, példák: kb. 4-5 oldal)

5.      Eredmények (megoldások, állítások, példák, futási eredmények: kb. 4-5 oldal)

6.      További kutatás terv (a cikkek alapján mit lehetne még vizsgálni, saját ötletek a folytatásra: 0.5-1 oldal, olyan formában, ahogy a szakdolgozat témabejelentőjében kell megadni)

7.      Irodalomjegyzék (0.5-1 oldal)

          * a tanulmány magyar nyelvű

          * az ábrák, képletek az eredeti cikkből bevághatók, ezek angol feliratait nem muszáj magyarra fordítani

          * a tanulmány ehakód.doc, illetve ehakód.pdf  nevű legyen (természetesen a saját ehakód szerepeljen a névben)

          * a vizsga előtt a 2012adatbanya@gmail.com címre kell elküldeni a következőket:

                                                               i.      ehakód.doc

                                                               ii.      ehakód.pdf

          * a vizsgára kinyomtatva is hozzátok el a tanulmányt

 

 

 

A tankönyv:

ADATBÁNYÁSZAT

KONCEPCIÓK ÉS TECHNIKÁK

Jiawei Han - Micheline Kamber

 

 

Oracle Warehouse Builder:

OWB gyorstalpaló

 

Oracle Dataminer:

fogalmak

adminisztrálás 

alkalmazás

tutorial

cikkek az alkalmazásokról például telefonos ügyfelek lemorzsolódási valószínűségének becslése

 

 

Kapható: http://www.libri.hu/konyv/adatbanyaszat-1.html

 

Az előadások anyagai:

 

1. előadás Bevezetés

2 - 4. előadás Adatok előfeldolgozása (statisztikai ismétlés)

 

1. Feladat (Excel-ben):

(kor, nem, balkezes, cipőméret, magasság, utazás az egyetemig percben, valszám jegy, statisztika jegy, adatbázis1 jegy)

- adjuk hozzá a statisztikai elemző csomagokat, ha még nincsenek aktiválva

- adatok

- Készítsünk leíró statisztikákat:

            - mi a valszám jegyek átlaga, módusza, mediánja, szórása

- Standardizáljuk a magasságot

- Készítsünk hisztogramot az utazás attribútumra

- Készítsünk pontdigaramot a (balkezes, magasság) illetve a (cipőméret, magasság)-ra

- Mennyi a (nem, balkezes) Jaccard-együtthatója

- Van-e kapcsolat a valszám jegy és az adatbázis1 jegy között a diagramok alapján   

- Készítsük el a párhuzamos koordinátákat

- további feladatokat az órán adok

 

2. feladat (Excel-ben)

- illesszünk egyenest a magasság, cipőméret pontokra, mi az egyenes két paramétere, ábrázoljuk is az egyenest a pontokkal együtt

- ábrázoljuk a magasság eloszlásfüggvényét

- transzformáljuk a -1,1 intervallumba a magasság, utazás, cipőméret attribútumokat

- adjuk meg az utazás, adatbázis-jegy, magasság (3x3-as) kovarianciamátrixát

- mennyi a valszámjegy és az adatbázis jegy korrelációs együtthatója, mire következtethetünk ebből?

- készítsünk egyenletes hosszú, majd egyenletes gyakoriságú hisztogramot az utazás attribútumra

- a cipő, magasság, utazás attribútumokra hajtsunk végre főkomponens analízist (az első főkomponens milyen lineáris kombinációként áll elő?)

 

3. feladat (Excel-ben)

- számoljuk ki a cipőméret entrópiáját

- ha két részre akarjuk vágni a cipőméret értékeit, mi legyen a vágási pont

 

4-5. előadás Adattárházak

 

4. feladat (OLAP)

Próbáljuk ki a http://www.assistmyteam.net/OLAPStatisticsAccess/ 30 napos verzióját.

Készítsünk egy adatkockát az indexbe bevitt jegyekre építve, értelmes dimenziókkal, mértékekkel, tetszőleges adatokkal

Demonstráljuk a program funkcionalitását, az OLAP műveleteket elmentett képernyőkkel.

 

6. előadás: Adatbányászat (gyakori halmazok, apriori algoritmus, asszociációs szabályok)

A weka segítségével előfeldolgozás és asszociációs szabályok, gyakori halmazok keresése

 

5. feladat Az apriori algoritmus megvalósítása JAVA-ban (apriori.jar)

Input: (TDB, min_supp, k) Output:  Lk  azaz a k elemű gyakori halmazok a TDB tranzakciós adatbázisban

Tesztelés: A dián szereplő mintafeladatra adja meg az L1, L2, L3 gyakori egyelemű, kételemű, háromelemű halmazokat 50% min_supp-ra.

 

 

 

7. előadás

Adatbányászat (osztályozás, döntési fák)

A weka segítségével osztályozási feladat megoldása

 

8. előadás

Adatbányászat (klaszterezés)

A weka segítségével klaszterezés

 

 

 

A fóliák angolul:

01(1).ppt

02(1).ppt

03(1).ppt

04(1).ppt

05(1).ppt

06(1).ppt

07(1).ppt

081.ppt 082.ppt 083.ppt 084.ppt

091.ppt 092.ppt 093.ppt

101.ppt 102.ppt

11.ppt

Sidló Csaba: Entity Resolution

 

 

 

Weka ingyenes adatbányász eszköz weboldala

Weka dokumentáció weka guide

Bemutató a weka használatáról

Letöltött telepíthető verzió (windowsra)

Bodon jegyzet Weka kiegészítésekkel magyarul (2010. januári váltoizat)

Mintaadatok weka feldolgozáshoz

Alkalmazott adatbányászat tárgy (Wekára és Oracle Dataminer használatára épül)

Wekán alapuló adatbányászati kurzus

 

 

Oracle tábla elérése wekából oracle jdbc-n keresztül (hasonlóan lehetne postgresql-t is elérhetővé tenni):

-         Töltsük le az oracle jdbc-t például a c:\Program Files\Weka-3-6 könyvtárba.

-         A weka.jar\experiment-ben a DatabaseUtils.props.oracle -t nevezzük át DatabaseUtils.props -ra.

o       Az adattípusok konverzióját (vagyis melyik oracle típusnak, melyik weka típus feleljen meg) is a DatabaseUtils.props -ban kell megadni.

Például ha szerepel a táblában ilyen adattípus, akkor be kell szúrni az int8=5 és  numeric=2 sorokat.

o       A weka.jar-t winrar-ral vagy NC-rel is meg lehet nyitni. Ha az átnevezés, editálás nem megy közvetlenül, akkor másoljuk előbb ki egy könyvtárba, editáljuk, nevezzük át, és másoljuk vissza.

-         Aki nem akarja maga átnevezni, az átnevezés utáni weka.jar -t innen letöltheti és ezzel cserélje le az eredetit.

-         A RunWeka.ini fájlban a cp útvonalak közé vegyük fel az oracle jdbc jar fájl útvonalát (/ az elválasztó jel!) és állítsuk nagyobbra mondjuk 1 gigásra a java memóriát. Ezzel a módosított RunWeka.ini -vel cseréljük le az eredetit.

-         A RunWeka.bat -tal indítsuk a wekát.

-         Az Open DB lapon lehet elérni az adatbázist. Előbb User, majd Connect műveletek után tetszőleges SQL lekérdezés kiadható. (Figyelem, ha adatkezelést csinálunk, COMMIT is kell majd a végén.)

-         A lekérdezés után az OK-ra kattintva beolvassa a memóriába az adattáblát és a weka számára átkonvertálja, és innen kezdve ugyanúgy használható, mint egy sima arff weka adatfájl.

 

 

ROC görbe: roc.pdf

Egy osztályozási esettanulmány: Paper25.pdf