Adattárházak, adatbányászati technológiák

 

Tematika:

Az adatfeltárás folyamata, adatbányászat feladata. Adattárház építése, architektúrák, jellemző sémák, adatkockák szerepe, műveletei. Adatelemzése, statisztikai jellemzők, adat-transzformációk, távolságok. Asszociációs szabályok, paraméterek, algoritmusok, példák. Osztályozási feladatok, algoritmusok, döntési fák, példák. Klaszterezési feladatok, algoritmusok, példák. Adattárház építése Oracle-ben. Adatbányászat Oracle-ben, illetve weka programmal.

 

Vizsgakérdések:

1. Az adatbányászat, tudásfeltárás feladata, a tudásfeltárása folyamata, példákkal magyarázva..

2. Az adattárházak építése, architektúrák, példákkal magyarázva.

3. Az adatkockák szerepe, műveletei, példákkal magyarázva.

4. Az asszociációs szabályok előállítása, példákkal magyarázva

5. Az osztályozás feladata, a döntési fák előállítása, példákkal magyarázva.

6. A klaszterezés feladata, két klaszterező algoritmus, példákkal magyarázva.

 

 

Vizsganapok az ETR-ben meghirdetésre kerültek (minden kedden 10-12, június 28 csak UV!!!)

 

Szakdolgozat, diploma, TDK, doktori témák: http://people.inf.elte.hu/kiss/Temak2011.doc

 

 

 

Beadandó:

A tankönyv szerzőjének

http://www.cs.uiuc.edu/~hanj/pubs/index.htm

valamelyik legalább 10 oldalas cikke alapján magyar nyelvű legalább 10 oldalas tanulmány készítése:

 

TANULMÁNY:

 

          * 1 cikk kiválasztása 2011. március 1-ig és ehakód.rar (a cikk pdf-ben, tömörítve) formában elküldése a 2011beadando@gmail.com címre

          * a cikk 2004 után íródott

          * a tanulmány összefoglalja a cikkben leírtakat

          * a tanulmány szerkezete:

          * Címe: Saját neved (ehakód): A téma megnevezése, amiről a cikk szól

 

1.      Rövid összefoglalás (absztrakt: kb. 10 mondat)

 

2.      Bevezetés (a vizsgált problémák közérthető megfogalmazása: kb. 2-3 oldal)

 

3.      Kapcsolódó munkák (a hivatkozásban milyen eredményeket értek el eddig: kb.0,5-1 oldal)

 

4.      Alapfogalmak (definíciók, tulajdonságok, módszerek, példák: kb. 4-5 oldal)

 

5.      Eredmények (megoldások, állítások, példák, futási eredmények: kb. 4-5 oldal)

 

6.      További kutatás terv (a cikkek alapján mit lehetne még vizsgálni, saját ötletek a folytatásra: 0.5-1 oldal, olyan formában, ahogy a szakdolgozat témabejelentőjében kell megadni)

 

7.      Irodalomjegyzék (0.5-1 oldal)

 

          * a tanulmány magyar nyelvű

          * az ábrák, képletek az eredeti cikkből bevághatók, ezek angol feliratait nem muszáj magyarra fordítani

          * a tanulmány ehakód.doc, illetve ehakód.pdf  nevű legyen (természetesen a saját ehakód szerepeljen a névben)

          * a vizsga előtt a 2011beadando@gmail címre kell elküldeni a következőket:

 

                                                               i.      ehakód.doc

 

                                                             ii.      ehakód.pdf

 

          * a vizsgára kinyomtatva is hozzátok el a tanulmányt

 

 

 

A tankönyv:

ADATBÁNYÁSZAT

KONCEPCIÓK ÉS TECHNIKÁK

Jiawei Han - Micheline Kamber

 

 

Oracle Warehouse Builder:

OWB gyorstalpaló

 

Oracle Dataminer:

fogalmak

adminisztrálás 

alkalmazás

tutorial

cikkek az alkalmazásokról például telefonos ügyfelek lemorzsolódási valószínűségének becslése

 

 

Kapható: http://www.libri.hu/konyv/adatbanyaszat-1.html

 

Az előadások anyagai:

01(1).ppt

02(1).ppt

03(1).ppt

04(1).ppt

05(1).ppt

06(1).ppt

07(1).ppt

081.ppt 082.ppt 083.ppt 084.ppt

091.ppt 092.ppt 093.ppt

101.ppt 102.ppt

11.ppt

Sidló Csaba: Entity Resolution

 

 

 

Weka ingyenes adatbányász eszköz weboldala

Weka dokumentáció weka guide

Bemutató a weka használatáról

Letöltött telepíthető verzió (windowsra)

Bodon jegyzet Weka kiegészítésekkel magyarul (2010. januári váltoizat)

Mintaadatok weka feldolgozáshoz

Alkalmazott adatbányászat tárgy (Wekára és Oracle Dataminer használatára épül)

Wekán alapuló adatbányászati kurzus

 

 

Oracle tábla elérése wekából oracle jdbc-n keresztül (hasonlóan lehetne postgresql-t is elérhetővé tenni):

-         Töltsük le az oracle jdbc-t például a c:\Program Files\Weka-3-6 könyvtárba.

-         A weka.jar\experiment-ben a DatabaseUtils.props.oracle -t nevezzük át DatabaseUtils.props -ra.

o       Az adattípusok konverzióját (vagyis melyik oracle típusnak, melyik weka típus feleljen meg) is a DatabaseUtils.props -ban kell megadni.

Például ha szerepel a táblában ilyen adattípus, akkor be kell szúrni az int8=5 és  numeric=2 sorokat.

o       A weka.jar-t winrar-ral vagy NC-rel is meg lehet nyitni. Ha az átnevezés, editálás nem megy közvetlenül, akkor másoljuk előbb ki egy könyvtárba, editáljuk, nevezzük át, és másoljuk vissza.

-         Aki nem akarja maga átnevezni, az átnevezés utáni weka.jar -t innen letöltheti és ezzel cserélje le az eredetit.

-         A RunWeka.ini fájlban a cp útvonalak közé vegyük fel az oracle jdbc jar fájl útvonalát (/ az elválasztó jel!) és állítsuk nagyobbra mondjuk 1 gigásra a java memóriát. Ezzel a módosított RunWeka.ini -vel cseréljük le az eredetit.

-         A RunWeka.bat -tal indítsuk a wekát.

-         Az Open DB lapon lehet elérni az adatbázist. Előbb User, majd Connect műveletek után tetszőleges SQL lekérdezés kiadható. (Figyelem, ha adatkezelést csinálunk, COMMIT is kell majd a végén.)

-         A lekérdezés után az OK-ra kattintva beolvassa a memóriába az adattáblát és a weka számára átkonvertálja, és innen kezdve ugyanúgy használható, mint egy sima arff weka adatfájl.

 

 

ROC görbe: roc.pdf

Egy osztályozási esettanulmány: Paper25.pdf