Adattárházak, adatbányászati
technológiák
Tematika:
Az adatfeltárás folyamata,
adatbányászat feladata. Adattárház építése, architektúrák, jellemző sémák,
adatkockák szerepe, műveletei. Adatelemzése, statisztikai jellemzők,
adat-transzformációk, távolságok. Asszociációs szabályok, paraméterek,
algoritmusok, példák. Osztályozási feladatok, algoritmusok, döntési fák,
példák. Klaszterezési feladatok, algoritmusok, példák. Adattárház építése
Oracle-ben. Adatbányászat Oracle-ben, illetve weka programmal.
Vizsgakérdések:
1. Az adatbányászat,
tudásfeltárás feladata, a tudásfeltárása folyamata, példákkal magyarázva..
2. Az adattárházak építése,
architektúrák, példákkal magyarázva.
3. Az adatkockák szerepe,
műveletei, példákkal magyarázva.
4. Az asszociációs
szabályok előállítása, példákkal magyarázva
5. Az osztályozás feladata,
a döntési fák előállítása, példákkal magyarázva.
6. A klaszterezés feladata,
két klaszterező algoritmus, példákkal magyarázva.
Vizsganapok az ETR-ben meghirdetésre kerültek (minden kedden 10-12, június 28 csak UV!!!)
Szakdolgozat, diploma, TDK, doktori témák: http://people.inf.elte.hu/kiss/Temak2011.doc
Beadandó:
A tankönyv szerzőjének
http://www.cs.uiuc.edu/~hanj/pubs/index.htm
valamelyik legalább 10
oldalas cikke alapján magyar nyelvű legalább 10 oldalas tanulmány készítése:
TANULMÁNY:
* 1 cikk kiválasztása 2011. március
1-ig és ehakód.rar (a cikk pdf-ben, tömörítve) formában elküldése a
2011beadando@gmail.com címre
* a cikk 2004 után íródott
* a tanulmány összefoglalja a cikkben
leírtakat
* a tanulmány szerkezete:
* Címe: Saját neved (ehakód): A téma
megnevezése, amiről a cikk szól
1. Rövid összefoglalás (absztrakt: kb. 10
mondat)
2. Bevezetés (a vizsgált problémák
közérthető megfogalmazása: kb. 2-3 oldal)
3. Kapcsolódó munkák (a hivatkozásban milyen
eredményeket értek el eddig: kb.0,5-1 oldal)
4. Alapfogalmak (definíciók, tulajdonságok,
módszerek, példák: kb. 4-5 oldal)
5. Eredmények (megoldások, állítások,
példák, futási eredmények: kb. 4-5 oldal)
6. További kutatás terv (a cikkek alapján
mit lehetne még vizsgálni, saját ötletek a folytatásra: 0.5-1 oldal, olyan
formában, ahogy a szakdolgozat témabejelentőjében kell megadni)
7. Irodalomjegyzék (0.5-1 oldal)
* a tanulmány magyar nyelvű
* az ábrák, képletek az eredeti
cikkből bevághatók, ezek angol feliratait nem muszáj magyarra fordítani
* a tanulmány ehakód.doc, illetve
ehakód.pdf nevű legyen (természetesen a
saját ehakód szerepeljen a névben)
* a vizsga előtt a 2011beadando@gmail
címre kell elküldeni a következőket:
i. ehakód.doc
ii. ehakód.pdf
* a vizsgára kinyomtatva is hozzátok
el a tanulmányt
A tankönyv:
ADATBÁNYÁSZAT
KONCEPCIÓK ÉS TECHNIKÁK
Jiawei
Han - Micheline Kamber
Oracle Warehouse Builder:
Oracle Dataminer:
cikkek
az alkalmazásokról például telefonos
ügyfelek lemorzsolódási valószínűségének becslése
Kapható: http://www.libri.hu/konyv/adatbanyaszat-1.html
Az előadások anyagai:
081.ppt
082.ppt 083.ppt 084.ppt
Sidló Csaba: Entity Resolution
Weka ingyenes adatbányász eszköz
weboldala
Letöltött
telepíthető verzió (windowsra)
Bodon
jegyzet Weka kiegészítésekkel magyarul (2010. januári váltoizat)
Mintaadatok weka
feldolgozáshoz
Alkalmazott
adatbányászat tárgy (Wekára és Oracle Dataminer használatára épül)
Wekán alapuló
adatbányászati kurzus
Oracle tábla elérése
wekából oracle jdbc-n keresztül (hasonlóan lehetne postgresql-t is elérhetővé
tenni):
-
Töltsük le az oracle jdbc-t például a c:\Program Files\Weka-3-6
könyvtárba.
-
A
weka.jar\experiment-ben a DatabaseUtils.props.oracle -t nevezzük át
DatabaseUtils.props -ra.
o
Az adattípusok
konverzióját (vagyis melyik oracle típusnak, melyik weka típus feleljen meg) is
a DatabaseUtils.props -ban kell megadni.
Például
ha szerepel a táblában ilyen adattípus, akkor be kell szúrni az int8=5 és numeric=2 sorokat.
o
A weka.jar-t
winrar-ral vagy NC-rel is meg lehet nyitni. Ha az átnevezés, editálás nem megy
közvetlenül, akkor másoljuk előbb ki egy könyvtárba, editáljuk, nevezzük át, és
másoljuk vissza.
-
Aki nem akarja
maga átnevezni, az átnevezés utáni weka.jar -t innen
letöltheti és ezzel cserélje le az eredetit.
-
A RunWeka.ini
fájlban a cp útvonalak közé vegyük fel az oracle jdbc jar fájl útvonalát (/ az
elválasztó jel!) és állítsuk nagyobbra mondjuk 1 gigásra a java memóriát. Ezzel
a módosított RunWeka.ini -vel cseréljük le az
eredetit.
-
A RunWeka.bat
-tal indítsuk a wekát.
-
Az Open DB
lapon lehet elérni az adatbázist. Előbb User, majd Connect műveletek után
tetszőleges SQL lekérdezés kiadható. (Figyelem, ha adatkezelést csinálunk,
COMMIT is kell majd a végén.)
-
A lekérdezés
után az OK-ra kattintva beolvassa a memóriába az adattáblát és a weka számára
átkonvertálja, és innen kezdve ugyanúgy használható, mint egy sima arff weka
adatfájl.
ROC görbe: roc.pdf
Egy osztályozási
esettanulmány: Paper25.pdf