Adattárházak, adatbányászati
technológiák
(Utolsó módosítás:
2012. március 12. )
Tematika:
Az adatfeltárás folyamata,
adatbányászat feladata. Adattárház építése, architektúrák, jellemző sémák, adatkockák
szerepe, műveletei. Adatelemzések, statisztikai jellemzők,
adat-transzformációk, távolságok. Asszociációs szabályok, paraméterek,
algoritmusok, példák. Osztályozási feladatok, algoritmusok, döntési fák,
példák. Klaszterezési feladatok, algoritmusok, példák. Adattárház építése
Oracle-ben. Adatbányászat Oracle-ben, illetve weka programmal.
Vizsgakérdések:
1. Az adatbányászat,
tudásfeltárás feladata, a tudásfeltárása folyamata, példákkal magyarázva..
2. Az adattárházak építése,
architektúrák, példákkal magyarázva.
3. Az adatkockák szerepe,
műveletei, példákkal magyarázva.
4. Az asszociációs
szabályok előállítása, példákkal magyarázva
5. Az osztályozás feladata,
a döntési fák előállítása, példákkal magyarázva.
6. A klaszterezés feladata,
két klaszterező algoritmus, példákkal magyarázva.
Beadandó:
Egy-két adatbányászati cikk
(legalább 10 oldalas) összefoglalása alapján magyar nyelvű legalább 10 oldalas
tanulmány készítése:
A cikkek 2011-es
adatbányászati konferencián szerepeltek:
http://www.kdnuggets.com/meetings/past-meetings-2011.html
A cikkeket Ti vadásszátok
le a szerző oldaláról, vagy a http://scholar.google.hu/
, http://www.sciencedirect.com/
, http://dl.acm.org/
segítségével.
(Az utóbbiról az egyetemi
előfizetés révén egyetemi IP címekről a legtöbb cikk letölthető.)
TANULMÁNY:
* 1-2 cikk kiválasztása 2012. március
15-ig és ehakód.rar (a cikk pdf-ben, tömörítve) formában elküldése a 2012adatbanya@gmail.com címre
* a tanulmány összefoglalja a
cikkekben leírtakat
* a tanulmány szerkezete:
* Címe: Saját neved (ehakód): A téma
megnevezése, amiről a cikk szól
1. Rövid összefoglalás (absztrakt: kb. 10
mondat)
2. Bevezetés (a vizsgált problémák
közérthető megfogalmazása: kb. 2-3 oldal)
3. Kapcsolódó munkák (a hivatkozásban milyen
eredményeket értek el eddig: kb.0,5-1 oldal)
4. Alapfogalmak (definíciók, tulajdonságok,
módszerek, példák: kb. 4-5 oldal)
5. Eredmények (megoldások, állítások,
példák, futási eredmények: kb. 4-5 oldal)
6. További kutatás terv (a cikkek alapján
mit lehetne még vizsgálni, saját ötletek a folytatásra: 0.5-1 oldal, olyan
formában, ahogy a szakdolgozat témabejelentőjében kell megadni)
7. Irodalomjegyzék (0.5-1 oldal)
* a tanulmány magyar nyelvű
* az ábrák, képletek az eredeti
cikkből bevághatók, ezek angol feliratait nem muszáj magyarra fordítani
* a tanulmány ehakód.doc, illetve
ehakód.pdf nevű legyen (természetesen a
saját ehakód szerepeljen a névben)
* a vizsga előtt a 2012adatbanya@gmail.com címre kell
elküldeni a következőket:
i. ehakód.doc
ii. ehakód.pdf
* a vizsgára kinyomtatva is hozzátok
el a tanulmányt
A tankönyv:
ADATBÁNYÁSZAT
KONCEPCIÓK ÉS TECHNIKÁK
Jiawei
Han - Micheline Kamber
Oracle Warehouse Builder:
Oracle Dataminer:
cikkek
az alkalmazásokról például telefonos
ügyfelek lemorzsolódási valószínűségének becslése
Kapható: http://www.libri.hu/konyv/adatbanyaszat-1.html
Az előadások anyagai:
1. előadás Bevezetés
2 - 4. előadás Adatok előfeldolgozása (statisztikai ismétlés)
1. Feladat (Excel-ben):
(kor, nem, balkezes,
cipőméret, magasság, utazás az egyetemig percben, valszám jegy, statisztika
jegy, adatbázis1 jegy)
- adjuk hozzá a
statisztikai elemző csomagokat, ha még nincsenek aktiválva
- adatok
- Készítsünk leíró
statisztikákat:
- mi a valszám jegyek átlaga, módusza, mediánja, szórása
- Standardizáljuk a
magasságot
- Készítsünk hisztogramot
az utazás attribútumra
- Készítsünk pontdigaramot
a (balkezes, magasság) illetve a (cipőméret, magasság)-ra
- Mennyi a (nem, balkezes)
Jaccard-együtthatója
- Van-e kapcsolat a valszám
jegy és az adatbázis1 jegy között a diagramok alapján
- Készítsük el a párhuzamos
koordinátákat
- további feladatokat az
órán adok
2.
feladat (Excel-ben)
- illesszünk egyenest a
magasság, cipőméret pontokra, mi az egyenes két paramétere, ábrázoljuk is az
egyenest a pontokkal együtt
- ábrázoljuk a magasság eloszlásfüggvényét
- transzformáljuk a -1,1
intervallumba a magasság, utazás, cipőméret attribútumokat
- adjuk meg az utazás,
adatbázis-jegy, magasság (3x3-as) kovarianciamátrixát
- mennyi a valszámjegy és
az adatbázis jegy korrelációs együtthatója, mire következtethetünk ebből?
- készítsünk egyenletes
hosszú, majd egyenletes gyakoriságú hisztogramot az utazás attribútumra
- a cipő, magasság, utazás
attribútumokra hajtsunk végre főkomponens
analízist (az első főkomponens milyen lineáris kombinációként áll elő?)
3.
feladat (Excel-ben)
- számoljuk ki a cipőméret
entrópiáját
- ha két részre akarjuk
vágni a cipőméret értékeit, mi legyen a vágási pont
4-5. előadás Adattárházak
4. feladat (OLAP)
Próbáljuk ki a http://www.assistmyteam.net/OLAPStatisticsAccess/
30 napos verzióját.
Készítsünk egy adatkockát
az indexbe bevitt jegyekre építve, értelmes dimenziókkal, mértékekkel,
tetszőleges adatokkal
Demonstráljuk a program
funkcionalitását, az OLAP műveleteket elmentett képernyőkkel.
6. előadás: Adatbányászat (gyakori halmazok, apriori algoritmus,
asszociációs szabályok)
A weka segítségével
előfeldolgozás és asszociációs szabályok, gyakori halmazok keresése
5. feladat Az apriori
algoritmus megvalósítása JAVA-ban (apriori.jar)
Input: (TDB, min_supp, k)
Output: Lk azaz a k elemű gyakori halmazok a TDB
tranzakciós adatbázisban
Tesztelés: A dián szereplő
mintafeladatra adja meg az L1, L2, L3 gyakori
egyelemű, kételemű, háromelemű halmazokat 50% min_supp-ra.
7. előadás
Adatbányászat
(osztályozás, döntési fák)
A weka segítségével
osztályozási feladat megoldása
8. előadás
A weka
segítségével klaszterezés
A fóliák angolul:
081.ppt
082.ppt 083.ppt 084.ppt
Sidló Csaba: Entity Resolution
Weka ingyenes adatbányász eszköz
weboldala
Letöltött
telepíthető verzió (windowsra)
Bodon
jegyzet Weka kiegészítésekkel magyarul (2010. januári váltoizat)
Mintaadatok weka
feldolgozáshoz
Alkalmazott
adatbányászat tárgy (Wekára és Oracle Dataminer használatára épül)
Wekán alapuló
adatbányászati kurzus
Oracle tábla elérése
wekából oracle jdbc-n keresztül (hasonlóan lehetne postgresql-t is elérhetővé
tenni):
-
Töltsük le az oracle jdbc-t például a c:\Program Files\Weka-3-6
könyvtárba.
-
A
weka.jar\experiment-ben a DatabaseUtils.props.oracle -t nevezzük át
DatabaseUtils.props -ra.
o
Az adattípusok
konverzióját (vagyis melyik oracle típusnak, melyik weka típus feleljen meg) is
a DatabaseUtils.props -ban kell megadni.
Például
ha szerepel a táblában ilyen adattípus, akkor be kell szúrni az int8=5 és numeric=2 sorokat.
o
A weka.jar-t
winrar-ral vagy NC-rel is meg lehet nyitni. Ha az átnevezés, editálás nem megy
közvetlenül, akkor másoljuk előbb ki egy könyvtárba, editáljuk, nevezzük át, és
másoljuk vissza.
-
Aki nem akarja
maga átnevezni, az átnevezés utáni weka.jar -t innen
letöltheti és ezzel cserélje le az eredetit.
-
A RunWeka.ini
fájlban a cp útvonalak közé vegyük fel az oracle jdbc jar fájl útvonalát (/ az
elválasztó jel!) és állítsuk nagyobbra mondjuk 1 gigásra a java memóriát. Ezzel
a módosított RunWeka.ini -vel cseréljük le az
eredetit.
-
A RunWeka.bat
-tal indítsuk a wekát.
-
Az Open DB
lapon lehet elérni az adatbázist. Előbb User, majd Connect műveletek után
tetszőleges SQL lekérdezés kiadható. (Figyelem, ha adatkezelést csinálunk,
COMMIT is kell majd a végén.)
-
A lekérdezés
után az OK-ra kattintva beolvassa a memóriába az adattáblát és a weka számára
átkonvertálja, és innen kezdve ugyanúgy használható, mint egy sima arff weka
adatfájl.
ROC görbe: roc.pdf
Egy osztályozási
esettanulmány: Paper25.pdf