A 2005/2006. tanév tavaszi 2. félévében
ELTE, 5PTM „Az információ-kezelés elmélete és gyakorlata/4.”
SAS GYAKORLAT RÉSZE (Hajas Csilla, gyakorlat vezető)

 

Ez az oldal az ELTE IK hallgatói számára tartalmaz csak szervezési információt.

1. Hasznos linkek

2. Ált. infó a gyak-ról

3. SAS gyakorlatok

1.1. Ajánlott irodalom

2.1. A gyak. beosztása

3.1. A gyak. 2005-ös diái

1.2. Adatbányászati oldalak

2.2. A gyak. tematikája

3.2. mintapéldái (jelszóval)

1.3. SAS oktatási oldalak

2.3. Gépes számonkérés

3.3. Gyak.eredm.(kóddal)

1. Hasznos linkek

1.1. Ajánlott irodalom

[AZ]
[HK]
[IA2]


P.Adriaans-D.Zatinge: IT - Adatbányászat, Panem, 2004.
J.Han-M.Kamber: Adatbányászat – Koncepciók és technikák, Panem, 2004.
Iványi Antal (szerk.): Informatikai algoritmusok II., ELTE Eötvös Kiadó, 2005.
                                28. fejezet Gyakori elemhalmazok keresése (Bodon Ferenc)
                                29. fejezet Klaszterezés (Fogaras Dániel és Lukács András)

1.2. Adatbányászati oldalak

·        Jeffrey D. Ullman honlapján Data Mining Lecture Notes oktatási anyag

·        Bodon Ferenc (BME) Adatbányászat

·        Grolmusz Vince (ELTE) Adatbányászat szeminárium

·        Lukács András (ELTE-SZTAKI) Adatbányászat előadás

·        Lukács András (ELTE-SZTAKI) Adatbányászat szeminárium

·        Sidló Csaba (ELTE) Data Warehouse - Adattárház

·        SZTAKI Data Mining and Web Search Group

·        Adatbanyaszat.lap.hu

·        Magyar Adatbányászok Honlapja

1.3. SAS oktatási oldalak

·        SAS honlapja: SAS      SAS OnlineDoc

·        SAS Magyarország      SAS Egyetemi Program az ELTE-n

·        Egyetemi Program        SAS diákklubja: SAS Masters' Club

·        SAS nemzetközi sikerek: SAS/Success Stories

·        SAS néhány magyarországi ügyfele: Magyar Külkereskedelmi Bank, CIB Bank,
OTP Bank, HVB Bank, Budapest Bank, Magyar Cetelem Bank, Inter-Európa Bank,
K&H, Volksbank, Erste Bank, Generali-Providencia, Uniqa Biztosító, APEH, KSH,
MÁV, Shell, Richter, EGIS, Sanofi-Aventis, Pannon, T-Mobile, ACNielsen, stb.

·        UCLA > Stat.Comp. > SAS Resources to help you learn and use SAS

·        Molnár András (ELTE, 2005-ös diái) lásd SAS Programozás

·        Sidló Csaba (ELTE, 2005-ös diái) lásd SAS/Enterprise Miner


2. Általános információ a gyakorlatokról

2.1. A gyakorlatok beosztása és célkitűzése

„Az információ-kezelés elmélete és gyakorlata/4.” tantárgy gyakorlata négy csoportban az
00-807 Adatbázis-laborban van az ELTE 5.éves programtervező matematikusok részére.
Ebben a félévben két fő témakört dolgozunk fel, különböző gyakorlat-vezetőkkel:
1.témakör: XML (Vincellér Zoltán, Hernáth Zsolt) – a félév első felében (első hat alkalom),
2.témakör: SAS  (Hajas Csilla) – a félév második felében (2006. március 30-tól-május 19-ig)
„The SAS System, Release 8.2 for Windows” környezetben a SAS rendszer áttekintése.

Célkitűzés: SAS programozási alapok elsajátítása,
a SAS eszközeire épülő magas szintű adatfeldolgozás,
statisztikai elemzések a SAS/Enterprise Guide szoftverrel,
adatbányászat a SAS/Enterprise Miner szoftverrel.

 

Csütörtök

Péntek

 

 

 

Csütörtök

Péntek

10:00

10:00 – 11:30

 

 

XML

1.hét

02.16

02.17

10:30

00-807 AB-labor

 

 

 

2.hét

02.23

02.24

11:00

5PTM/IK4/gy4

 

 

 

3.hét

03.02

03.03

11:30

 

 

 

 

4.hét

03.09

03.10

12:00

11:45 – 13:15

 

 

 

5.hét

03.16

03.17

12:30

00-807 AB-labor

 

 

 

6.hét

03.23

03.24

13:00

5PTM/IK4/gy1

 

 

SAS

1.hét

03.30

03.31

13:30

 

13:30 – 15:00

 

 

2.hét

04.06

04.07

14:00

 

00-807 AB-labor

 

Tavaszi

szünet

04.13

04.14

14:30

 

5PTM/IK4/gy2

 

 

3.hét

04.20

04.21

15:00

 

 

 

 

4.hét

04.27

04.28*

15:30

 

15:15 – 16:45

 

 

5.hét

05.04

05.05

16:00

 

00-807 AB-labor

 

Eötvös-

Pázmány

05.11

05.12

16:30

 

5PTM/IK4/gy3

 

 

6.hét

05.18

05.19

 


*04.28-án pénteken az Adatbázis laborban az eScience Regionális Egyetemi Tudásközpont
és az Informatikai Kar szervezésében egész napos GRID tanfolyam van, ezért ezen a héten
a pénteki gyakorlat előbb, 04.27 csütörtökön lesz megtartva, három időpontból választhat:
04.27 csütörtök 10:00-11:30 (gy4) vagy 11:45-13:15 (gy1) vagy 18:30-20:00 (pótgyak).


2006. április 6. szerdán 8:15 – 9:45-ig az előadás időpontjában és helyén 0-803 teremben
SAS bemutatót, a SAS labor gyakorlataihoz elméleti összefoglaló előadást tartok:
* SAS siker és referencia történetek, hol és milyen célből használják a SAS-t,
* Tudásfeltárás (KDD – Knowledge Discovery in Databases) főbb lépései,
* OLTP-OLAP rendszerek, Adattárházak (Data Warehousing),
* Adatbányászat (Data Mining), SEMMA (SAS adatbányászati eszközök),
* SAS rendszer áttekintése, SAS programok, Proc step és Data step példák,
* SAS Enterprise Guide, SAS Enterprise Miner eszköztár bemutatása.

Az előadás sasea.ppt diáit lásd 3.2. A SAS gyakorlatok órai mintapéldái (jelszóval)


2.2. A gyakorlatok tematikája

A vastag betűvel jelöltem az utolsó gyakorlat gépes számonkérésre kiemelt feladatait.

SAS 1.hét
márc.30/31.

SAS Programok
PROC step /1

SAS rendszer, SAS fejlesztő környezet:
Explorer, Enhanced editor, Log, Output.
SAS terminológia: SAS data set (tábla)
változó (oszlop), obs/megfigyelés (sor).
SAS programok: DATA step, PROC step.
PROC steps (részletesen): proc contents,
proc print, proc sort, proc freq, proc means.

SAS 2.hét
ápr.06/07.

SAS Programok
PROC step /2
DATA step

PROC steps (folyt.): riportok, proc report,
proc tabulate, proc gchart, proc gplot.
DATA steps: infile, input (SAS data sets
létrehozása, nyersadatok beolvasása)
file, put (kiíratás SAS data sets-ből, stb).
Változók használata: drop, keep.
Összefűzés/fésülés: append, merge.
Az if elágazás és a ciklusutasítások.

SAS 3.hét
ápr.20/21.

Enterprise Guide /1

Enterprise Guide fejlesztő környezet,
”point-and-click client”, interaktív tasks.
Adatok beolvasása, szerkesztése, nézete.
Tasks (részletesen): Query Builder (select),
List Data (proc print) reportok készítése,
Summary Statistics (proc means) mat.stat,
Table Analysis (proc freq) keresztáblázatok,
Graph: pl. Bar Chart, Pie Chart (proc gchart).

SAS 4.hét
ápr.27.csüt.

Enterprise Guide /2







Enterprise Miner /1

Enterprise Guide STAT elemzések:
Summary Statistics (proc means)+ box plot
       (proc gplot), histogram (proc univariate),
ANOVA (szóráselemzés), Hipotézisvizsgálat:
t Test (proc ttest) egy-és kétmintás t-próba,
Distribution Analysis (illeszkedés-vizsgálat),
Correlations (korreláció-számítás, proc corr),
Regression (regresszió-számítás, proc reg),
Visszatérve The SAS Systems környezetbe:
Import Data (pl. Microsoft Excel *.xls-ből),
Solutions -> Analysis -> Enterprise Miner,
adatbányászati algoritmusok áttekintés,
a SAS Enterprise Miner eszköztára.

SAS 5.hét
máj.04/05.

Enterprise Miner /2


SEMMA:
1. Sample (minta):

2. Explore (feltárás):



3. Modify (adatm.):


4. Model (modell):

5. Assess (kiérték.):

SAS EM használata (library létrehozása,
       adatfájl importálása -> sas dataset,
       EM project és diagram létrehozása)
SAS adatbányászati eszközök csoportosítása:
Input Data Source, Sampling (mintavétel),
Data Partition (training, validation, test data)
Distribution Explorer (hisztogram)
Multiplot (bar chart, scatter plot),
Insight (statisztikai elemzés),
Association (asszociációs szabály keresés)
Filter Outliers (kiugró értékek kiszűrése),
Replacement (hiányzó értékek pótlása),
Clustering (klaszterezés), egyéb.
Regression (regresszió-számítás),
Tree (döntési fa), N.Network (neurális háló).
Assessment, Reporter (beszámoló).

SAS 6.hét
máj.18/19.

Gépes számonkérés

Egyszerűbb feladatok megoldása
SAS programok formájában.

2.3. A gépes számonkérésről

Gyakorlati jegyet csak az szerezhet, aki az XML és SAS részt is teljesítette:
XML beadandót a tavaszi szünet utáni első hétig kell elküldeni, majd
          e-mailben előre egyeztetett időpontban a gyakorlat vezetőnek kell
          személyesen bemutatni a programot még a szorgalmi időszak alatt.
SAS  gépes számonkérés az utolsó gyakorlatokon 2006.május 18-19-én
         SAS zárthelyi feladatok megoldása SAS program formájában.

Tudnivalók a SAS zárthelyiről:

Minden (saját) írott, nyomtatott segédeszköz használható, továbbá a SAS Help, órai példák,
az internetről a SAS honlapjáról, egyetemi honlapokról letölthető SAS oktatási anyagok, stb.
De csak önálló munkát értékelek! E-mailezni vagy egyéb módon üzengetni a zh alatt tilos!
A kiosztott feladatlapot be kell adni, írja rá a nevét, e-mail címét és az ETR-azonosítóját,
a feladatlapon konkrét kérdések is találhatók az eredményekkel kapcsolatban, amelyekre
a választ a feladatlap kitöltésével kell megadni. Öt kisebb feladat lesz, mindegyik feladatot
egymásra épülő szinteken lehet megoldani: a 2-es jegyhez elég a legalapvetőbb SAS ismeret:
az adott feladathoz melyik lépést illetve melyik részt kell használni (az alapbeállításokkal),
a 3-as, 4-es jegyhez értékelnie kell a kapott eredményt, válaszolnia a feladatlap kérdéseire,
a 4-es, 5-ös jegyhez tudnia kell a feladatnak megfelelő finomabb beállításokat értelmezni,
A feladatokban szereplő SAS adattáblák a ZH alatt letölthetők lesznek a feladatlapon
feltüntetett helyről. Sokféle feladatlap lesz, így mindenki különböző táblákból dolgozhat.

Az első három feladat megoldásait a SAS programozási nyelvén (DATA és PROC steps
- lépésekkel) kell megadni, a kód lehet SAS Enterprise Guide által generált SAS kód is.
A programokat lefuttatva a Log” tartalmát összefűzve egyetlen fájlban helyezze el.
A 4. és 5. feladatot a SAS Enterprise Minerrel végezze el, a „Results” - eredményből
ezeknél a feladatoknál a Log-on kívül az „Output” lap tartalmát is másolja be a fájlba.
Kérem, hogy a fájlban a feladatlapon megadott kérdések sorrendjét kövesse valamint
megjegyzésekkel világosan különítse el, hogy melyik rész melyik feladathoz tartozik.
A fájl neve SASZH_ ETR-azon.txt legyen, ahol az ETR-azon helyére írja be a saját ETR
azonosítóját (.ELTE nélkül). Ha kész van, akkor szólni kell, mert együtt küldjük el a fájlt
e-mailben csatolva a sila@inf.elte.hu címre, itt is a subject: SASZH_ETR-azon.
Egyébként e-mailezni tilos! Az eredmények egy héten belül elérhetők lesznek a honlapon.


3. SAS gyakorlatok

3.1. Molnár András és Sidló Csaba 2005-ös diái

SAS Programozás és Enterprise Guide

Molnár András diái

Bevezetés, OLAP rendszerek, adattárház-áttekintés
SAS rendszer, SAS programozás/ PROC step
SAS programozás/ DATA step
Statisztikai elemzések SAS Enterprise Guide-dal

intro.ppt
sasbase.ppt
datastep.ppt
guide.ppt

SAS/Enterpise Miner és Adatbányászat

Sidló Csaba diái

Adatbányászat, SAS EM eszköztára, Association
Osztályozás, előrejelzés, modellépítés, Clustering

eminer1.ppt
eminer2.ppt

3.2. A SAS gyakorlatok órai mintapéldái (jelszóval)

A gyakorlatok tematikája, lásd a korábbi menüpontban: 2.2. A gyakorlatok tematikája
A gyakorlatok és az ápr.6-i előadás diái (ppt), az órai SAS mintapéldák: csak jelszóval
ahol a könyvtár szerkezete:

SAS_Slide

SAS_Story
SAS_DataSets
SAS_Base
SAS_EGuide
SAS_EMiner

*.ppt

*.pdf
*.sas7bdat
*.sas
*.seg
*.dmp, *.dmd

sasea.ppt: SAS bemutató/összefoglaló előadás (ápr.6)
za_statea.ppt: Zempléni EA alapján mat.stat.összefogl.
SAS siker- és referencia történetek (SAS oldaláról)
SAS System DataSets (illetve *.xls, *.txt adatok)
SAS System PROC steps és DATA steps
SAS Enterprise Guide Project File
SAS Enterprise Miner Project File és EM Diagram

 

3.3. A gyakorlatok eredménye (Név helyett 3 karakteres kóddal)

A gyakorlati jegyet az XML beadandóra (e-mailben előre egyeztetett időpontban
a gyakorlat vezetőnek személyesen bemutatott programra) kapott „XML jegy
és a SAS gyakorlatokon szerzett „SAS jegy” átlaga adja meg, felfelé kerekítve.

A „SAS jegy-re a gyakolati aktivitás alapján a legjobbaknak megajánlom a jegyet,
a 3., 4. és 5. gyakorlatokon beadott feladatokra 2-2 pont, összesen 6 pont szerezhető,
ami alapján 4 pontra jó(4), 5 pontra 4/5, 6 pontra jelest(5) SAS jegyet ajánlok meg.
A 6. SAS gyakorlaton 2006.május 18-19-én gépes számonkérés lesz a SAS-ból,
Azoknak nem kötelező, akiknek van megajánlott SAS jegye (bár ha kedvük van,
gyakorlásként megírhatják), akiknek nincs megajánlott SAS jegye a zh-n elért pontok
alapján kapnak SAS jegyet (a korábban szerzett pontokat náluk is figyelembe veszem).
A gépes SAS zh-n 5 feladat * 2 pont = 10 pontot lehet elérni. Az eredményben 1 pont
fél jegyet jelent, így 1 pont 1/2, 2 pont elégséges(2), 3 pont 2/3, 4 pont közepes(3),
5 pont 3/4, 6 pont jó(4), 7 pont 4/5 és 8 ponttól jeles(5)SAS jegy-et lehet szerezni.

JavítóZH: május 29 hétfő 12 – 14 óra között. Kérem a Hallgatókat, akik JavítóZH-t
kívánnak írni, előtte legkésőbb hétfő reggel 10h-ig e-mailben jelentkezzenek a ZH-ra!


Az alábbi táblázat fejlécében KOD (hárombetűs VEU rövidítés: VEzetéknév+Utónév)
Gépes zh.időpontjában a ! jelzi ha másik csoportba jár, mint az ETR-ben jelentkezett,  
SAS jelen+ jelenléti ív, az öt gyakorlatból hányszor vett részt, ennek nincs jelentősége,
SAS órai+ a beadott órai feladatokon szerzett +pontok, ez alapján van jegymegajánlás,
ZH pont oszlopban „A” jelzi, ha „ajánlott” SAS jegy, egyébként a ZH-n szerzett pont.

#

KOD

ETR
csop.

XML
jegy

Gépes
zh.időp.

SAS
jelen+

SAS
órai+

ZH
pont

SAS
jegy

Gyak.jegy

1

ANA

gy2

4

P13.30

2

2

2

3

4

2

ANJ

gy1

3

!P13.30

4

3

5

5

4

3

ANS

gy4

4/5

!P13.30

4

2

4

4

4

4

BAT

gy1

5

Cs11.45

3

4

A

4

5

5

BOA

gy1

2/3

Cs11.45

0

0

4

3

3

6

BOB

gy1

4

Cs11.45

4

6

A

5

5

7

BOE

gy1

3/4

Cs11.45

4

4

A

4

4

8

DOO

gy3

4

!P13.30

előző

évi

zh

5

5

9

FAZ

gy1

5

Cs11.45

4

4

A

4

5

10

FIT

gy1

4/5

Cs11.45

5

5

A

4/5

5

11

GAG

gy2

nincs

P13.30

0

0

n.j.m.

nincs

n.j.m.

12

GOA

gy2

4

P13.30

5

6

A

5

5

13

GOB

gy4

5

!P13.30

4

1

2

2/3

4

14

GYK

gy4

3/4

Cs10.00

5

6

A

5

4

15

HEA

gy4

3

Cs10.00

3

2

3

3/4

3

16

HOA

gy1

4/5

Cs11.45

5

6

A

5

5

17

IMI

gy4

3

!Cs11.45

5

5

A

4/5

4

18

IMJ

gy1

3/4

Cs11.45

5

5

A

4/5

4

19

KAK

gy4

3/4

Cs10.00

5

6

A

5

4

20

KAM

gy1

2/3

!P13.30

4

6

A

5

4

21

KIG

gy1

5

Cs11.45

4

5

A

4/5

5

22

KUM

gy4

3

Cs10.00

4

3

8

5

4

23

KUT

gy1

5

Cs11.45

5

6

A

5

5

25

LAEl

gy3

3/4

!P13.30

4

6

A

5

4

24

LAEm

gy1

nincs

Cs11.45

0

0

n.j.m.

nincs

n.j.m.

26

MIZ

gy2

4

P13.30

4

5

A

4/5

4

27

MOC

gy2

4

P13.30

3

6

A

5

5

28

NAB

gy1

3/4

Cs11.45

5

6

A

5

4

29

PAN

gy1

4

Cs11.45

5

6

A

5

5

30

PAZ

gy4

3/4

Cs10.00

0

0

7

4/5

4

31

PEG

gy4

3

Cs10.00

4

4

A

4

4

32

PEI

gy2

3/4

P13.30

2

0

6

4

4

33

POA

gy2

2/3

P13.30

3

2

n.j.m.

nincs

n.j.m.

34

POP

gy4

4

Cs10.00

1

0

8

5

5

35

PUG

gy4

4

Cs10.00

5

6

A

5

5

36

RAL

gy4

3

Cs10.00

3

2

9

5

4

37

SCK

gy4

5

Cs10.00

4

4

A

4

5

38

SIH

gy1

3/4

Cs11.45

5

6

A

5

4

39

SIN

gy4

2/3

Cs10.00

5

4

A

4

3

40

SIR

gy1

5

Cs11.45

5

6

A

5

5

41

SIZ

gy4

nincs

Cs10.00

0

0

n.j.m.

nincs

n.j.m.

42

SPI

gy2

4

P13.30

1

0

5

3/4

4

43

SZE

gy4

5

Cs10.00

5

5

A

4/5

5

44

SZZo

gy1

4/5

Cs11.45

4

4

A

4

4

45

SZZs

gy4

2/3

!P13.30

5

3

9

5

4

46

TAZ

gy1

5

Cs11.45

2

2

9

5

5

47

TIV

gy1

3

Cs11.45

1

0

5

3/4

3

48

TOJ

gy3

4

!Cs10.00

3

4

A

4

4

49

VAP

gy2

5

P13.30

5

6

A

5

5

50

VEB

gy2

4

P13.30

5

4

A

4

4

51

VIP

gy4

5

!Cs11.45

4

6

A

5

5

 

Budapest, 2006. február 6. (Hasznos linkek, Ált.infó, gyakorlatok tematikája)
+új kiegészítések: május 3. (Tudnivalók a SAS zh-ról), május 12. (jegymegajánlás)
Utolsó módosítás: május 24-25. (SAS zh eredménye)


dr. Hajas Csilla,
E-mail: sila@inf.elte.hu,
URL: http://people.inf.elte.hu/sila/