1
Studijní opory předmětu MT 109 APLIKOVANÁ STATISTIKA
v kombinovaném studiu Vysoké školy hotelové a ekonomické s.r.o.,
magisterský studijní program všech oborů, ISBN: 978-80-87411-45-2
Předmět MT109 APLIKOVANÁ STATISTIKY je určen studentům kombinovaného studia
všech oborů VŠHE.
Výuka předmětu "MT 109 „ Aplikovaná statistika“ v kombinovaném studiu
Výuka probíhá ve třech modulech, celkem 18 hodin, každý modul je pětihodinový (6 - 6 - 6).
Formou atestace je zkouška (5 kreditů).
Přednášející, cvičící: Dr. Ing. Sylva Skupinová
Zkoušející: Dr. Ing. Sylva Skupinová
Obsahová náplň předmětu MT109 Aplikovaná statistika
1. Vyhodnocování údajů získaných náhodným výběrem náhodným výběrem
2. Statistické testy
3. Analýza časových řad
4. Exponenciální trendy, exponenciální vyrovnání
5. Regresní a korelační analýza
6. Metoda nejmenších čtverců – další aplikace
7. Vícenásobná regrese a korelace
8. Korelace časových řad, opožděná korelace, autokorelace
9. Regresní modely
10. Lineární trendy v časových řadách
11. Sezónní časové
12. Metody vícerozměrné statistické analýzy
13. Statistické zajímavosti, historie statistiky, Český statistický úřad
Cíle výuky předmětu MT109
Studenti budou seznámeni se základními i nadstavbovými matematickými a statistickými
operacemi a postupy používanými v ekonomické a hospodářské praxi.
Předmět je zaměřen rovněž na problémy vznikající při aplikacích těchto metod.
Získané poznatky studenti využijí v navazujících předmětech magisterského studia popřípadě
při zpracování dat v diplomové práci.
Osvojené postupy z oblasti aplikované statistiky umožní studentovi pochopit základní
principy ekonomických modelů používaných v praxi.
Předmět MT109 bezprostředně navazuje na předmět MT005 z bakalářského studia a u
studentů předpokládá znalost látky, která je obsažena ve skriptech VŠHE: I. Novák, Statistika.
Požadavky ke zkoušce
Předmět MT 109 „Aplikovaná statistika“ je ukončen písemnou a ústní zkouškou.
Předpokladem pro její složení je:
• aktivní účast na výuce v jednotlivých modulech (soustředění)
• prostudování základní literatury a studijních opor
• splnění korespondenčních úkolů
• úspěšné absolvování závěrečných testů a ústní části zkoušky
2
Organizace studia
Výuka předmětu MT 109 „Aplikovaná statistika" (semestrální kurz) je rozdělena na kontaktní
a distanční část a probíhá ve třech modulech. Kontaktní výuka (18 hodin) je realizována v
rámci tří soustředění, jde o 6 + 6 + 6 hodin přímé výuky. V každém soustředění se uskuteční
výuka jednoho modulu, který tvoří dvě povinné části: "tutoriál" a "průvodce studiem".
Převážná část kombinovaného studia předmětu MT 109 má sice distanční formu, avšak z
hlediska pedagogického přístupu ke studentům a jejich možnostem spolupracovat s
vyučujícím (tutorem), jde o průběžnou výuku. Na tutoriálech a ve studijních materiálech jsou
zadávány úkoly, jejichž splněním student dokládá průběžnost svého studia. Komunikace s
vyučujícím je zajištěna přes Internet (skupinova@vsh.cz) a v průběhu semestru může student
navštívit konzultační hodiny učitele. V případě problémového tématu má možnost navštívit
přednášky či semináře prezenčního studia. Pokud mu nestačí konzultace telefonická či
prostřednictvím výukového prostředí (IS VŠHE), může si student domluvit individuální
(event. kolektivní) konzultaci. Administrativu studia zajišťuje příslušná referentka studijního
oddělení. Všechny kontakty mezi učitelem a studujícím probíhají v rámci informačního
systému VŠHE.
Časový harmonogram výuky a obsahové zaměření modulů část statistika:
1. modul (září) = Vyhodnocování údajů získaných náhodným výběrem (téma 1 - 4)
2. modul (listopad) = Regresní a korelační analýza (téma 5 - 9)
3. modul (leden) = Lineární trendy v časových řadách; Metody vícerozměrné statistické
analýzy (téma 10 - 12)
Tutoriály:
Na úvodním tutoriálu na začátku semestru jsou studenti seznámeni, v rámci tzv. průvodce
kurzu, s obsahem předmětu, s časovým rozvržením výuky jednotlivých tématických okruhů, s
místem předmětu ve studijním plánu oboru, s povinnou literaturou, cílem výuky a s
požadavky ke zkoušce. Je zde vysvětlen přístup k tzv. studijním oporám (studijní materiály,
metodické listy) a způsob odevzdávání kontrolních úkolů (testů) v informačním systému
VŠHE. Studentům je objasněn způsob hodnocení kontrolních úkolů a termíny jejich
odevzdávání. Je probrána celková organizace výuky.
Na průběžném tutoriálu (uprostřed semestru) učitel vyhodnocuje dosavadní práci studentů.
Studenti musí zaslat vyřešené úkoly elektronicky před zahájením týdne konzultací. Učitel
upozorní na závažné nedostatky a v případě potřeby obtížná témata vysvětlí.
Na závěrečném tutoriálu na konci semestru učitel vyhodnotí uložené úkoly z minulého
tutoriálu a práci studentů za celý semestr. Upozorní na problémové otázky tématických
okruhů ke zkoušce. Podle potřeby proběhne společná konzultace. Studenti jsou seznámeni s
časovým harmonogramem zkoušek.
Průvodce studiem:
V této kontaktní části studia je proveden metodický výklad (přednáška) daného tématického
celku. Studenti jsou seznámeni s tím, co budou studovat z povinné literatury (musí být k
dispozici pro studenty), jaká úskalí je čekají při samostudiu a jak jim bude učitel pomáhat při
studiu. Velká pozornost je věnována jejich práci se studijními oporami, které jim nahrazují
bezprostřední kontakt s vyučujícím na cvičeních (seminářích). Studijní opory jsou připraveny
pro každý tématický okruh (kapitolu učebnice). Jejich součástí jsou: cíle, úvod, vlastní výklad
tématu, shrnutí vyložené problematiky, klíčové pojmy, úkoly k zopakování a procvičení,
odkazy na další studijní zdroje a hodnocení. Studijní opory jsou vloženy v rámci IS VŠHE do
části studijní materiály předmětu MT109. Zpětnovazební prvky výuky (korespondenční
3
úkoly) vyučující vkládají v informačním systému do položky odpovědníky. Jejich zadání
musí být jednoznačné a nesmí umožňovat různá řešení (pokud to ale není záměr vyučujícího).
Vypracované úkoly studenti vkládají do odevzdavárny, event. přímo vyučujícímu.
Při studiu předmětu MT109 student využívá tři informační zdroje:
 metodologický výklad učitele, který vychází z předepsané literatury
 kontaktní výuku v rámci tutoriálu a samostudia;
 předepsanou literaturu a metodické materiály
Průvodce studiem jednotlivých MODULŮ
Studijní opory předmětu MT 109 APLIKOVANÁ STATISTIKA
v kombinovaném studiu Vysoké školy hotelové a ekonomické s.r.o.,
magisterský studijní program všech oborů
Studijní literatura
Základní:
Skupinová S.: Aplikovaná statistika. Vysoká škola hotelová v Praze 8, Praha 2012, ISBN
978-80-87411-42-1.
Marek, L.; Novák, I.; Vrabec, M.: Statistika II. Vysoká škola hotelová v Praze 8, Praha, 2004,
90 stran, ISBN 80-86578-30-5
Doporučená:
Pecáková, I., Novák, I., Herzmann, J.:Pořizování a vyhodnocování dat. VŠE Praha,
2004,Oeconomica ISBN 80-245-0753-6
Hindls, R., Hronová, S., Novák, I.: Analýza dat v manažérském rozhodování. VŠE Praha,
1999 ,Grada, ISBN 80-7169-255-7
Hindls, R. a kol.: Statistika pro ekonomy. Professional Publishing, Praha 2007.
1. Modul
Modul tvoří tři tématické okruhy. Každý je probírán samostatně, jako kapitola v učebním
materiálu.
Tématické okruhy:
1.1. Statistické odhady
1.2. Statistické testy
1.3. Analýza časových řad
Studijní cíle
V této kapitole se studenti seznámí se základními postupy při vyhodnocování údajů získaných
náhodným výběrem. Bude objasněna teorie bodových a intervalových odhadů s důrazem na
symetrické oboustranné intervaly. Dále budou studenti seznámeni s typy alternativ a
statistickým testováním. Poslední tematický okruh seznámí studenty s dekompozicí časových
řad a s jejími elementárními složkami s důrazem na exponenciální trendy v časových řadách.
4
Klíčová slova: bodový odhad, intervalový odhad, spolehlivost odhadu, statistický test, typy
alternativ, testovaná a alternativní hypotéza, testové kritérium, časové řady, exponenciála,
exponenciální vyrovnání
1.1. Statistické odhady
Odhady charakteristik základního souboru :
 bodové - jedna číselná hodnota
(průměr základního souboru µ se bodově odhaduje výběrovým průměrem )
 intervalové - interval hodnot
Jedná se o odhady charakteristik základního souboru takovými intervaly, v nichž lze se
zvolenou pravděpodobností očekávat hodnoty očekávaných charakteristik.
Zvolená pravděpodobnost = spolehlivost odhadu a značí se 1-α.
Příklad: Byla zvolena spolehlivost 95%
Hovoříme pak o 95% spolehlivosti, nebo že příslušný interval je 95%ním intervalem
spolehlivosti, kdy platí, že 1-α = 0,95. Pak existuje 5% riziko, že intervalový odhad bude
chybný, tj. že hodnota odhadované charakteristiky bude mimo udaný interval.
Odhady relativní četnosti
Bodovým odhadem relativní četnosti v základním souboru ∏ je výběrová relativní četnost p.
Pro zvolenou spolehlivost odhadu 1-α (například 95%) a je-li np(1-p)>9 (což bývá při
velkých výběrech obvykle splněno), je dvoustranný interval spolehlivosti vymezen
nerovností:
, kde
- kvantil normovaného normálního rozdělení.
Odhady aritmetického průměru
Bodovým odhadem průměru základního souboru µ je výběrový průměr . Dvoustranný
symetrický interval spolehlivosti je pak při větších výběrech (již kolem 100 jednotek a
větších) vymezen nerovností:
, kde
x - určitá proměnná
n - rozsah souboru
- aritmetický průměr výběrového souboru
µ - aritmetický průměr základního souboru
Sx - výběrová směrodatná odchylka
- kvantil normovaného normálního rozdělení.
1.2. Statistické testy
x
ΔpΠΔp +≤≤−
n
p)p(1
uΔ
2
α
1
−
=
−
2
α
1
u
−
x
ΔxμΔx +≤≤−
n
S
uΔ x
2
α
1−
=
x
2
α
1
u
−
5
Při běžně používaných testech se proti sobě staví dvě hypotézy:
testovaná hypotéza - H0 x alternativní hypotéza - H1.
Testovaná hypotéza něco tvrdí a alternativní hypotéza to popírá. Výsledkem statistického
testu je buď přijetí testované hypotézy nebo její zamítnutí, tj. přijetí alternativní hypotézy.
Chyby ve statistickém testování
Chybně může být přijata jak alternativní tak testovaná hypotéza.
Hladina významnosti - α je pravděpodobnost chybného přijetí alternativní hypotézy – chyba
prvního druhu .
Hladina významnosti α se volí, nejčastěji α = 0,05 ,tj. 5ti% hladina významnosti, tedy volíme
5ti% riziko, že na základě výběrových dat chybně přijmeme alternativní hypotézu.
Pravděpodobnost chybného přijetí testované hypotézy, tj. chyba druhého druhu β, u většiny
testů nelze volit.
Testové kritérium
K rozhodnutí o přijetí nebo zamítnutí testované hypotézy, slouží při každém testu určitá
proměnná, jejíž hodnotu lze vypočítat z výběrových dat a která má při platnosti testované
hypotézy určité pravděpodobnostní rozdělení. Tato proměnná se nazývá testové kritérium
(testová statistika).
Obor hodnot testového kritéria se rozděluje na obor přijetí a kritický obor. Hodnoty, které
tyto obory od sebe oddělují se nazývají kritické hodnoty a lze je vyhledat ve statistických
tabulkách.
Jestliže hodnota testového kritéria, vypočítaná z výběrových dat padne do oboru přijetí,
přijímá se testovaná hypotéza. Jestliže vypočítaná hodnota padne do kritického oboru,
zamítá se H0 a přijímá se H1.
Kritický obor je volen tak, aby pravděpodobnost, že hodnota testovaného kritéria padne do
kritického oboru při platnosti testované hypotézy, byla rovna zvolené hladině významnosti α.
Výsledek testu závisí mimo jiné na zvolené hladině významnosti α, která se volí. Aby
nemohlo dojít k nedorozumění, je nutné u každého testu použitou hladinu významnosti uvést.
Čím nižší je hladina významnosti, tím je kritický obor užší.
Typy alternativ statistických testů:
• dvoustranná alternativa
• levostranná alternativa
• pravostranná alternativa.
Některé statistické testy používané v marketingových výzkumech
Všechny tyto testy vycházejí z předpokladu, že výběrový soubor je náhodným výběrem
z nekonečného základního souboru nebo tzv. prostým náhodným výběrem z konečného
základního souboru, jehož rozsah je mnohonásobně větší než rozsah výběrového souboru.
6
Každý statistický test je použitelný pouze za určitých podmínek. Nejsou-li tyto podmínky
splněny, může vést jeho použití k dezinformaci.
Test hypotézy o relativní četnosti při velkém výběru (v základním souboru)
Relativní četnost základního souboru - ∏
Formulace testované hypotézy H1 závisí na tom, co chceme prokázat.
Hodnota ∏0 je hypotetická hodnotou relativní četnosti ∏. Je to hodnota, kterou předpokládá
testovaná hypotéza. Testovaná hypotéza se obvykle vyjadřuje zápisem:
H0: ∏=∏0
Proti testované hypotéze lze podle povahy problému postavit alternativní hypotézu:
 pravostrannou H1:∏ >∏0
 levostrannou H1: ∏< ∏0
 dvoustrannou H1: ∏ ≠ ∏
Je-li rozsah výběru n velký používá se testové kritérium:
Podmínka: součin n∏0(1-∏0) musí být větší než 9.
U - hodnota testového kritéria
∏0 - hypotetická hodnotou relativní četnosti ∏
p - výběrová četnost
n - rozsah souboru
Vymezení kritického oboru*:
Při testu hypotézy H0 proti pravostranné alternativní hypotéze je kritický obor vymezen
nerovností:
Při testu hypotézy H0 proti levostranné alternativní hypotéze je kritický obor vymezen
nerovností:
Při testu hypotézy H0 proti dvoustranné alternativní hypotéze je kritický obor vymezen
nerovností:
/U/ - absolutní hodnota testového kritéria
- kvantily normovaného normálního rozdělení .
Test hypotézy o průměru při velkém výběru:
Při testech hypotéz o průměru µ základního souboru se ověřují hypotézy, že tento průměr je
větší, menší případně jiný než hypotetická hodnota µ0.
)Π(1Π
n)Π(p
U
00
0
−
−
=
α1uU −>
α1uU −<
2
α
1
u/U/
−
>
,u α1−
2
α
1
u
−
7
Je-li rozsah výběru dostatečně velký (n>100), lze použít testové kritérium:
- výběrový průměr
Sx - výběrová směrodatná odchylka.
Vymezení kritického oboru je shodné s výše uvedenou definicí označenou symbolem *.
Hodnota µ0 je hypotetická hodnotou aritmetického průměru µ. Je to hodnota, kterou
předpokládá testovaná hypotéza. Testovaná hypotéza se obvykle vyjadřuje zápisem:
H0: µ = µ 0.
V závislosti na formulaci alternativní hypotézy, lze použít některý z kritických oborů:
 pravostrannouH1:µ > µ 0
 levostrannou H1: µ < µ 0
 dvoustrannou H1: µ ≠ µ 0.
χ2
test - test dobré shody:
χ2
– test umožňuje ověření platnosti hypotézy H0 „náhodný výběr pochází z daného
rozdělení“  ověření hypotézy o rozdělení v základním souboru.
 H0 – rozdělení je určitého typu
 H1 – rozdělení je jiného typu, ale nelze specifikovat jakého.
χ2
– test s výhodou aplikujeme při výzkumech veřejného mínění a v marketingu.
Mac Nemarův test změny názorů:
Názory dotazovaných osob na řešenou problematiku se mohou, pod vlivem určité informace
(reklamní kampaň, vyjádření odborníků) nebo po provedení určitého opatření, měnit. Cílem
testu je posoudit, zda došlo ke změně názoru v základním souboru.
H0: tvrdí, že názory se nezměnily = nedošlo ke změně
H1: tvrdí, že došlo ke změně, ale neříká, zda k lepšímu či k horšímu (toto lze odhadnout ze
zdrojových dat).
Test se s výhodou využívá při posuzování účinnosti reklamy. Pro Mac Nemarův test se
používá testové kritérium, které má při platnosti testované hypotézy přibližně χ2
rozdělní o
jednom stupni volnosti.
1.3. Analýza časových řad
Časová řada = vývojová tendence. Jedná se o zásadní a neoddělitelnou analytickou práci
v ekonomické oblasti.
Předpoklad: existují data různých ukazatelů v časové řadě.
Odhad budoucích hodnot = extrapolace časové řady.
Prognózy do vzdálené budoucnosti předpokládají neměnný trend.
Při analýze časových řad je nutné vyžadovat věcnou, prostorovou a časovou srovnatelnost
údajů. Srovnatelnost údajů je vždy nutno před jejich statistickou analýzou prověřit!
x
0
S
n)μx(
U
−
=
x
8
Délka časové řady se volí v závislosti na kvalitě vstupních dat.
Dekompozice časových řad
Pro dekompozice časových řad je nutné uvažovat následující předpoklad:
časovou řadu lze rozložit na systematické (a odhadnutelné) složky a na náhodnou složku.
Systematické složky:
• trendová
• sezónní
• cyklická složka.
Trendová složka - odráží dlouhodobou vývojovou tendenci (například zrychlující či
zpomalující se růst či pokles), kterou lze popsat nějakou matematickou funkcí (tzv. trendovou
funkcí).
Sezónní složka - popisuje pravidelně se opakující výkyvy v jednotlivých sezónách (například
čtvrtletích či měsících) několika po sobě jdoucích let.
Cyklická složka - popisuje dlouhodobé výkyvy kolem trendu, tedy výkyvy opakující se vždy
po několika letech.
Elementární charakteristiky časových řad
Ze zjištěných dat se velmi často počítají roční přírůstky a roční koeficienty růstů.
Velmi často se počítá i průměrný roční koeficient růstu, který je geometrickým průměrem
jednotlivých koeficientů růstu:
, kde k2 – kn jsou roční koeficienty růstu.
Popis trendu časových řad ročních hodnot:
Trendové funkce jsou různé matematické funkce, kde platí následující předpoklad:
v časové řadě se projevuje pouze určitý trend a náhodné kolísání. Pak pro hodnoty časové
řady platí:
t = 1,2, …, n
Tt - je odhad trendové složky
et - je reziduum.
Hodnoty Tt jsou hodnotami trendové funkce T = f(t), kde f(t) je nějaká matematická funkce
časové proměnné t. Může to být například přímka (T = b0 + b1t),
hyperbola ,
parabola (T = b0 + b1t + b2t2
) aj.
b0, b1, b2 - parametry, jejichž číselné hodnoty je třeba určit, aby bylo možno využít trendové
funkce k odhadům do budoucna.
Při popisu trendu matematickými funkcemi jsou řešeny dvě otázky:
k
1-n
n32 .....k.kkk =
t
1
bbT 10 +=
9
a) Jaká matematická funkce má být zvolena za trendovou funkci?
Podkladem pro volbu vhodné trendové funkce bývá obvykle chování některých elementárních
charakteristik časové řady:
 roční absolutní přírůstek
 roční relativní přírůstek
 roční koeficienty růstu ...
Vodítkem volby matematické funkce popisující trend je grafické znázornění časové řady
spojnicovým diagramem. Kvalita zvolené matematické funkce se ověřuje výpočtem reziduí.
b) Jak se určí číselné hodnoty parametrů zvolené trendové funkce?
U lineárních trendových funkcí (např. přímka, hyperbola parabola), se číselné hodnoty
parametrů určují metodou nejmenších čtverců. Minimalizuje se součet druhých mocnin
odchylek zjištěných hodnot yt od zvolené trendové funkce:
Pro výpočet parametrů nelineárních funkcí (např. exponenciála, posunutá exponenciá) nelze
použít metodu nejmenších čtverců!
Parametry některých nelineárních funkcí lze získat metodou nejmenších čtverců až po
provedení tzv. linearizující transformace, kdy sledovaná proměnná y je nahrazena nějakou
neparametrickou funkcí y*
, například y*
= lny. Uvedená transformace se využívá například při
výpočtu parametrů exponenciály .
Má-li časová řada exponenciální trend je pro ní typické stálé roční tempo růstu.
U posunuté exponenciály se využívá metoda částečných součtů, kdy se sledovaná časová
řada rozdělí na několik částí o stejném počtu hodnot, přičemž počet částí je rovný počtu
parametrů trendové funkce.
Posunutá = modifikovaná exponenciála
Tato funkce může vystihnout zrychlující se či zpomalující se rostoucí trend i zrychlující se či
zpomalující se klesající trend.
Exponenciální vyrovnání:
Exponenciální vyrovnání je založeno na myšlence, že pro krátkodobé prognózy jsou čerstvější
hodnoty časové řady důležitější než hodnoty starší. Máme-li časovou řadu ročních hodnot y1,
y2,…yn-1, yn, přisuzuje se největší váha hodnotě yn, zatímco váhy ostatních hodnot postupně
klesají ve směru k hodnotě y1.
Stáří jednotlivých pozorování je vyjádřeno proměnnou k, která nabývá hodnot 0, 1,…n-1.
Čím starší ročník tím je hodnota k vyšší. Nejmladší ročník časové řady má k = 0.
Váhu jednotlivých hodnot časové řady vyjadřujeme čísly αk
, kde α je vyrovnávací
konstanta, kde α∈(0; 1). S klesající hodnotou α mají starší hodnoty menší význam!
Obvykle není zájem na příliš rychlém poklesu vah starších hodnot, volí se zpravidla hodnoty
vyrovnávací konstanty α bližší 1 (α = 0,7 - 0,9).
Existují tři varianty exponenciálního vyrovnání časových řad ročních hodnot :
 Jednoduché exponenciální vyrovnání, kde se předpokládá, že v krátkých obdobích
nemá časová řada ani rostoucí ani klesající trend.
2
t
tt )T(yS  −=
t
10bbT =
t
210 bbbT +=
10
 Dvojité exponenciální vyrovnání, kde se předpokládá, že v krátkých obdobích má
časová řada lineární trend popsatelný přímkou.
 Trojité exponenciální vyrovnání, kde se předpokládá, že v krátkých období má
časová řada parabolický trend.
Nejčastěji se používá dvojité exponenciální vyrovnání.
Chyba prognózy ∆
Po uplynutí roku n + 1 (nejmladší rok časové řady) zjistíme skutečnou hodnotu sledovaného
ukazatele v tomto roce, tj. hodnotu yn+1. Pak můžeme vypočítat chybu prognózy Pn+1:
Je-li ∆ kladné číslo, prognóza byla nadhodnocena, je-li ∆ záporné číslo, prognóza byla
podhodnocena.
Adaptivní metoda:
Na základě nově zjištěných skutečností, lze jednoduše opravovat hodnoty parametrů trendové
funkce.
Shrnutí kapitoly
V kapitole byly vysvětleny základní pojmy z oblasti statistických odhadů, statistických testů a
analýzy časových řad. Byly představeny bodové a intervalové odhady aritmetického průměru
a relativní četnosti v základním souboru. Dále byly vysvětleny základní statistické hypotézy
v rámci sadistického testování a možné typy alternativ. Byly popsány nejběžněji používané
typy alternativ v testech hypotézy o relativní četnosti a průměru v základním souboru.
V poslední části se problematika zaměřovala na analýzu časových řad, konkrétně na
dekompozici časových řad a popis odhadnutelné složky matematickými funkcemi. Byl kladen
důraz na exponenciální trendy v časových řadách a rovněž využití exponenciálního
vyrovnání. Závěr kapitoly byl věnován výpočtu a chybě prognózy.
Pojmy k zapamatování:
Bodový a intervalový odhad, spolehlivost, typy alternativ, statistické testy, hladina
významnosti, testovaná a alternativní hypotéza, testové kritérium, kvantily normálního a
jiných rozdělení, časová řada, dekompozice časové řady, trendová funkce, typy trendů,
exponenciální trend, nelineární funkce, exponenciální vyrovnání, prognóza, chyba prognózy,
adaptivní metoda.
Úkoly k zopakování a procvičení
Příklad 1.1.:
Spolehlivost odhadu označujeme symbolem:
a) α
b) 1 - α
c) s
Řešení: b
Bodovým odhadem relativní četnosti základního souboru Π je:
a) relativní četnost výběrového souboru p
b) aritmetický průměr základního souboru µ
c) směrodatná odchylka základního souboru σ
Řešení: a
1n1n1n yPΔ +++ −=
11
Při výpočtu intervalového odhadu aritmetického průměru základního souboru je nutné mít
k dispozici mimo jiné hodnoty:
a) rozptylu základního souboru
b) směrodatné odchylky základního souboru
c) směrodatné odchylky výběrového souboru
Řešení: c
Příklad 1.2.:
Při běžně používaných testech se proti sobě staví dvě hypotézy:
a) pravostranná a levostranná
b) oboustranná a nestranná
c) nulová a alternativní
Řešení c
Hladina významnosti α = 0,01 vypovídá:
a) o 99% riziku nesprávného přijetí alternativní hypotézy
b) o 1% riziku nesprávného přijetí alternativní hypotézy
c) o 1% riziku nesprávného přijetí nulové hypotézy
Řešení: b
Příklad 1.3.:
Mezi systematické složky časové řady nepatří složka:
a) cyklická
b) neodhadnutelná
c) trendová
Řešení: b
Parabola je trendová funkce:
a) s dvěma proměnnými a třemi parametry
b) s dvěma proměnnými a dvěma parametry
c) se třemi proměnnými a dvěma parametry
Řešení: a
Je li prognóza podhodnocena, pak je chyby prognózy z intervalu
a) (-∞; 0)
b) (0; ∞)
c) <-∞; 0>
Řešení: a
Hodnocení
Každá správná odpověď nebo výsledek výpočtu je hodnoceno jedním bodem.
Sebehodnocením je žádoucí dosáhnout alespoň 70% úspěšnost správných odpovědí. Jestliže
jste nedosáhli požadované úspěšnosti, pokuste se zlepšit svůj studijní výsledek pozornějším
studiem kapitoly, popřípadě se spojit s tutorem předmětu.
Korespondenční úkol:
Náhodně bylo vybráno 400 osob, z nichž 80 uvedlo, že má zájem o novou službu. Se
spolehlivostí odhadu 95% proveďte intervalový odhad relativní četnosti Π základního
souboru zájemců o novou službu.
12
Řešení: ∏ ∈ <0,1608; 0,2392>.
2. Modul
Modul tvoří tři tematické okruhy. Každý je probírán samostatně, jako kapitola v učebním
materiálu.
Tématické okruhy:
2.1. Regresní a korelační analýza
2.2. Vícenásobná regrese a korelace
2.3. Regresní modely
Studijní cíle
V této kapitole se studenti seznámí s terminologií a metodickými postupy regrese a korelace.
Budou seznámeni s jednoduchou jednostrannou korelací se vzájemnou regresí a korelací a
s vícenásobnou regresí a korelací. Dále budou studenti seznámeni s charakteristikami, které
hodnotí kvalitu regresního modelu a s koeficienty hodnotícími těsnost studovaných závislostí
včetně vícenásobného korelačního koeficientu. Studenti se rovněž seznámí
s multikolinearitou, opožděnou korelací, korelací v časových řadách a autokorelací.
V poslední části této kapitoly bude studentům objasněn princip klasického lineárního modelu.
Klíčová slova: jednostranná a vzájemná závislost, regrese a korelace, korelační koeficient,
vícenásobná regrese a korelace, multikolinearita, korelace časových řad, opožděná korelace,
autokorelace, regresní modely, klasický lineární model.
2.1. Regresní a korelační analýza
Regresní a korelační analýza se zabývá zkoumáním statistických závislostí číselných
proměnných. Jsou to závislosti, kdy stejným hodnotám jedněch proměnných mohou
odpovídat různé hodnoty jiných proměnných.
Z hlediska počtu proměnných v regresní a korelační analýze rozlišujeme:
 Jednoduchou regresní a korelační analýzu, která zkoumá závislost 2 číselných
proměnných:
x – nezávisle proměnná (vysvětlující proměnná)
y – závisle proměnná (vysvětlovaná proměnná).
 Vícenásobná regresní a korelační analýza, která zkoumá závislost 3 a více číselných
proměnných:
x, z, u, v… – nezávisle proměnné (vysvětlující proměnné)
y – závisle proměnná (vysvětlovaná proměnná).
Jednoduchá regresní a korelační analýza
13
Při zkoumání závislosti mezi proměnnými je nejdříve nutné posoudit, zda závislost existuje,
tedy lze-li vysvětlovat změny hodnot jedné proměnné – vysvětlované = závisle proměnné,
změnami hodnot proměnné druhé – vysvětlující = nezávisle proměnné.
Podle charakteru závislosti rozlišujeme u jednoduché regrese a korelace:
a) Jednostrannou závislost (regresní analýza), kde závisle proměnnou může být pouze jedna
z řešených proměnných.
b) Vzájemnou závislost (korelační analýza), kde obě proměnné lze volit za závisle nebo
nezávisle proměnnou.
Při zkoumání statistických závislostí řešíme dva zásadní úkoly:
1. Nalezení vhodné matematické funkce, tj. regresní funkce, pomocí nichž lze odhadovat
průměrné hodnoty vysvětlované proměnné, odpovídající zvoleným hodnotám jedné nebo
několika vysvětlujících proměnných.
2. Určení síly (intenzity, těsnosti) závislosti výpočtem korelačních koeficientů případně
jiných statistických charakteristik.
Bodový diagram – poskytuje první představu o tom, jaká matematická funkce Y-f(x) by
mohla být vhodnou regresní funkcí.
Každá uspořádaná dvojice [xi; yi] je znázorněna bodem v pravoúhlé souřadnicové soustavě.
Vynesené uspořádané dvojice [xi;yi] odpovídajících údajů vytvářejí korelační pole.
Je li matematickou funkcí přímka, hovoříme o lineární regresi. Parametry přímky se počítají
již v předchozí kapitole zmiňovanou metodou nejmenších čtverců.
Přímka , respektive y = a + bx se používá k odhadům průměrných hodnot
proměnné y, odpovídajících zvoleným hodnotám proměnné x.
V případě vzájemné lineární závislosti obou proměnných, se spolu s regresní
přímkou používá i regresní přímka , která slouží k odhadům
průměrných hodnot proměnné x, odpovídajících zvoleným hodnotám proměnné y.
Čím je silnější závislost proměnných x, y, tím je úhel, který svírají obě regresní přímky,
menší. Při perfektní lineární závislosti (jedna proměnná je funkcí druhé) obě regresní přímky
splynou v jednu.
Parametry b1 a , sdružených regresních přímek se nazývají regresní koeficienty, kde
b1 = byx - udává přírůstek průměrné hodnoty y, odpovídající jednotkovému přírůstku
proměnné x.
= bxy - udává přírůstek průměrné hodnoty x, odpovídající jednotkovému přírůstku
proměnné y.
Při interpretaci číselných hodnot obou regresních koeficientů i při využívání obou regresních
přímek k odhadům, je nutné přihlížet k tomu, v jakých jednotkách byly proměnné x, y
měřeny.
Při zkoumání závislostí se používají některé regresní funkce, u nichž je metoda nejmenších
čtverců použitelná až po provedení transformací, jako například u mocninné funkce,
Törnquistovy křivka, exponenciály. Nelze-li u některých funkcí, pro vyčíslení parametrů,
využít metody nejmenších čtverců, lze ji nahradit jinými metodami například metodou
částečných součtů u posunuté exponenciály nebo metodou vybraných bodů například u
xbbY 10 +=
xbbY 10 += ybbX *
1
*
0 +=
*
1b
*
1b
14
Törnquistovy křivka. Metoda vybraných bodů je jednoduchá metoda odhadu parametrů
některých nelineárních funkcí. Má-li regresní funkce 2 (3) parametry, určíme ze zdrojových
dat statistického šetření nějaké 2 (3) body, kterými by měla funkce procházet.
Index determinace
Determinační index I2
je charakteristika, která se používá k posouzení vhodnosti regresní
funkce, jejíž parametry byly získány metodou nejmenších čtverců, aniž by bylo nutno provést
nějakou transformaci vysvětlované proměnné y. Platí, že I2
∈ <0; 1>.
Index determinace používáme pro posouzení vhodnosti přímky, hyperboly, roviny a řady
dalších regresních funkcí.
Regresní funkci lze pokládat za tím vhodnější, čím méně se zjištěné hodnoty yi budou lišit od
teoretických hodnot Yi, tj. čím bude reziduální součet čtverců bližší 0 a teoretický součet
čtverců bližší součtu
.
Regresní funkce je považována za vhodnou, jestliže lze pomocí této funkce co nejvíce
vysvětlit kolísání proměnné y, tj. regresní model je kvalitní, jestliže vysvětluje vysoké %
variability hodnot proměnné y.
Hodnoty I2
blízké 1 svědčí o vhodnosti zvolené regresní funkce a zároveň, že proměnná y
silně závisí na proměnné či proměnných, jejichž funkcí je zvolená regresní funkce.
Z hodnot determinačního indexu blízkých 0 nelze usuzovat na slabou závislost, ale pouze na
nevhodnost zvolené regresní funkce.
Index determinace se počítá z poměru součtu čtverců odchylek:
. .
Kde SR je reziduální součet čtverců:
,
součet čtverců odchylek zjištěných hodnot proměnné od jejich průměru SY:
,
a součet čtverců odchylek teoretických hodnot proměnné od jejich skutečných průměrů ST:
.
Korelační koeficienty:
Korelační koeficienty jsou charakteristikami síly lineární závislosti číselných proměnných.
Sílu lineární závislosti proměnných x; y měří korelační koeficient rxy / = ryx /, který je
poměrem kovariance obou proměnných a součinu jejich směrodatných odchylek.
Korelační koeficient r nabývá hodnot z intervalu <-1; 1>. Přičemž|:
 záporný korelační koeficient ukazuje na nepřímou závislost obou proměnných, kdy
při růstu hodnoty jedné proměnné průměrné hodnoty druhé proměnné klesají,
 kladný korelační koeficient ukazuje na přímou závislost obou proměnných, kdy při
růstu hodnot jedné proměnné rostou i průměrné hodnoty proměnné druhé,
 nulový korelační koeficient ukazuje, že obě proměnné jsou nezávislé a při růstu
hodnot jedné proměnné se průměrné hodnoty druhé proměnné nemění,
 korelační koeficient je rovný 1 nebo –1 ukazuje na perfektní lineární závislost, kdy
stejným hodnotám jedné proměnné odpovídají stejné hodnoty druhé proměnné.
2
i )y(y −
y
R
y
T2
S
S
1
S
S
I −==
2
iiR )Y(yS −=
2
iiy )y(yS −=
2
iiT )y(YS −=
15
Lineární závislost obou proměnných se považuje za tím silnější, čím je hodnota korelačního
koeficientu bližší -1 nebo 1 a za tím slabší, čím je hodnota korelačního koeficientu bližší 0.
Znaménko před korelačním koeficientem a regresním koeficientem se musí shodovat.
Závislost lze hodnotit podle 3-5 bodové stupnice:
r = 0 – závislost neexistuje; |r| = 1 – perfektní závislost,
|r| ∈ (0; 0,3) - slabá závislost,
|r| ∈ <0,3; 0,6) - střední závislost,
|r| ∈ <0,6; 0,8) - silná (těsná závislost),
|r| ∈ <0,8; 1 ) - velmi silná (velmi těsná závislost).
Je-li regresní funkcí přímka, lze dokázat, že r2
= I2
(druhá mocnina korelačního koeficientu je
rovna determinačnímu indexu) a pak podle hodnoty korelačního koeficientu lze posuzovat i
vhodnost regresní přímky.
2.2. Vícenásobná regrese a korelace
Vícenásobná regrese a korelace řeší lineární závislosti proměnné y na dvou (nebo více)
vysvětlujících proměnných x; z (u…). Měří se síla lineární závislosti proměnné každé z obou
proměnných i na obou proměnných. Matematickou funkcí pro regresi y, x, z
je rovina , kde
a jsou dílčí regresní koeficienty.
- přírůstek průměrné hodnoty proměnné y při jednotkovém přírůstku proměnné x
za předpokladu, že proměnná z je konstantní.
- - přírůstek průměrné hodnoty proměnné y při jednotkovém přírůstku proměnné z
za předpokladu, že proměnná x je konstantní.
Číselné hodnoty parametrů roviny b0, b1, b2 se získávají metodou nejmenších čtverců, jež
vede k třem normálním rovnicím, jejichž řešením jsou vyčíslené parametry.
Korelační koeficient ve vícenásobné regresi:
Pro hodnocení síly závislosti u vícenásobné regrese nelze použít párový korelační koeficient
ryx . Síla lineární závislosti proměnné y na proměnné x se posuzuje na základě dílčího
korelačního koeficientu ryx.z , který měří sílu lineární závislosti proměnné y na proměnné x
za předpokladu, že proměnná z je konstantní.
Síla lineární závislosti proměnné y na proměnné z se posuzuje na základě dílčího korelační
koeficientu ryz.x, který měří sílu lineární závislosti proměnné y na proměnné z za
předpokladu, že proměnná x je konstantní. Platí že:
 dílčí korelační koeficienty nabývají hodnot z intervalu <-1; 1>,
 záporné hodnoty signalizují nepřímou závislost, kladné hodnoty přímou závislost,
 závislost se považuje za tím silnější, čím jsou hodnoty dílčích korelačních koeficientů
bližší -1 nebo 1.
Vícenásobný korelační koeficient ry.xz, posuzuje sílu lineární závislosti y na obou
vysvětlujících proměnných x; z. Platí že:
 nabývá hodnot z intervalu <0, 1> ,
 závislost se považuje za tím silnější, čím je jeho hodnota bližší 1,
 jeho druhá mocnina je rovna determinačnímu indexu pro rovinu, tedy vztah:
zbxbby *
2
*
1
*
0 ++=
yx.z
*
1 bb = yz.x
*
2 bb =
yx.z
*
1 bb =
yz.x
*
2 bb =
16
. Podle hodnoty vícenásobného korelačního koeficientu lze posuzovat vhodnost
roviny jako regresní funkce
V případě více vysvětlujících proměnných, lze vypočítat všechny párové korelační
koeficienty, mimo jiné i korelační koeficienty mezi všemi dvojicemi vysvětlujících
proměnných, přičemž korelace vysvětlujících proměnných se nazývá multikolinearita.
Je-li hodnota korelačního koeficientu mezi některou dvojicí vysvětlujících (nezávislých)
proměnných blízká 1 nebo -1 hovoříme o škodlivé multikolinearitě (alespoň jeden z
párových korelačních koeficientů je větší než 0,8). Což je signál, že některá vysvětlující
proměnná by se neměla brát v úvahu!
Korelace časových řad
Při studiu korelací časových řad se počítají korelační koeficienty mezi hodnotami dvou
časových řad, kde t je čas. Vždy je nutné korelovat odchylky od trendu a při řešení korelací v
časových řadách je žádoucí získat vysoké korelační koeficienty a se stejnými znaménky.
Opožděná korelace
Příčinou změn ukazatele (proměnné) y jsou změny ukazatel (proměnné) x, ale ke změnám
ukazatel y dochází s určitým časovým zpožděním. Hodnoty proměnné y lze odhadnout na
základě proměnné x o rok posunuté. Odhad do budoucna je možný jen o hodnotu posunu.
Autokorelace
Jedná se o korelaci dat jedné časové řady s hodnotami téže časové řady o rok posunutými, pak
hovoříme o autokorelace prvního řádu; o dva roky posunutými, pak hovoříme o
autokorelace druhého řádu…
Vypočítané korelační koeficienty se nazývají autokorelační koeficienty. Ve výpočtech
figuruje pouze jedna proměnná. Je-li časová řada popsána trendovou funkcí, lze počítat
rezidua (odchylky od trendu), přičemž často se počítá autokorelace reziduí prvního až n-tého
řádu. Silná autokorelace reziduí ukazuje na nekvalitní trendovou funkci. Naopak, trendová
funkce se považuje za dobrou, jestliže se nezjistí autokorelace reziduí.
2.3. Regresní modely
Regresní modely se formulují z důvodů zobecňování výsledků v regresní a korelační analýze.
Nejjednodušším regresním modelem je „klasický lineární regresní model“ , kdy výstupy PC
software se o tento model opírají.
O pravděpodobnostním rozdělení náhodných veličin y1, y2…yn je nutné určit předpoklady:
.
22
y.xz Ir =
17
Odhadnutelné složky – předpokládá se, že to jsou hodnoty nějaké lineární regresní funkce
(přímka, parabola…).
Přímka:
Parabola:
Neodhadnutelné složky – v klasickém modelu se zavádějí tři předpoklady:
 jsou nezávislé,
 všechny neodhadnutelné složky mají nulové střední hodnoty a zároveň mají stejné
rozptyly,
 jsou náhodné veličiny, které mají normální rozdělení.
Zjištěná data považujeme za výběrová data a na základě výběrových dat se odhadují
parametry funkcí (β0, β1, β2…) a hodnoty regresní funkce ηi , kde odhady β se pak značí b0,
b1, b2 …, které se počítají se metodou nejmenších čtverců. Lze dokázat, že parametry b0, b1
jsou nezkreslené odhady parametrů β0, β1.
Odhadujeme-li parametry modelu základního souboru na základě výběru, musíme počítat s
možností chyby. O tom zda můžeme očekávat (předpokládat) velkou nebo malou chybu nás
informují směrodatné chyby odhadů. Ve všech PC výstupech se směrodatné chyby k
odhadům připojují.
Shrnutí kapitoly
V kapitole byly vysvětleny základní principy regrese a korelace a to i na úrovni vícenásobné
regresní a korelační analýzy. Rovněž byly osvětleny nadstavbové metody a to korelace
časových řad, opožděná korelace a autokorelace. V poslední pasáži byly vysvětleny podstatné
body týkající se klasického lineárního regresního modelu včetně směrodatné chyby odhadu.
Pojmy k zapamatování:
Jednoduchá regrese a korelace. Jednostranná a vzájemná závislost. Vícenásobná regrese a
korelace. Regresní koeficient. Korelační koeficient. Párový, dílčí a vícenásobný korelační
koeficient. Index determinace. Multikolinearita. Korelace časových řad, opožděná korelace,
autokorelace. Klasický lineární regresní model.
Úkoly k zopakování a procvičení
Příklad 2.1.:
Výstupem regrese vzájemné závislosti:
a) je parabola
b) je rovina
c) jsou sdružené regresní přímky
Řešení: c
K posouzení vhodnosti lineární regresní funkce se využívá:
a) hodnota indexu determinace
b) hodnota regresního koeficientu
c) hodnota korelačního koeficientu
Řešení: a
xββη 10 +=
2
210 xβxββη ++=
18
Korelační koeficient nabývá u jednoduché korelace hodnot z intervalu:
a) <0, 1>
b) <-1, 1>
c) (0 ,1)
Řešení: b
Příklad 2.2.:
Sílu lineární závislosti proměnné y na proměnné x za předpokladu, že proměnná z je
konstantní měří:
a) párový korelační koeficient
b) dílčí korelační koeficient
c) vícenásobný korelační koeficient
Řešení: b
Běžnou matematickou funkcí používanou ve vícenásobné regresi x, y, z je:
a) přímka
b) exponenciála
c) rovina
Řešení: c
Vícenásobný korelační koeficient posuzuje sílu lineární závislosti y v modelu proměnných y,
x, z:
a) na obou vysvětlujících proměnných x, z
b) na vysvětlující proměnné x
c) na vysvětlující proměnné z
Řešení: a
Příklad 2.3.:
Typem regresního modelu, o který se nejčastěji opírají PC programy je:
a) exponenciální regresní model
b) Törnquistova křivka
c) klasický lineární model
Řešení: c
Předpokládá se, že odhadnutelné složky v klasickém lineárním modelu jsou hodnoty:
a) nějaké lineární regresní funkce
b) nějaké exponenciální regresní funkce
c) polynomu vyššího stupně
Řešení: a
Neodhadnutelné složky klasického lineárního modelu značíme symbolem:
a) π
b) χ
c) ε
Řešení: c
Hodnocení
Každá správná odpověď nebo výsledek výpočtu je hodnoceno jedním bodem.
Sebehodnocením je žádoucí dosáhnout alespoň 70% úspěšnost správných odpovědí. Jestliže
19
jste nedosáhli požadované úspěšnosti, pokuste se zlepšit svůj studijní výsledek pozornějším
studiem kapitoly, popřípadě se spojit s tutorem předmětu.
Korespondenční úkol:
Regresní analýzou byla ze zdrojových dat (proměnné xi; yi) získána rovnice funkce - přímka:
y = 4 + 0,1x. Zdrojová data jsou uvedena v následující tabulce:
Vypočítejte hodnotu indexu determinace a posuďte kvalitu regresního modelu.
Řešení: I2
= 0,4. Přímka není příliš vhodnou regresní funkcí.
3. Modul
Modul tvoří tři tematické okruhy. Každý je probírán samostatně, jako kapitola v učebním
materiálu.
Tématické okruhy:
3.1. Lineární trendy v časových řadách
3.2. Metody vícerozměrné statistické analýzy
3.3. Práce českého statistického úřadu, historie statistiky
Studijní cíle
V posledním modulu jsou studenti seznámeni se všemi běžně využívanými lineárními trendy
v časových řadách, kdy je kladen důraz zejména na přímku, parabolu a hyperbolu. Rovněž
jsou uvedeny i příklady nelineárních trendů, které problematiku v kontrastu doplňují.
Zmíněna je rovněž i problematika sezónních časových řad. Ve druhé kapitole tohoto modulu
jsou metody vícerozměrné statistické analýzy klasifikovány a vysvětleny jejich základní
principy. Na tohoto modulu se studenti seznámí se zásadními mezníky historie statistiky
celosvětovém měřítku i na území dnešní České republiky. Tato poslední kapitola je doplněna i
o výtah nejdůležitějších aktivit Českého statistického úřadu.
Klíčová slova:
Časová řada, lineární funkce, přímka, parabola, hyperbola, nelineární funkce, sezónní časové
řady, metody vícerozměrné statistické klasifikace, metody analýzy korelačních struktur,
historie statistiky, Český statistický úřad
3.1. Lineární trendy v časových řadách
20
U lineárních trendových funkcí (přímka, hyperbola, parabola) se číselné hodnoty parametrů
určují metodou nejmenších čtverců.
Parametry se určují tak, že je minimalizován součet druhých mocnin odchylek zjištěných
hodnot yt od zvolené trendové funkce:
.
Matematický postup metody nejmenších čtverců
Provedou se parciální derivace v součtu S podle jednotlivých parametrů a položí se rovny
nule. Takto získáme tzv. normální rovnice, jejichž řešením se získají hodnoty parametrů.
U dvouparametrické trendové funkce jde o dvě rovnice o dvou neznámých u tříparametrické
o tři rovnice o třech neznámých …
Přímkový trend - hodnoty časové řady rostou (klesají) lineárně s časem, přičemž první
diference jsou přibližně konstantní, druhé diference kolísají kolem nuly.
Hyperbolický trend - tato funkce se používá při zpomalujícím se rostoucím trendu (roční
přírůstky se postupně zmenšují) nebo naopak při zpomalujícím se klesajícím trendu.
Zda je pro popis trendu vhodná hyperbola určujeme z chování ročních přírůstků. Zpomalující
se rostoucí trend popisuje hyperbola s parametry b0>0 a b1<0, zatímco zpomalující se klesající
trend popisuje hyperbola s parametry b0>0 a b1>0.
Parabolický trend - první diference v čase jsou lineární, druhé diference přibližně
konstantní, třetí diference jsou nulové. Roční přírůstky rostou, či naopak klesají, ale přírůstky
ročních přírůstků (druhé diference) kolísají aniž by se systematicky zvětšovaly nebo
zmenšovaly.
Obecné rovnice výše uvedených funkcí již byly zmíněny v kapitole 1.3.
Kvalita trendových funkcí se vždy ověřuje výpočtem reziduí. Regresní funkci lze pokládat za
tím vhodnější, čím méně se zjištěné hodnoty yi budou lišit od teoretických hodnot Yi, tj. čím
bude reziduální součet čtverců bližší 0.
Nelineární funkce
V praxi se za trendové funkce nevolí pouze lineární funkce, ale i různé funkce nelineární,
kdy parametry některých z nich lze získat metodou nejmenších čtverců až po provedení
linearizující transformace, kde sledovaná proměnná y je nahrazena nějakou
neparametrickou funkci y*
(například exponenciála).
Sezónní časové řady
Jedná se o časové řady, v nichž je kromě trendu patrné i sezónní kolísání (například časové
řady čtvrtletních hodnot).
Při analýze sezónních časových řad jde o:
 vystižení jejich trendu (vhodná trendová funkce),
 vystižení jejich sezónního kolísání (využívají se sezónní odchylky nebo sezónní
indexy).
K popisu konstantního sezónního kolísání se používají sezónní odchylky.
K popisu proporcionálního sezónního kolísání se používají sezónní indexy.
Existuje několik metod analýz sezónních časových řad…
2
t
tt )T(yS  −=
21
Jednoduché metody:
 metoda empirických sezónních odchylek, užívaná pro časové řady s konstantní
sezónností,
 metoda empirických sezónních indexů, užívaná pro časové řady s proporcionální
sezónností.
Obě metody vycházejí z vyrovnání časové řady centrovanými klouzavými průměry.
S výhodou využíváme výpočet prognóz ze sezónně očištěných časových řad, tj. parametry
trendové funkce počítáme z očištěných hodnot.
3.2. Metody vícerozměrné statistické analýzy
Metody umožňují hodnotit větší počet proměnných jako jeden celek, tj. umožňují
komplexněji hodnotit statistické jednotky podle většího počtu proměnných, uvažovaných
současně.
Výpočty u těchto metod jsou velmi náročné a často s více variantami algoritmu řešení, proto
hojně využíváme výpočetní techniku a specializované počítačové programy.
Uživatel těchto metod musí znát podmínky použitelnosti těchto metod a způsob správného
vysvětlení získaných výsledů.
Charakteristika metod vícerozměrné statistické analýz:
1. Metody vícerozměrné statistické klasifikace
Jedná se metody, které jsou orientovány na rozlišování a rozdělování mnohorozměrných
statistických jednotek do dvou či více stejnorodějších souborů, do kterých jsou řazeny
jednotky co nejvíce navzájem podobné, zatímco jednotky z různých souborů jsou co nejvíce
navzájem odlišné: diskriminační analýza; shluková analýza
2. Metody analýzy korelačních struktur
Tyto metody se zabývají racionální redukcí dimenze (rozsahu) řešeného problému, tj.
koncentrací informací obsažených ve větším počtu proměnných do podstatně menšího počtu
skupin proměnných: faktorová analýza; analýza hlavních komponent; kanonická
korelační analýza
Diskriminační analýza
Ve dvou či více předem určených souborech statistických jednotek stejného typu je sledován
větší počet proměnných (měřených statistických znaků).
 Výsledkem diskriminační analýzy je diskriminační funkce, umožňující zařazovat s
minimální chybou rozhodnutí statistické jednotky do správného souboru.
 Cílem je sestavit na základě výběrů z několika souborů (min. dvou) diskriminační
kritérium umožňující zatřiďovat studované jednotky do těchto souborů
 Metoda umožňuje stanovit „důležitost“ jednotlivých proměnných pro rozlišitelnost
souborů od sebe, tj. určuje podíly proměnné na celkové spolehlivosti rozlišení
souborů.
Shluková analýza (Cluster Analysis)
Účelem shlukové analýzy je rozdělení souboru do určitého počtu skupin, kde jednotlivé
skupiny jsou relativně stejnorodé, tj. jednotky uvnitř skupiny, tzv. clusteru, se příliš neliší,
ale skupiny navzájem se liší hodně.
Využití shluková analýzy:
• marketingové výzkumy,
22
• segmentace trhu,
• přírodní vědy (molekulární genetika → genetické vzdálenosti druhů, jedinců…).
Typickým grafickým výstupem shlukové analýzy dendrogram.
Faktorová analýza
Formálně představuje zvláštní typ regrese, která zkoumá závislost proměnných (v realitě
pozorovatelných, měřitelných) na námi nepozorovatelných (neměřitelných, skrytých)
proměnných. Tyto proměnné se označují jako společné faktory.
V každé vytvořené homogennější skupině proměnných lze využít výsledek metody faktorové
analýzy:
 k pořadí důležitosti jednotlivých proměnných,
 k identifikaci a vyhodnocení vzájemných mnohostranných závislostí mezi
proměnnými ve skupině,
 k návrhu na eventuální redukci počtu proměnných (vyřazení nejméně významných
proměnných soustavy),
 k návrhu na získání agregovaných (sdružených, sloučených) informací (za celou
skupinu proměnných, sdružených jedním společným faktorem).
Analýza hlavních komponent
V jediném souboru statistických jednotek sledujeme větší počet proměnných, z nichž každá
obsahuje určitou část několika rozlišitelných kategorií (komponent) studované souhrnné
informace.
Touto metodou vymezujeme tyto kategorie, tzv. hlavní komponenty.
Algoritmem metody analýzy hlavních komponent jsou koeficienty, které udávají, jak se na
každé hlavní komponentě podílejí jednotlivé proměnné. Algoritmus metody zajišťuje
sestupnou prioritu hlavních komponent.
Po formální stránce je výsledek podobný faktorové analýze.
Kanonická korelační analýza
Soustavu proměnných, na rozdíl od vícenásobné regrese a korelace (kde je jediná závisle
proměnná y a několik nezávislých proměnných x, z, u, v…) rozdělujeme na dvě
podsoustavy o větším počtu proměnných a vzájemnou závislost těchto podsoustav měříme co
nejmenším počtem koeficientů (první, druhý, popřípadě třetí koeficient kanonické korelace).
Modul kanonická korelace hledá obecný lineární vztah mezi dvěma vícerozměrnými
proměnnými X a Y s obecně různými dimenzemi m1, m2.
Preferenční analýza
Preferenční analýza vychází z další vícerozměrné statistické metody a to z analýzy rozptylu
(ANOVA – Analysis of Variance). Zdrojová data jsou však diskrétní proměnné (stupnice).
Využití:
Jak navrhnout výrobek, aby byl přitažlivý na trhu, kdy zákazníci vyjadřují své preference
pomocí stupnice.
Analýza marketingových průzkumů k detekci proměnných, které nejvíce ovlivňují volbu
produktu (vůně, chuť, barva, vzhled…).
23
Analýza rozptylu – ANOVA (Analysis of Variance)
Princip algoritmu výpočtu analýzy rozptylu je rozklad celkového zdroje variability všech
údajů na více složek, z nichž jedna je vyjádřená tzv. reziduálním (vnitřním) rozptylem, který
měří přirozené kolísání hodnot sledovaného znaku v každé třídě (porovnávané výběrové
soubory) okolo průměru třídy (kategorie). Další složky rozkladu měří kolísání hodnot
způsobené tzv. efektem třídění.
Nulová hypotéza H1, tvrdí, že rozptyl vyjadřující efekt třídění je průkazně větší než rozptyl
reziduální neboli existuje alespoň jedna dvojice průměrů vykazující statisticky významný
rozdíl na zvolené hladině významnosti α.
Průkaznost rozdílů mezi rozptyly hodnotíme pomocí F- testu, což je základní část výpočtu
analýzy rozptylu.
Je-li přijata H1 (alternativní hypotéza) detailní dvojice průměrů, které se mezi sebou liší, pak
řeší metody podrobnějšího vyhodnocení analýzy rozptylu:
 T- metoda = Tukeyho metoda,
 S - metoda = Scheffého metoda aj.
Autorem metody ANOVA je Sir Ronald Aylmer Fisher (1890 -1962), anglický statistik,
evoluční biolog a genetik.
T-testy
Testy se využívají pro porovnání střední hodnoty jednoho nebo dvou normálně rozdělených
základních souborů.
Kritické hodnoty pro t-testy vyhledáváme ve statistických tabulkách Studentovo t –rozdělení,
jejichž autorem je William Sealy Gosset přezdívaný „Student“.
3.3. Práce českého statistického úřadu, historie statistiky
Uvedená kapitola modulu vychází z internetových stránek Českého statistického úřadu a v
plném rozsahu se odkazuje na samostatnou práci studentů s informacemi (včetně historie
statistiky) uvedenými na internetové adrese:
http://www.czso.cz.
Studenti mají možnost navštívit studovnu Českého statistického úřadu a využít mnohé
bezplatné služby této instituce se sídlem v Praze a to na adrese:
Na padesátém 81
100 82 Praha 10
Tel.: 274 051 111 (ústředna).
Shrnutí kapitoly
V kapitole byly popsány nejvýznamnější lineární trendy časových řad využívaných
v ekonomické praxi v kontrastu s nelinárními trendy. Dále byly popsány základní principy
sezónnosti v časových řadách. Studenti byli seznámeni se základní klasifikací
nejvýznamnějších metod vícerozměrné statistické analýzy. Byly shrnuty jejich základní
principy s důrazem na objasnění zásadních výpočtů u vybraných analýz. Poslední část modulu
odkazuje studenty na internetové stránky Českého statistického úřadu, kde si mohou
individuálně vyhledat stěžení informace o činnosti této státní instituce a rovněž o historii
statistiky na celosvětové i tuzemské úrovni včetně osobností spojenými s problematikou a
historií statistiky.
Pojmy k zapamatování:
24
Časová řada, lineární trend, přímka, parabola, hyperbola, nelineární trend, exponenciála,
metody vícerozměrné statistické analýzy, metody vícerozměrné statistické klasifikace,
diskriminační analýza; shluková analýza, metody analýzy korelačních struktur
faktorová analýza; analýza hlavních komponent; kanonická korelační analýza, analýza
rozptylu, preferenční analýza, T-test, Český statistický úřad.
Úkoly k zopakování a procvičení
Příklad 3.1.:
Mezi lineární funkce nepatří:
a) parabola
b) hyperbola
c) exponenciála
Řešení: c
Při zpomalujícím se rostoucím trendu nebo naopak při zpomalujícím se klesajícím trendu je
typickou funkcí popisující uvedený trend:
a) přímka
b) hyperbola
c) parabola
Řešení: b
K popisu konstantního sezónního kolísání se používají:
a) sezónní odchylky
b) sezónní indexy
c) regresní koeficienty
Řešení: a
Příklad 3.2.:
Mezi metody vícerozměrné statistické klasifikace nepatří:
a) preferenční analýza
b) diskriminační analýza
c) shluková analýza
Řešení: a
Nejběžnějším grafickým výstupem shlukové analýzy je:
a) polygon
b) hisogram
c) dendrogram
Řešení: c
Základní část výpočtu analýzy rozptylu tvoří:
a) F-test
b) T- test
c) χ2
- test
Řešení: a
Příklad 3.3.:
Český statistický úřad - centrála:
a) sídlí v Brně
25
b) sídlí v Praze
c) nemá sídlo, pracuje pouze on-line
Řešení: b
Mezi významné statistiky patří:
a) Thomas Korrel
b) Karl Pearson
c) Peater Cluster
Řešení: b
Česká republika je z hlediska historie statistiky, využívaní a rozvoje statistických metod:
a) velmi zaostalá, stejně jako středoafrické státy
b) na nejvyšší úrovni v celosvětovém srovnání
c) zhruba na úrovni USA
Řešení: b
Korespondenční úkol:
Vyhledejte na internetových stránkách přesné iniciály a data narození, případně úmrtí
zakladatele metody ANOVA.
Řešení: Sir Ronald Aylmer Fisher (1890 - 1962).
Hodnocení
Každá správná odpověď nebo výsledek výpočtu je hodnoceno jedním bodem.
Sebehodnocením je žádoucí dosáhnout alespoň 70% úspěšnost správných odpovědí, výsledků
výpočtů. Jestliže jste nedosáhli požadované úspěšnosti, pokuste se zlepšit svůj studijní
výsledek pozornějším studiem kapitoly, popřípadě se spojit s tutorem předmětu.
Další studijní zdroje
http://new.euromise.org/czech/tajne/ucebnice/html/html/node9.html
http://www.economics.soton.ac.uk/staff/aldrich/Figures.htm
http://www.czso.cz/