1 Studijní opory předmětu MT 105 KVANTITATIVNÍ METODY v kombinovaném studiu Vysoké školy hotelové v Praze, magisterský studijní program všech oborů Předmět MT 105 KVANTITATIVNÍ METODY je složen ze dvou rovnocenných částí a to z části statistika a z části matematika a je určen studentům kombinovaného studia všech oborů VŠH. Výuka předmětu "MT 105 „ KVANTITATIVNÍ METODY v kombinovaném studiu Výuka probíhá ve třech modulech, celkem 18 hodin, každý modul je šestihodinový (6 - 6 - 6). Poměr výuky části statistika a matematika je 50% pro statistiku a 50% pro matematiku. Formou atestace je zkouška (8 kreditů). Garant předmětu: Doc. RNDr. Miloslav Malec, CSc. Přednášející: Doc. RNDr. Miloslav Malec, CSc.; Dr. Ing. Sylva Skupinová Cvičící: Doc. RNDr. Miloslav Malec, CSc.; Dr. Ing. Sylva Skupinová (podle počtu studentů zapsaných v tutoriálu) Zkoušející: Doc. RNDr. Miloslav Malec, CSc.; Dr. Ing. Sylva Skupinová Obsahová náplň předmětu MT105 část statistika 1. Vyhodnocování údajů získaných náhodným výběrem náhodným výběrem 2. Statistické testy 3. Analýza časových řad 4. Exponenciální trendy, exponenciální vyrovnání 5. Regresní a korelační analýza 6. Metoda nejmenších čtverců – další aplikace 7. Vícenásobná regrese a korelace 8. Korelace časových řad, opožděná korelace, autokorelace 9. Regresní modely 10. Lineární trendy v časových řadách 11. Sezónní časové 12. Metody vícerozměrné statistické analýzy 13. Statistické zajímavosti, historie statistiky, Český statistický úřad Obsahová náplň předmětu MT105 část matematika 1. Elementární funkce, základní vlastnosti funkcí, limita, spojitost funkce, limita posloupnosti 2. Derivace a její výpočet. Vyšší derivace 3. Tečna ke grafu funkce. L`Hospitalovo pravidlo. Diferenciál. 4. Extrémy funkce, funkce konvexní, konkávní, inflexní bod 5. Průběh funkce. Numerické řešení rovnic (Newtonova metoda) 6. Neurčitý integrál, metody jeho výpočtu 7. Určitý integrál, jeho výpočet. Výpočet plošného obsahu. 8. Nevlastní integrál. Numerická integrace 9. Funkce dvou proměnných, její graf. Parciální derivace a její výpočet. 10. Lokální extrémy. Metoda nejmenších čtverců. 11. Prostor n-tic. Matice, jejich algebraické operace. Hodnost matice a její výpočet. 12. Soustavy lineárních algebraických rovnic. Existence řešení. Gaussova eliminace. 13. Determinant matice, jeho výpočet. Cramerovo pravidlo. Inverzní matice 2 Cíle výuky předmětu MT105 Studenti budou seznámeni se základními i nadstavbovými matematickými a statistickými operacemi a postupy používanými v ekonomické a hospodářské praxi. Předmět je zaměřen rovněž na problémy vznikající při aplikacích těchto metod. Získané poznatky studenti využijí v navazujících předmětech magisterského studia popřípadě při zpracování dat v diplomové práci. Osvojené postupy z oblasti statistiky a matematiky umožní studentovi pochopit základní principy ekonomických modelů používaných v praxi. Požadavky ke zkoušce Předmět MT 105 Kvantitativní metody je ukončen písemnou a ústní zkouškou. Předpokladem pro její složení je: • aktivní účast na výuce v jednotlivých modulech (soustředění) • prostudování základní literatury a studijních opor • splnění korespondenčních úkolů • úspěšné absolvování závěrečných testů a ústní části zkoušky Organizace studia Výuka předmětu "MT 105 Kvantitativní metody" (semestrální kurz) je rozdělena na kontaktní a distanční část a probíhá ve třech modulech. Kontaktní výuka (18 hodin) je realizována v rámci tří soustředění, jde o 6 + 6 + 6 hodin přímé výuky. Části statistika a matematika jsou rovnocenné, každá část zaujímá 50% výuky. V každém soustředění se uskuteční výuka jednoho modulu, který tvoří dvě povinné části: "tutoriál" a "průvodce studiem". Převážná část kombinovaného studia předmětu MT 105 má sice distanční formu, avšak z hlediska pedagogického přístupu ke studentům a jejich možnostem spolupracovat s vyučujícím (tutorem), jde o průběžnou výuku. Na tutoriálech a ve studijních materiálech jsou zadávány úkoly, jejichž splněním student dokládá průběžnost svého studia. Komunikace s vyučujícím je zajištěna přes Internet (malec@vsh.cz; skupinova@vsh.cz) a v průběhu semestru může student navštívit konzultační hodiny učitele. V případě problémového tématu má možnost navštívit přednášky či semináře prezenčního studia. Pokud mu nestačí konzultace telefonická či prostřednictvím výukového prostředí (IS), může si student domluvit individuální (event. kolektivní) konzultaci. Administrativu studia zajišťuje příslušná referentka studijního oddělení. Všechny kontakty mezi učitelem a studujícím probíhají v rámci informačního systému VŠH. Časový harmonogram výuky a obsahové zaměření modulů část statistika: 1. modul (září) = Vyhodnocování údajů získaných náhodným výběrem (téma 1 - 4) 2. modul (listopad) = Regresní a korelační analýza (téma 5 - 9) 3. modul (leden) = Lineární trendy v časových řadách; Metody vícerozměrné statistické analýzy (téma 10 - 12) Časový harmonogram výuky a obsahové zaměření modulů část matematika: Obsahová náplň předmětu MT105 – Kvantitativní metody. (Látka následujících odstavců odpovídá náplni jednotlivých soustředění.) 1. Základy diferenciálního počtu s aplikacemi – pojem limity a derivace, její výpočet a význam; aplikace – extrémy funkcí, průběh funkce, numerické metody. 3 2. Elementy integrálního počtu funkce jedné proměnné – primitivní funkce, neurčitý integrál, určitý integrál, nevlastní integrál, výpočet velikosti ploch, numerický výpočet určitého integrálu. 3. Funkce dvou proměnných, parciální derivace, extrémy funkce dvou proměnných, metoda nejmenších čtverců. 4. Základy lineární algebry – algebra matic, determinant matice, soustavy lineárních rovnic, Gaussova eliminace, Cramerovo pravidlo, inverzní matice. Předmět MT105 bezprostředně navazuje na předmět MT003 – Statistika z bakalářského studia. Co se týče matematické části předmětu MT105, je tedy nutno zdůraznit, že se u studentů předpokládá znalost látky, která je obsažena ve skriptech VŠH Malec, M.: Elementární matematika, dále jej budeme označovat M I. Dále rozebereme tento požadavek podrobněji: a) Student by měl bez problémů zvládnout úpravu algebraických výrazů: zlomky, mocniny, jednoduché vzorce, práce se závorkami a sumačním symbolem ∑. Látka je obsažena v kap. II skript M I. b) Definice funkce, její graf v souřadném systému, funkce lichá, sudá, periodická, omezená, monotonní, geometrická interpretace. Funkce prostá, inverzní, výpočet inverzní funkce, vztah prosté funkce a k ní inverzní – geometrická interpretace. Dále posloupnost, posloupnost aritmetická, geometrická, aplikace. c) Základní elementární funkce, jejich definice, vlastnosti. Student by měl zvládnout náčrtek jejich grafu. Jedná se o funkce lineární, kvadratické, kubické, lomené a mocninné, exponenciální a k nim inverzní – logaritmické, goniometrické a k nim inverzní – cyklometrické. Zdůrazněme zejména výpočty s logaritmy. Látka odstavce b) a c) je obsažena v kap. III skript M I. d) Řešení rovnic lineárních, kvadratických, jejich soustav, jednodušších iracionálních, exponenciálních, logaritmických, goniometrických, řešení jednoduchých nerovností. Látku lze najít v kap. IV skript M I. Obsah kap. V a VI skript M I bude podstatně rozšířen v předmětu MT105. V dodatku těchto opor bude rozšířena látka kap. VII skript M I – pravděpodobnost o další pojmy potřebné k výkladu statistické části předmětu MT105. Cíle výuky matematické části předmětu MT105 Úkolem výuky matematiky na vysokých školách ekonomického směru je jednak rozvíjet logické a analytické myšlení studentů a dále poukázat na možnost aplikace matematického aparátu při kvantitativním popisu ekonomických jevů a statistiky. Cílem výuky matematické části předmětu MT105 je vyhovět standardní oblasti matematiky v přiměřené hloubce a rozsahu a naučit ji aplikovat v ekonomických a dalších předmětech. Jsou to následující kapitoly: a) Základy diferenciálního a integrálního počtu funkcí jedné proměnné a jejich aplikace. b) Extrémy funkce dvou proměnných, metoda nejmenších čtverců. c) Elementy lineární algebry zaměřené na řešení soustav lineárních rovnic. Látka je v dostatečné míře obsažena ve skriptech VŠH z r. 2008 Malec, M.: Kvantitativní metody – dále stručně M II. Kap. I skript M II dává přehled základních pojmů a vlastností funkcí. Odstavce 2.5, 3.6, 4.6, 6.7 a 6.8 skript M II obsahují pojmy: řady, Taylorův polynom, diferenciální rovnice, vlastní čísla matice, základy optimalizace. Mají za úkol čtenáře informovat o důležitých matematických pojmech s obsáhlými aplikacemi, ale nejsou předmětem zkoušky. 4 V kombinovaném studiu je kladen zásadní důraz na samostatné studium (viz metodický list předmětu MT 105). Jednotlivá soustředění odpovídají uvedeným odstavcům obsahové náplně předmětu. Výklad látky ve skriptech je názorný, důraz je kladen na základní pojmy a jejich aplikaci. Publikace obsahuje dostatek řešených příkladů. Při jistém úsilí zvládne probíraná témata s úspěchem velká část studentů. Způsob ověření znalostí je následující: a) Na konci druhého soustředění se píše průběžný test (30 min.). Bude obsahovat jednoduché příklady na aplikaci derivace a integrálu. b) Po ukončení těchto soustředění se lze přihlásit na závěrečný test (45 min.). Termínů je k dispozici množství, není nutné skládat zkoušku na prvních termínech. Lépe je zažít probíranou látku a ponechat si dostatek času na procvičování. Ukázka testu je uvedena v oddíle zabývajícím se studijními oporami. Složitější vzorce i znění pouček budou mít studenti na všech uvedených testech k dispozici. Výsledky testů budou vždy v přiměřeném čase k dispozici na informačním systému VŠH. Nakonec proběhne ústní zkouška (cca 15 min.), kde předmětem diskuze bude závěrečné posouzení analytického uvažování studenta. Výsledná klasifikace je stanovena na základě hodnocení testů a ústní části zkoušky. Dotazy a diskuze k vstupnímu a průběžnému testu se řeší na konzultacích, resp. pomocí informačního systému VŠH. Konzultace se konají dvakrát týdně, doba konání je vždy k dispozici na informačním systému školy. Důraz je kladen na samostatné studium. Uvedená skripta obsahují probíranou látku a jsou svým obsahem dostatečná. K hlubšímu studiu je uvedena doporučená literatura. Jedná se o učebnice matematiky a statistiky dlouhodobě užívané na VŠE Praha. Tutoriály: Na úvodním tutoriálu na začátku semestru jsou studenti seznámeni, v rámci tzv. průvodce kurzu, s obsahem předmětu, s časovým rozvržením výuky jednotlivých tématických okruhů, s místem předmětu ve studijním plánu oboru, s povinnou literaturou, cílem výuky a s požadavky ke zkoušce. Je zde vysvětlen přístup k tzv. studijním oporám (studijní materiály, metodické listy) a způsob odevzdávání kontrolních úkolů (testů) v informačním systému VŠH. Studentům je objasněn způsob hodnocení kontrolních úkolů a termíny jejich odevzdávání. Je probrána celková organizace výuky. Na průběžném tutoriálu (uprostřed semestru) učitel vyhodnocuje dosavadní práci studentů. Studenti musí zaslat vyřešené úkoly elektronicky před zahájením týdne konzultací. Učitel upozorní na závažné nedostatky a v případě potřeby obtížná témata vysvětlí. Na závěrečném tutoriálu na konci semestru učitel vyhodnotí uložené úkoly z minulého tutoriálu a práci studentů za celý semestr. Upozorní na problémové otázky tématických okruhů ke zkoušce. Podle potřeby proběhne společná konzultace. Studenti jsou seznámeni s časovým harmonogramem zkoušek. Průvodce studiem: V této kontaktní části studia je proveden metodický výklad (přednáška) daného tématického celku. Studenti jsou seznámeni s tím, co budou studovat z povinné literatury (musí být k dispozici pro studenty), jaká úskalí je čekají při samostudiu a jak jim bude učitel pomáhat při studiu. Velká pozornost je věnována jejich práci se studijními oporami, které jim nahrazují bezprostřední kontakt s vyučujícím na cvičeních (seminářích). Studijní opory jsou připraveny pro každý tématický okruh (kapitolu učebnice). Jejich součástí jsou: cíle, úvod, vlastní výklad tématu, shrnutí vyložené problematiky, klíčové pojmy, úkoly k zopakování a procvičení, 5 odkazy na další studijní zdroje a hodnocení. Studijní opory jsou vloženy v rámci IS do části studijní materiály předmětu MT105. Zpětnovazební prvky výuky (korespondenční úkoly) vyučující vkládají v informačním systému do položky odpovědníky. Jejich zadání musí být jednoznačné a nesmí umožňovat různá řešení (pokud to ale není záměr vyučujícího). Vypracované úkoly studenti vkládají do odevzdavárny, event. přímo vyučujícímu. Při studiu předmětu MT105 student využívá tři informační zdroje: metodologický výklad učitele, který vychází z předepsané literatury kontaktní výuku v rámci tutoriálu a samostudia; předepsanou literaturu a metodické materiály Průvodce studiem jednotlivých MODULŮ A) Studijní opory předmětu MT 105 část STATISTIKA v kombinovaném studiu Vysoké školy hotelové v Praze, magisterský studijní program všech oborů Studijní literatura Základní: Skupinová S.: Aplikovaná statistika. V tisku…. Marek, L.; Novák, I.; Vrabec, M.: Statistika II. Vysoká škola hotelová v Praze 8, Praha, 2004, 90 stran, ISBN 80-86578-30-5 Doporučená: Pecáková, I., Novák, I., Herzmann, J.:Pořizování a vyhodnocování dat. VŠE Praha, 2004,Oeconomica ISBN 80-245-0753-6 Hindls, R., Hronová, S., Novák, I.: Analýza dat v manažérském rozhodování. VŠE Praha, 1999 ,Grada, ISBN 80-7169-255-7 Hindls, R. a kol.: Statistika pro ekonomy. Professional Publishing, Praha 2007. 1. Modul Modul tvoří tři tématické okruhy. Každý je probírán samostatně, jako kapitola v učebním materiálu. Tématické okruhy: 1.1. Statistické odhady 1.2. Statistické testy 1.3. Analýza časových řad Studijní cíle V této kapitole se studenti seznámí se základními postupy při vyhodnocování údajů získaných náhodným výběrem. Bude objasněna teorie bodových a intervalových odhadů s důrazem na symetrické oboustranné intervaly. Dále budou studenti seznámeni s typy alternativ a statistickým testováním. Poslední tematický okruh seznámí studenty s dekompozicí časových řad a s jejími elementárními složkami s důrazem na exponenciální trendy v časových řadách. 6 Klíčová slova: bodový odhad, intervalový odhad, spolehlivost odhadu, statistický test, typy alternativ, testovaná a alternativní hypotéza, testové kritérium, časové řady, exponenciála, exponenciální vyrovnání 1.1. Statistické odhady Odhady charakteristik základního souboru : bodové - jedna číselná hodnota (průměr základního souboru µ se bodově odhaduje výběrovým průměrem ) intervalové - interval hodnot Jedná se o odhady charakteristik základního souboru takovými intervaly, v nichž lze se zvolenou pravděpodobností očekávat hodnoty očekávaných charakteristik. Zvolená pravděpodobnost = spolehlivost odhadu a značí se 1-αααα. Příklad: Byla zvolena spolehlivost 95% Hovoříme pak o 95% spolehlivosti, nebo že příslušný interval je 95%ním intervalem spolehlivosti, kdy platí, že 1-αααα = 0,95. Pak existuje 5% riziko, že intervalový odhad bude chybný, tj. že hodnota odhadované charakteristiky bude mimo udaný interval. Odhady relativní četnosti Bodovým odhadem relativní četnosti v základním souboru ∏∏∏∏ je výběrová relativní četnost p. Pro zvolenou spolehlivost odhadu 1-αααα (například 95%) a je-li np(1-p)>>>>9 (což bývá při velkých výběrech obvykle splněno), je dvoustranný interval spolehlivosti vymezen nerovností: , kde - kvantil normovaného normálního rozdělení. Odhady aritmetického průměru Bodovým odhadem průměru základního souboru µ je výběrový průměr . Dvoustranný symetrický interval spolehlivosti je pak při větších výběrech (již kolem 100 jednotek a větších) vymezen nerovností: , kde x - určitá proměnná n - rozsah souboru - aritmetický průměr výběrového souboru µ - aritmetický průměr základního souboru Sx - výběrová směrodatná odchylka - kvantil normovaného normálního rozdělení. 1.2. Statistické testy x ∆pΠ∆p +≤≤− n p)p(1 u∆ 2 α 1 − = − 2 α 1 u − x ∆xµ∆x +≤≤− n S u∆ x 2 α 1− = x 2 α 1 u − 7 Při běžně používaných testech se proti sobě staví dvě hypotézy: testovaná hypotéza - H0 x alternativní hypotéza - H1. Testovaná hypotéza něco tvrdí a alternativní hypotéza to popírá. Výsledkem statistického testu je buď přijetí testované hypotézy nebo její zamítnutí, tj. přijetí alternativní hypotézy. Chyby ve statistickém testování Chybně může být přijata jak alternativní tak testovaná hypotéza. Hladina významnosti - αααα je pravděpodobnost chybného přijetí alternativní hypotézy – chyba prvního druhu . Hladina významnosti α se volí, nejčastěji α = 0,05 ,tj. 5ti% hladina významnosti, tedy volíme 5ti% riziko, že na základě výběrových dat chybně přijmeme alternativní hypotézu. Pravděpodobnost chybného přijetí testované hypotézy, tj. chyba druhého druhu β, u většiny testů nelze volit. Testové kritérium K rozhodnutí o přijetí nebo zamítnutí testované hypotézy, slouží při každém testu určitá proměnná, jejíž hodnotu lze vypočítat z výběrových dat a která má při platnosti testované hypotézy určité pravděpodobnostní rozdělení. Tato proměnná se nazývá testové kritérium (testová statistika). Obor hodnot testového kritéria se rozděluje na obor přijetí a kritický obor. Hodnoty, které tyto obory od sebe oddělují se nazývají kritické hodnoty a lze je vyhledat ve statistických tabulkách. Jestliže hodnota testového kritéria, vypočítaná z výběrových dat padne do oboru přijetí, přijímá se testovaná hypotéza. Jestliže vypočítaná hodnota padne do kritického oboru, zamítá se H0 a přijímá se H1. Kritický obor je volen tak, aby pravděpodobnost, že hodnota testovaného kritéria padne do kritického oboru při platnosti testované hypotézy, byla rovna zvolené hladině významnosti αααα. Výsledek testu závisí mimo jiné na zvolené hladině významnosti α, která se volí. Aby nemohlo dojít k nedorozumění, je nutné u každého testu použitou hladinu významnosti uvést. Čím nižší je hladina významnosti, tím je kritický obor užší. Typy alternativ statistických testů: • dvoustranná alternativa • levostranná alternativa • pravostranná alternativa. Některé statistické testy používané v marketingových výzkumech Všechny tyto testy vycházejí z předpokladu, že výběrový soubor je náhodným výběrem z nekonečného základního souboru nebo tzv. prostým náhodným výběrem z konečného základního souboru, jehož rozsah je mnohonásobně větší než rozsah výběrového souboru. 8 Každý statistický test je použitelný pouze za určitých podmínek. Nejsou-li tyto podmínky splněny, může vést jeho použití k dezinformaci. Test hypotézy o relativní četnosti při velkém výběru (v základním souboru) Relativní četnost základního souboru - ∏∏∏∏ Formulace testované hypotézy H1 závisí na tom, co chceme prokázat. Hodnota ∏0 je hypotetická hodnotou relativní četnosti ∏. Je to hodnota, kterou předpokládá testovaná hypotéza. Testovaná hypotéza se obvykle vyjadřuje zápisem: H0: ∏=∏0 Proti testované hypotéze lze podle povahy problému postavit alternativní hypotézu: pravostrannouH1:∏ >∏0 levostrannou H1: ∏< ∏0 dvoustrannou H1: ∏ ≠ ∏ Je-li rozsah výběru n velký používá se testové kritérium: Podmínka: součin n∏0(1-∏0) musí být větší než 9. U - hodnota testového kritéria ∏0 - hypotetická hodnotou relativní četnosti ∏ p - výběrová četnost n - rozsah souboru Vymezení kritického oboru*: Při testu hypotézy H0 proti pravostranné alternativní hypotéze je kritický obor vymezen nerovností: Při testu hypotézy H0 proti levostranné alternativní hypotéze je kritický obor vymezen nerovností: Při testu hypotézy H0 proti dvoustranné alternativní hypotéze je kritický obor vymezen nerovností: /U/ - absolutní hodnota testového kritéria - kvantily normovaného normálního rozdělení . Test hypotézy o průměru při velkém výběru: Při testech hypotéz o průměru µµµµ základního souboru se ověřují hypotézy, že tento průměr je větší, menší případně jiný než hypotetická hodnota µµµµ0. )Π(1Π n)Π(p U 00 0 − − = α1uU −> α1uU −< 2 α 1 u/U/ − > ,u α1− 2 α 1 u − 9 Je-li rozsah výběru dostatečně velký (n>100), lze použít testové kritérium: - výběrový průměr Sx - výběrová směrodatná odchylka. Vymezení kritického oboru je shodné s výše uvedenou definicí označenou symbolem *. Hodnota µ0 je hypotetická hodnotou aritmetického průměru µ. Je to hodnota, kterou předpokládá testovaná hypotéza. Testovaná hypotéza se obvykle vyjadřuje zápisem: H0: µ = µ 0. V závislosti na formulaci alternativní hypotézy, lze použít některou z alternativ: pravostrannou H1:µ > µ 0 levostrannou H1: µ < µ 0 dvoustrannou H1: µ ≠ µ 0. χ2 test - test dobré shody: χχχχ2 – test umožňuje ověření platnosti hypotézy H0 „náhodný výběr pochází z daného rozdělení“ ⇒ ověření hypotézy o rozdělení v základním souboru. H0 – rozdělení je určitého typu H1 – rozdělení je jiného typu, ale nelze specifikovat jakého. χ2 – test s výhodou aplikujeme při výzkumech veřejného mínění a v marketingu. Mac Nemarův test změny názorů: Názory dotazovaných osob na řešenou problematiku se mohou, pod vlivem určité informace (reklamní kampaň, vyjádření odborníků) nebo po provedení určitého opatření, měnit. Cílem testu je posoudit, zda došlo ke změně názoru v základním souboru. H0: tvrdí, že názory se nezměnily = nedošlo ke změně H1: tvrdí, že došlo ke změně, ale neříká, zda k lepšímu či k horšímu (toto lze odhadnout ze zdrojových dat). Test se s výhodou využívá při posuzování účinnosti reklamy. Pro Mac Nemarův test se používá testové kritérium, které má při platnosti testované hypotézy přibližně χ2 rozdělní o jednom stupni volnosti. 1.3. Analýza časových řad Časová řada = vývojová tendence. Jedná se o zásadní a neoddělitelnou analytickou práci v ekonomické oblasti. Předpoklad: existují data různých ukazatelů v časové řadě. Odhad budoucích hodnot = extrapolace časové řady. Prognózy do vzdálené budoucnosti předpokládají neměnný trend. Při analýze časových řad je nutné vyžadovat věcnou, prostorovou a časovou srovnatelnost údajů. Srovnatelnost údajů je vždy nutno před jejich statistickou analýzou prověřit! x 0 S n)µx( U − = x Délka časové řady se volí v závislosti na kvalit Dekompozice časových řad Pro dekompozice časových řad je nutné uvažovat následující p časovou řadu lze rozložit na systematické (a odhadnutelné) složky a na náhodnou Systematické složky: • trendová • sezónní • cyklická složka. Trendová složka - odráží dlouhodobou vývojovou tendenci (nap zpomalující se růst či pokles), kterou lze popsat n funkcí). Sezónní složka - popisuje pravideln čtvrtletích či měsících) několika po sob Cyklická složka - popisuje dlouhodobé výkyvy kolem trendu, tedy výkyvy opakující se vždy po několika letech. Elementární charakteristiky časových Ze zjištěných dat se velmi často po Velmi často se počítá i průmě jednotlivých koeficientů růstu: , kde k2 Popis trendu časových řad ročních hodnot: Trendové funkce jsou různé matematické funkce, kde platí následující p v časové řadě se projevuje pouze ur řady platí: t = 1,2, …, n Tt - je odhad trendové složky et - je reziduum. Hodnoty Tt jsou hodnotami trendové funkce T = f(t), kde f(t) je n časové proměnné t. Může to být nap hyperbola , parabola (T = b0 + b1t + b2t2 ) aj. b0, b1, b2 - parametry, jejichž č funkce k odhadům do budoucna. Při popisu trendu matematickými funkcemi jsou 1-n n32 .....k.kkk = t 1 bbT 10 += 10 ady se volí v závislosti na kvalitě vstupních dat. řad je nutné uvažovat následující předpoklad: adu lze rozložit na systematické (a odhadnutelné) složky a na náhodnou odráží dlouhodobou vývojovou tendenci (například zrychlující i pokles), kterou lze popsat nějakou matematickou funkcí (tzv. trendovou popisuje pravidelně se opakující výkyvy v jednotlivých sezónách (nap ěkolika po sobě jdoucích let. popisuje dlouhodobé výkyvy kolem trendu, tedy výkyvy opakující se vždy Elementární charakteristiky časových řad často počítají roční přírůstky a roční koeficienty r ů ěrný roční koeficient růstu, který je geometrickým pr ů ůstu: – kn jsou roční koeficienty růstu. řad ročních hodnot: ůzné matematické funkce, kde platí následující předpoklad: se projevuje pouze určitý trend a náhodné kolísání. Pak pro hodnoty jsou hodnotami trendové funkce T = f(t), kde f(t) je nějaká matematická funkce ůže to být například přímka (T = b0 + b1t), ) aj. parametry, jejichž číselné hodnoty je třeba určit, aby bylo možno využít trendové m do budoucna. du matematickými funkcemi jsou řešeny dvě otázky: k adu lze rozložit na systematické (a odhadnutelné) složky a na náhodnou složku. říklad zrychlující či jakou matematickou funkcí (tzv. trendovou jednotlivých sezónách (například popisuje dlouhodobé výkyvy kolem trendu, tedy výkyvy opakující se vždy ní koeficienty růstů. geometrickým průměrem ředpoklad: itý trend a náhodné kolísání. Pak pro hodnoty časové ějaká matematická funkce it, aby bylo možno využít trendové 11 a) Jaká matematická funkce má být zvolena za trendovou funkci? Podkladem pro volbu vhodné trendové funkce bývá obvykle chování některých elementárních charakteristik časové řady: roční absolutní přírůstek roční relativní přírůstek roční koeficienty růstu ... Vodítkem volby matematické funkce popisující trend je grafické znázornění časové řady spojnicovým diagramem. Kvalita zvolené matematické funkce se ověřuje výpočtem reziduí. b) Jak se určí číselné hodnoty parametrů zvolené trendové funkce? U lineárních trendových funkcí (např. přímka, hyperbola parabola), se číselné hodnoty parametrů určují metodou nejmenších čtverců. Minimalizuje se součet druhých mocnin odchylek zjištěných hodnot yt od zvolené trendové funkce: Pro výpočet parametrů nelineárních funkcí (např. exponenciála, posunutá exponenciá) nelze použít metodu nejmenších čtverců! Parametry některých nelineárních funkcí lze získat metodou nejmenších čtverců až po provedení tzv. linearizující transformace, kdy sledovaná proměnná y je nahrazena nějakou neparametrickou funkcí y* , například y* = lny. Uvedená transformace se využívá například při výpočtu parametrů exponenciály . Má-li časová řada exponenciální trend je pro ní typické stálé roční tempo růstu. U posunuté exponenciály se využívá metoda částečných součtů, kdy se sledovaná časová řada rozdělí na několik částí o stejném počtu hodnot, přičemž počet částí je rovný počtu parametrů trendové funkce. Posunutá = modifikovaná exponenciála Tato funkce může vystihnout zrychlující se či zpomalující se rostoucí trend i zrychlující se či zpomalující se klesající trend. Exponenciální vyrovnání: Exponenciální vyrovnání je založeno na myšlence, že pro krátkodobé prognózy jsou čerstvější hodnoty časové řady důležitější než hodnoty starší. Máme-li časovou řadu ročních hodnot y1, y2,…yn-1, yn, přisuzuje se největší váha hodnotě yn, zatímco váhy ostatních hodnot postupně klesají ve směru k hodnotě y1. Stáří jednotlivých pozorování je vyjádřeno proměnnou k, která nabývá hodnot 0, 1,…n-1. Čím starší ročník tím je hodnota k vyšší. Nejmladší ročník časové řady má k = 0. Váhu jednotlivých hodnot časové řady vyjadřujeme čísly αk , kde αααα je vyrovnávací konstanta, kde α∈(0; 1). S klesající hodnotou α mají starší hodnoty menší význam! Obvykle není zájem na příliš rychlém poklesu vah starších hodnot, volí se zpravidla hodnoty vyrovnávací konstanty α bližší 1 (α = 0,7 - 0,9). Existují tři varianty exponenciálního vyrovnání časových řad ročních hodnot : Jednoduché exponenciální vyrovnání, kde se předpokládá, že v krátkých obdobích nemá časová řada ani rostoucí ani klesající trend. 2 t tt )T(yS ∑ −= t 10bbT = t 210 bbbT += 12 Dvojité exponenciální vyrovnání, kde se předpokládá, že v krátkých obdobích má časová řada lineární trend popsatelný přímkou. Trojité exponenciální vyrovnání, kde se předpokládá, že v krátkých období má časová řada parabolický trend. Nejčastěji se používá dvojité exponenciální vyrovnání. Chyba prognózy ∆ Po uplynutí roku n + 1 (nejmladší rok časové řady) zjistíme skutečnou hodnotu sledovaného ukazatele v tomto roce, tj. hodnotu yn+1. Pak můžeme vypočítat chybu prognózy Pn+1: Je-li ∆ kladné číslo, prognóza byla nadhodnocena, je-li ∆ záporné číslo, prognóza byla podhodnocena. Adaptivní metoda: Na základě nově zjištěných skutečností, lze jednoduše opravovat hodnoty parametrů trendové funkce. Shrnutí kapitoly V kapitole byly vysvětleny základní pojmy z oblasti statistických odhadů, statistických testů a analýzy časových řad. Byly představeny bodové a intervalové odhady aritmetického průměru a relativní četnosti v základním souboru. Dále byly vysvětleny základní statistické hypotézy v rámci statistického testování a možné typy alternativ. Byly popsány nejběžněji používané typy alternativ v testech hypotézy o relativní četnosti a průměru v základním souboru. V poslední části se problematika zaměřovala na analýzu časových řad, konkrétně na dekompozici časových řad a popis odhadnutelné složky matematickými funkcemi. Byl kladen důraz na exponenciální trendy v časových řadách a rovněž využití exponenciálního vyrovnání. Závěr kapitoly byl věnován výpočtu a chybě prognózy. Pojmy k zapamatování: Bodový a intervalový odhad, spolehlivost, typy alternativ, statistické testy, hladina významnosti, testovaná a alternativní hypotéza, testové kritérium, kvantily normálního a jiných rozdělení, časová řada, dekompozice časové řady, trendová funkce, typy trendů, exponenciální trend, nelineární funkce, exponenciální vyrovnání, prognóza, chyba prognózy, adaptivní metoda. Úkoly k zopakování a procvičení Příklad 1.1.: Spolehlivost odhadu označujeme symbolem: a) α b) 1 - α c) s Řešení: b Bodovým odhadem relativní četnosti základního souboru Π je: a) relativní četnost výběrového souboru p b) aritmetický průměr základního souboru µ c) směrodatná odchylka základního souboru σ Řešení: a 1n1n1n yP∆ +++ −= 13 Při výpočtu intervalového odhadu aritmetického průměru základního souboru je nutné mít k dispozici mimo jiné hodnoty: a) rozptylu základního souboru b) směrodatné odchylky základního souboru c) směrodatné odchylky výběrového souboru Řešení: c Příklad 1.2.: Při běžně používaných testech se proti sobě staví dvě hypotézy: a) pravostranná a levostranná b) oboustranná a nestranná c) nulová a alternativní Řešení c Hladina významnosti α = 0,01 vypovídá: a) o 99% riziku nesprávného přijetí alternativní hypotézy b) o 1% riziku nesprávného přijetí alternativní hypotézy c) o 1% riziku nesprávného přijetí nulové hypotézy Řešení: b Příklad 1.3.: Mezi systematické složky časové řady nepatří složka: a) cyklická b) neodhadnutelná c) trendová Řešení: b Parabola je trendová funkce: a) s dvěma proměnnými a třemi parametry b) s dvěma proměnnými a dvěma parametry c) se třemi proměnnými a dvěma parametry Řešení: a Je li prognóza podhodnocena, pak je chyby prognózy z intervalu a) (-∞; 0) b) (0; ∞) c) <-∞; 0> Řešení: a Hodnocení Každá správná odpověď nebo výsledek výpočtu je hodnoceno jedním bodem. Sebehodnocením je žádoucí dosáhnout alespoň 70% úspěšnost správných odpovědí. Jestliže jste nedosáhli požadované úspěšnosti, pokuste se zlepšit svůj studijní výsledek pozornějším studiem kapitoly, popřípadě se spojit s tutorem předmětu. Korespondenční úkol: Náhodně bylo vybráno 400 osob, z nichž 80 uvedlo, že má zájem o novou službu. Se spolehlivostí odhadu 95% proveďte intervalový odhad relativní četnosti Π základního souboru zájemců o novou službu. 14 Řešení: ∏ ∈ <0,1608; 0,2392>. 2. Modul Modul tvoří tři tematické okruhy. Každý je probírán samostatně, jako kapitola v učebním materiálu. Tématické okruhy: 2.1. Regresní a korelační analýza 2.2. Vícenásobná regrese a korelace 2.3. Regresní modely Studijní cíle V této kapitole se studenti seznámí s terminologií a metodickými postupy regrese a korelace. Budou seznámeni s jednoduchou jednostrannou korelací se vzájemnou regresí a korelací a s vícenásobnou regresí a korelací. Dále budou studenti seznámeni s charakteristikami, které hodnotí kvalitu regresního modelu a s koeficienty hodnotícími těsnost studovaných závislostí včetně vícenásobného korelačního koeficientu. Studenti se rovněž seznámí s multikolinearitou, opožděnou korelací, korelací v časových řadách a autokorelací. V poslední části této kapitoly bude studentům objasněn princip klasického lineárního modelu. Klíčová slova: jednostranná a vzájemná závislost, regrese a korelace, korelační koeficient, vícenásobná regrese a korelace, multikolinearita, korelace časových řad, opožděná korelace, autokorelace, regresní modely, klasický lineární model. 2.1. Regresní a korelační analýza Regresní a korelační analýza se zabývá zkoumáním statistických závislostí číselných proměnných. Jsou to závislosti, kdy stejným hodnotám jedněch proměnných mohou odpovídat různé hodnoty jiných proměnných. Z hlediska počtu proměnných v regresní a korelační analýze rozlišujeme: Jednoduchou regresní a korelační analýzu, která zkoumá závislost 2 číselných proměnných: x – nezávisle proměnná (vysvětlující proměnná) y – závisle proměnná (vysvětlovaná proměnná). Vícenásobná regresní a korelační analýza, která zkoumá závislost 3 a více číselných proměnných: x, z, u, v… – nezávisle proměnné (vysvětlující proměnné) y – závisle proměnná (vysvětlovaná proměnná). Jednoduchá regresní a korelační analýza 15 Při zkoumání závislosti mezi proměnnými je nejdříve nutné posoudit, zda závislost existuje, tedy lze-li vysvětlovat změny hodnot jedné proměnné – vysvětlované = závisle proměnné, změnami hodnot proměnné druhé – vysvětlující = nezávisle proměnné. Podle charakteru závislosti rozlišujeme u jednoduché regrese a korelace: a) Jednostrannou závislost (regresní analýza), kde závisle proměnnou může být pouze jedna z řešených proměnných. b) Vzájemnou závislost (korelační analýza), kde obě proměnné lze volit za závisle nebo nezávisle proměnnou. Při zkoumání statistických závislostí řešíme dva zásadní úkoly: 1. Nalezení vhodné matematické funkce, tj. regresní funkce, pomocí nichž lze odhadovat průměrné hodnoty vysvětlované proměnné, odpovídající zvoleným hodnotám jedné nebo několika vysvětlujících proměnných. 2. Určení síly (intenzity, těsnosti) závislosti výpočtem korelačních koeficientů případně jiných statistických charakteristik. Bodový diagram – poskytuje první představu o tom, jaká matematická funkce Y = f(x) by mohla být vhodnou regresní funkcí. Každá uspořádaná dvojice [xi; yi] je znázorněna bodem v pravoúhlé souřadnicové soustavě. Vynesené uspořádané dvojice [xi;yi] odpovídajících údajů vytvářejí korelační pole. Je li matematickou funkcí přímka, hovoříme o lineární regresi. Parametry přímky se počítají již v předchozí kapitole zmiňovanou metodou nejmenších čtverců. Přímka , respektive y = a + bx se používá k odhadům průměrných hodnot proměnné y, odpovídajících zvoleným hodnotám proměnné x. V případě vzájemné lineární závislosti obou proměnných, se spolu s regresní přímkou používá i regresní přímka , která slouží k odhadům průměrných hodnot proměnné x, odpovídajících zvoleným hodnotám proměnné y. Čím je lineární závislost proměnných x, y, silnější tím je úhel, který svírají obě regresní přímky, menší. Při perfektní lineární závislosti (jedna proměnná je lineární funkcí druhé) obě regresní přímky splynou v jednu. Parametry b1 a , sdružených regresních přímek se nazývají regresní koeficienty, kde b1 = byx - udává přírůstek průměrné hodnoty y, odpovídající jednotkovému přírůstku proměnné x. = bxy - udává přírůstek průměrné hodnoty x, odpovídající jednotkovému přírůstku proměnné y. Při interpretaci číselných hodnot obou regresních koeficientů i při využívání obou regresních přímek k odhadům, je nutné přihlížet k tomu, v jakých jednotkách byly proměnné x, y měřeny. Při zkoumání závislostí se používají některé regresní funkce, u nichž je metoda nejmenších čtverců použitelná až po provedení transformací, jako například u mocninné funkce, Törnquistovy křivky, exponenciály. Nelze-li u některých funkcí, pro vyčíslení parametrů, využít metody nejmenších čtverců, lze ji nahradit jinými metodami například metodou částečných součtů u posunuté exponenciály nebo metodou vybraných bodů například u xbbY 10 += xbbY 10 += ybbX * 1 * 0 += * 1b * 1b 16 Törnquistovy křivka. Metoda vybraných bodů je jednoduchá metoda odhadu parametrů některých nelineárních funkcí. Má-li regresní funkce 2 (3) parametry, určíme ze zdrojových dat statistického šetření nějaké 2 (3) body, kterými by měla funkce procházet. Index determinace Index determinace I2 je charakteristika, která se používá k posouzení vhodnosti regresní funkce, jejíž parametry byly získány metodou nejmenších čtverců, aniž by bylo nutno provést nějakou transformaci vysvětlované proměnné y. Platí, že I2 ∈ <0; 1>. Index determinace používáme pro posouzení vhodnosti přímky, hyperboly, roviny a řady dalších regresních funkcí. Regresní funkci lze pokládat za tím vhodnější, čím méně se zjištěné hodnoty yi budou lišit od teoretických hodnot Yi, tj. čím bude reziduální součet čtverců bližší 0 a teoretický součet čtverců bližší součtu . Regresní funkce je považována za vhodnou, jestliže lze pomocí této funkce co nejvíce vysvětlit kolísání proměnné y, tj. regresní model je kvalitní, jestliže vysvětluje vysoké % variability hodnot proměnné y. Hodnoty I2 blízké 1 svědčí o vhodnosti zvolené regresní funkce a zároveň, že proměnná y silně závisí na proměnné či proměnných, jejichž funkcí je zvolená regresní funkce. Z hodnot determinačního indexu blízkých 0 nelze usuzovat na slabou závislost, ale pouze na nevhodnost zvolené regresní funkce. Index determinace se počítá z poměru součtu čtverců odchylek: . . Kde SR je reziduální součet čtverců: , součet čtverců odchylek zjištěných hodnot proměnné od jejich průměru SY: , a součet čtverců odchylek teoretických hodnot proměnné od jejich skutečných průměrů ST: . U všech regresních funkcí, jejichž parametry byly získány metodou nejmenších čtverců, aniž by byla provedena transformace y, tj. i u roviny, platí vztah 2 ii 2 i 2 i )Y(y)y(Y)y(y ∑∑∑ −+−=− . Korelační koeficienty: Korelační koeficienty jsou charakteristikami síly lineární závislosti číselných proměnných. Sílu lineární závislosti proměnných x; y měří korelační koeficient rxy = //// ryx ////, který je poměrem kovariance obou proměnných a součinu jejich směrodatných odchylek. Korelační koeficient r nabývá hodnot z intervalu <-1; 1>. Přičemž|: záporný korelační koeficient ukazuje na nepřímou závislost obou proměnných, kdy při růstu hodnoty jedné proměnné průměrné hodnoty druhé proměnné klesají, 2 i )y(y∑ − y R y T2 S S 1 S S I −== 2 iiR )Y(yS −∑= 2 iiy )y(yS −∑= 2 iiT )y(YS −∑= 17 kladný korelační koeficient ukazuje na přímou závislost obou proměnných, kdy při růstu hodnot jedné proměnné rostou i průměrné hodnoty proměnné druhé, nulový korelační koeficient ukazuje, že obě proměnné jsou nezávislé a při růstu hodnot jedné proměnné se průměrné hodnoty druhé proměnné nemění, korelační koeficient je rovný 1 nebo –1 ukazuje na perfektní lineární závislost, kdy stejným hodnotám jedné proměnné odpovídají stejné hodnoty druhé proměnné. Lineární závislost obou proměnných se považuje za tím silnější, čím je hodnota korelačního koeficientu bližší -1 nebo 1 a za tím slabší, čím je hodnota korelačního koeficientu bližší 0. Znaménko před korelačním koeficientem a regresním koeficientem se musí shodovat. Závislost lze hodnotit podle 3-5 bodové stupnice: r = 0 – závislost neexistuje; |r| = 1 – perfektní závislost, |r| ∈ (0; 0,3) - slabá závislost, |r| ∈ <0,3; 0,6) - střední závislost, |r| ∈ <0,6; 0,8) - silná (těsná závislost), |r| ∈ <0,8; 1 ) - velmi silná (velmi těsná závislost). Je-li regresní funkcí přímka, lze dokázat, že r2 = I2 (druhá mocnina korelačního koeficientu je rovna determinačnímu indexu) a pak podle hodnoty korelačního koeficientu lze posuzovat i vhodnost regresní přímky. 2.2. Vícenásobná regrese a korelace Vícenásobná regrese a korelace řeší lineární závislosti proměnné y na dvou (nebo více) vysvětlujících proměnných x; z (u…). Měří se síla lineární závislosti proměnné každé z obou proměnných i na obou proměnných. Matematickou funkcí pro regresi y, x, z je rovina , kde a jsou dílčí regresní koeficienty. - přírůstek průměrné hodnoty proměnné y při jednotkovém přírůstku proměnné x za předpokladu, že proměnná z je konstantní. - - přírůstek průměrné hodnoty proměnné y při jednotkovém přírůstku proměnné z za předpokladu, že proměnná x je konstantní. Číselné hodnoty parametrů roviny b0, b1, b2 se získávají metodou nejmenších čtverců, jež vede k třem normálním rovnicím, jejichž řešením jsou vyčíslené parametry. Korelační koeficient ve vícenásobné regresi: Pro hodnocení síly závislosti u vícenásobné regrese nelze použít párový korelační koeficient ryx . Síla lineární závislosti proměnné y na proměnné x se posuzuje na základě dílčího korelačního koeficientu ryx.z , který měří sílu lineární závislosti proměnné y na proměnné x za předpokladu, že proměnná z je konstantní. Síla lineární závislosti proměnné y na proměnné z se posuzuje na základě dílčího korelační koeficientu ryz.x, který měří sílu lineární závislosti proměnné y na proměnné z za předpokladu, že proměnná x je konstantní. Platí že: dílčí korelační koeficienty nabývají hodnot z intervalu <-1; 1>, záporné hodnoty signalizují nepřímou závislost, kladné hodnoty přímou závislost, zbxbby * 2 * 1 * 0 ++= yx.z * 1 bb = yz.x * 2 bb = yx.z * 1 bb = yz.x * 2 bb = 18 závislost se považuje za tím silnější, čím jsou hodnoty dílčích korelačních koeficientů bližší -1 nebo 1. Vícenásobný korelační koeficient ry.xz, posuzuje sílu lineární závislosti y na obou vysvětlujících proměnných x; z. Platí že: nabývá hodnot z intervalu <0, 1> , závislost se považuje za tím silnější, čím je jeho hodnota bližší 1, jeho druhá mocnina je rovna determinačnímu indexu pro rovinu, tedy vztah: . Podle hodnoty vícenásobného korelačního koeficientu lze posuzovat vhodnost roviny jako regresní funkce V případě více vysvětlujících proměnných, lze vypočítat všechny párové korelační koeficienty, mimo jiné i korelační koeficienty mezi všemi dvojicemi vysvětlujících proměnných, přičemž korelace vysvětlujících proměnných se nazývá multikolinearita. Je-li hodnota korelačního koeficientu mezi některou dvojicí vysvětlujících (nezávislých) proměnných blízká 1 nebo -1 hovoříme o škodlivé multikolinearitě (alespoň jeden z párových korelačních koeficientů je větší než 0,8). Což je signál, že některá vysvětlující proměnná by se neměla brát v úvahu! Korelace časových řad Při studiu korelací časových řad se počítají korelační koeficienty mezi hodnotami dvou časových řad, kde t je čas. Vždy je nutné korelovat odchylky od trendu a při řešení korelací v časových řadách je žádoucí získat vysoké korelační koeficienty a se stejnými znaménky. Opožděná korelace Příčinou změn ukazatele (proměnné) y jsou změny ukazatel (proměnné) x, ale ke změnám ukazatel y dochází s určitým časovým zpožděním. Hodnoty proměnné y lze odhadnout na základě proměnné x o rok posunuté. Odhad do budoucna je možný jen o hodnotu posunu. Autokorelace Jedná se o korelaci dat jedné časové řady s hodnotami téže časové řady o rok posunutými, pak hovoříme o autokorelace prvního řádu; o dva roky posunutými, pak hovoříme o autokorelace druhého řádu… Vypočítané korelační koeficienty se nazývají autokorelační koeficienty. Ve výpočtech figuruje pouze jedna proměnná. Je-li časová řada popsána trendovou funkcí, lze počítat rezidua (odchylky od trendu), přičemž často se počítá autokorelace reziduí prvního až n-tého řádu. Silná autokorelace reziduí ukazuje na nekvalitní trendovou funkci. Naopak, trendová funkce se považuje za dobrou, jestliže se nezjistí autokorelace reziduí. 2.3. Regresní modely Regresní modely se formulují z důvodů zobecňování výsledků v regresní a korelační analýze. Nejjednodušším regresním modelem je „klasický lineární regresní model“ , kdy výstupy PC software se o tento model opírají. O pravděpodobnostním rozdělení náhodných veličin y1, y2…yn je nutné určit předpoklady: 22 y.xz Ir = 19 . Odhadnutelné složky – předpokládá se, že to jsou hodnoty nějaké lineární regresní funkce (přímka, parabola…). Přímka: Parabola: Neodhadnutelné složky – v klasickém modelu se zavádějí tři předpoklady: jsou nezávislé, všechny neodhadnutelné složky mají nulové střední hodnoty a zároveň mají stejné rozptyly, jsou náhodné veličiny, které mají normální rozdělení. Zjištěná data považujeme za výběrová data a na základě výběrových dat se odhadují parametry funkcí (β0, β1, β2…) a hodnoty regresní funkce ηi, kde odhady β se pak značí b0, b1, b2 …, které se počítají se metodou nejmenších čtverců. Lze dokázat, že parametry b0, b1 jsou odhady parametrů β0, β1. Odhadujeme-li parametry modelu základního souboru na základě výběru, musíme počítat s možností chyby. O tom zda můžeme očekávat (předpokládat) velkou nebo malou chybu nás informují směrodatné chyby odhadů. Ve všech PC výstupech se směrodatné chyby k odhadům připojují. Shrnutí kapitoly V kapitole byly vysvětleny základní principy regrese a korelace a to i na úrovni vícenásobné regresní a korelační analýzy. Rovněž byly osvětleny nadstavbové metody a to korelace časových řad, opožděná korelace a autokorelace. V poslední pasáži byly vysvětleny podstatné body týkající se klasického lineárního regresního modelu včetně směrodatné chyby odhadu. Pojmy k zapamatování: Jednoduchá regrese a korelace. Jednostranná a vzájemná závislost. Vícenásobná regrese a korelace. Regresní koeficient. Korelační koeficient. Párový, dílčí a vícenásobný korelační koeficient. Index determinace. Multikolinearita. Korelace časových řad, opožděná korelace, autokorelace. Klasický lineární regresní model. Úkoly k zopakování a procvičení Příklad 2.1.: Výstupem regrese vzájemné závislosti: a) je parabola b) je rovina c) jsou sdružené regresní přímky xββη 10 += 2 210 xβxββη ++= 20 Řešení: c K posouzení vhodnosti lineární regresní funkce se využívá: a) hodnota indexu determinace b) hodnota regresního koeficientu c) hodnota korelačního koeficientu Řešení: a Korelační koeficient nabývá u jednoduché korelace hodnot z intervalu: a) <0, 1> b) <-1, 1> c) (0 ,1) Řešení: b Příklad 2.2.: Sílu lineární závislosti proměnné y na proměnné x za předpokladu, že proměnná z je konstantní měří: a) párový korelační koeficient b) dílčí korelační koeficient c) vícenásobný korelační koeficient Řešení: b Běžnou matematickou funkcí používanou ve vícenásobné regresi x, y, z je: a) přímka b) exponenciála c) rovina Řešení: c Vícenásobný korelační koeficient posuzuje sílu lineární závislosti y v modelu proměnných y, x, z: a) na obou vysvětlujících proměnných x, z b) na vysvětlující proměnné x c) na vysvětlující proměnné z Řešení: a Příklad 2.3.: Typem regresního modelu, o který se nejčastěji opírají PC programy je: a) exponenciální regresní model b) Törnquistova křivka c) klasický lineární model Řešení: c Předpokládá se, že odhadnutelné složky v klasickém lineárním modelu jsou hodnoty: a) nějaké lineární regresní funkce b) nějaké exponenciální regresní funkce c) polynomu vyššího stupně Řešení: a Neodhadnutelné složky klasického lineárního modelu značíme symbolem: 21 a) π b) χ c) ε Řešení: c Hodnocení Každá správná odpověď nebo výsledek výpočtu je hodnoceno jedním bodem. Sebehodnocením je žádoucí dosáhnout alespoň 70% úspěšnost správných odpovědí. Jestliže jste nedosáhli požadované úspěšnosti, pokuste se zlepšit svůj studijní výsledek pozornějším studiem kapitoly, popřípadě se spojit s tutorem předmětu. Korespondenční úkol: Regresní analýzou byla ze zdrojových dat (proměnné xi; yi) získána rovnice funkce - přímka: y = 4 + 0,1x. Zdrojová data jsou uvedena v následující tabulce: Vypočítejte hodnotu indexu determinace a posuďte kvalitu regresního modelu. Řešení: I2 = 0,4. Přímka není příliš vhodnou regresní funkcí. 3. Modul Modul tvoří tři tematické okruhy. Každý je probírán samostatně, jako kapitola v učebním materiálu. Tématické okruhy: 3.1. Lineární trendy v časových řadách 3.2. Metody vícerozměrné statistické analýzy 3.3. Práce českého statistického úřadu, historie statistiky Studijní cíle V posledním modulu jsou studenti seznámeni se všemi běžně využívanými lineárními trendy v časových řadách, kdy je kladen důraz zejména na přímku, parabolu a hyperbolu. Rovněž jsou uvedeny i příklady nelineárních trendů, které problematiku v kontrastu doplňují. Zmíněna je rovněž i problematika sezónních časových řad. Ve druhé kapitole tohoto modulu jsou metody vícerozměrné statistické analýzy klasifikovány a vysvětleny jejich základní principy. Na tomto modulu se studenti seznámí se zásadními mezníky historie statistiky celosvětovém měřítku i na území dnešní České republiky. Tato poslední kapitola je doplněna i o výtah nejdůležitějších aktivit Českého statistického úřadu. 22 Klíčová slova: Časová řada, lineární funkce, přímka, parabola, hyperbola, nelineární funkce, sezónní časové řady, metody vícerozměrné statistické klasifikace, metody analýzy korelačních struktur, historie statistiky, Český statistický úřad 3.1. Lineární trendy v časových řadách U lineárních trendových funkcí (přímka, hyperbola, parabola) se číselné hodnoty parametrů určují metodou nejmenších čtverců. Parametry se určují tak, že je minimalizován součet druhých mocnin odchylek zjištěných hodnot yt od zvolené trendové funkce: . Matematický postup metody nejmenších čtverců Provedou se parciální derivace v součtu S podle jednotlivých parametrů a položí se rovny nule. Takto získáme tzv. normální rovnice, jejichž řešením se získají hodnoty parametrů. U dvouparametrické trendové funkce jde o dvě rovnice o dvou neznámých u tříparametrické o tři rovnice o třech neznámých … Přímkový trend - hodnoty časové řady rostou (klesají) lineárně s časem, přičemž první diference jsou přibližně konstantní, druhé diference kolísají kolem nuly. Hyperbolický trend - tato funkce se používá při zpomalujícím se rostoucím trendu (roční přírůstky se postupně zmenšují) nebo naopak při zpomalujícím se klesajícím trendu. Zda je pro popis trendu vhodná hyperbola určujeme z chování ročních přírůstků. Zpomalující se rostoucí trend popisuje hyperbola s parametry b0>0 a b1<0, zatímco zpomalující se klesající trend popisuje hyperbola s parametry b0>0 a b1>0. Parabolický trend - první diference v čase jsou lineární, druhé diference přibližně konstantní, třetí diference jsou nulové. Roční přírůstky rostou, či naopak klesají, ale přírůstky ročních přírůstků (druhé diference) kolísají aniž by se systematicky zvětšovaly nebo zmenšovaly. Obecné rovnice výše uvedených funkcí již byly zmíněny v kapitole 1.3. Kvalita trendových funkcí se vždy ověřuje výpočtem reziduí. Regresní funkci lze pokládat za tím vhodnější, čím méně se zjištěné hodnoty yi budou lišit od teoretických hodnot Yi, tj. čím bude reziduální součet čtverců bližší 0. Nelineární funkce V praxi se za trendové funkce nevolí pouze lineární funkce, ale i různé funkce nelineární, kdy parametry některých z nich lze získat metodou nejmenších čtverců až po provedení linearizující transformace, kde sledovaná proměnná y je nahrazena nějakou neparametrickou funkci y* (například exponenciála). Sezónní časové řady Jedná se o časové řady, v nichž je kromě trendu patrné i sezónní kolísání (například časové řady čtvrtletních hodnot). Při analýze sezónních časových řad jde o: 2 t tt )T(yS ∑ −= 23 vystižení jejich trendu (vhodná trendová funkce), vystižení jejich sezónního kolísání (využívají se sezónní odchylky nebo sezónní indexy). K popisu konstantního sezónního kolísání se používají sezónní odchylky. K popisu proporcionálního sezónního kolísání se používají sezónní indexy. Existuje několik metod analýz sezónních časových řad… Jednoduché metody: metoda empirických sezónních odchylek, užívaná pro časové řady s konstantní sezónností, metoda empirických sezónních indexů, užívaná pro časové řady s proporcionální sezónností. Obě metody vycházejí z vyrovnání časové řady centrovanými klouzavými průměry. S výhodou využíváme výpočet prognóz ze sezónně očištěných časových řad, tj. parametry trendové funkce počítáme z očištěných hodnot. 3.2. Metody vícerozměrné statistické analýzy Metody umožňují hodnotit větší počet proměnných jako jeden celek, tj. umožňují komplexněji hodnotit statistické jednotky podle většího počtu proměnných, uvažovaných současně. Výpočty u těchto metod jsou velmi náročné a často s více variantami algoritmu řešení, proto hojně využíváme výpočetní techniku a specializované počítačové programy. Uživatel těchto metod musí znát podmínky použitelnosti těchto metod a způsob správného vysvětlení získaných výsledů. Charakteristika metod vícerozměrné statistické analýz: 1. Metody vícerozměrné statistické klasifikace Jedná se metody, které jsou orientovány na rozlišování a rozdělování mnohorozměrných statistických jednotek do dvou či více stejnorodějších souborů, do kterých jsou řazeny jednotky co nejvíce navzájem podobné, zatímco jednotky z různých souborů jsou co nejvíce navzájem odlišné: diskriminační analýza; shluková analýza 2. Metody analýzy korelačních struktur Tyto metody se zabývají racionální redukcí dimenze (rozsahu) řešeného problému, tj. koncentrací informací obsažených ve větším počtu proměnných do podstatně menšího počtu skupin proměnných: faktorová analýza; analýza hlavních komponent; kanonická korelační analýza Diskriminační analýza Ve dvou či více předem určených souborech statistických jednotek stejného typu je sledován větší počet proměnných (měřených statistických znaků). Výsledkem diskriminační analýzy je diskriminační funkce, umožňující zařazovat s minimální chybou rozhodnutí statistické jednotky do správného souboru. Cílem je sestavit na základě výběrů z několika souborů (min. dvou) diskriminační kritérium umožňující zatřiďovat studované jednotky do těchto souborů Metoda umožňuje stanovit „důležitost“ jednotlivých proměnných pro rozlišitelnost souborů od sebe, tj. určuje podíly proměnné na celkové spolehlivosti rozlišení souborů. 24 Shluková analýza (Cluster Analysis) Účelem shlukové analýzy je rozdělení souboru do určitého počtu skupin, kde jednotlivé skupiny jsou relativně stejnorodé, tj. jednotky uvnitř skupiny, tzv. clusteru, se příliš neliší, ale skupiny navzájem se liší hodně. Využití shluková analýzy: • marketingové výzkumy, • segmentace trhu, • přírodní vědy (molekulární genetika → genetické vzdálenosti druhů, jedinců…). Typickým grafickým výstupem shlukové analýzy dendrogram. Faktorová analýza Formálně představuje zvláštní typ regrese, která zkoumá závislost proměnných (v realitě pozorovatelných, měřitelných) na námi nepozorovatelných (neměřitelných, skrytých) proměnných. Tyto proměnné se označují jako společné faktory. V každé vytvořené homogennější skupině proměnných lze využít výsledek metody faktorové analýzy: k pořadí důležitosti jednotlivých proměnných, k identifikaci a vyhodnocení vzájemných mnohostranných závislostí mezi proměnnými ve skupině, k návrhu na eventuální redukci počtu proměnných (vyřazení nejméně významných proměnných soustavy), k návrhu na získání agregovaných (sdružených, sloučených) informací (za celou skupinu proměnných, sdružených jedním společným faktorem). Analýza hlavních komponent V jediném souboru statistických jednotek sledujeme větší počet proměnných, z nichž každá obsahuje určitou část několika rozlišitelných kategorií (komponent) studované souhrnné informace. Touto metodou vymezujeme tyto kategorie, tzv. hlavní komponenty. Algoritmem metody analýzy hlavních komponent jsou koeficienty, které udávají, jak se na každé hlavní komponentě podílejí jednotlivé proměnné. Algoritmus metody zajišťuje sestupnou prioritu hlavních komponent. Po formální stránce je výsledek podobný faktorové analýze. Kanonická korelační analýza Soustavu proměnných, na rozdíl od vícenásobné regrese a korelace (kde je jediná závisle proměnná y a několik nezávislých proměnných x, z, u, v…) rozdělujeme na dvě podsoustavy o větším počtu proměnných a vzájemnou závislost těchto podsoustav měříme co nejmenším počtem koeficientů (první, druhý, popřípadě třetí koeficient kanonické korelace). Modul kanonická korelace hledá obecný lineární vztah mezi dvěma vícerozměrnými proměnnými X a Y s obecně různými dimenzemi m1, m2. Preferenční analýza Preferenční analýza vychází z další vícerozměrné statistické metody a to z analýzy rozptylu (ANOVA – Analysis of Variance). Zdrojová data jsou však diskrétní proměnné (stupnice). 25 Využití: Jak navrhnout výrobek, aby byl přitažlivý na trhu, kdy zákazníci vyjadřují své preference pomocí stupnice. Analýza marketingových průzkumů k detekci proměnných, které nejvíce ovlivňují volbu produktu (vůně, chuť, barva, vzhled…). T-testy Testy se využívají pro porovnání střední hodnoty jednoho nebo dvou normálně rozdělených základních souborů. 3.3. Práce českého statistického úřadu, historie statistiky Uvedená kapitola modulu vychází z internetových stránek Českého statistického úřadu a v plném rozsahu se odkazuje na samostatnou práci studentů s informacemi (včetně historie statistiky) uvedenými na internetové adrese: http://www.czso.cz. Studenti mají možnost navštívit studovnu Českého statistického úřadu a využít mnohé bezplatné služby této instituce se sídlem v Praze a to na adrese: Na padesátém 81 100 82 Praha 10 Tel.: 274 051 111 (ústředna). Shrnutí kapitoly V kapitole byly popsány nejvýznamnější lineární trendy časových řad využívaných v ekonomické praxi v kontrastu s nelinárními trendy. Dále byly popsány základní principy sezónnosti v časových řadách. Studenti byli seznámeni se základní klasifikací nejvýznamnějších metod vícerozměrné statistické analýzy. Byly shrnuty jejich základní principy s důrazem na objasnění zásadních výpočtů u vybraných analýz. Poslední část modulu odkazuje studenty na internetové stránky Českého statistického úřadu, kde si mohou individuálně vyhledat stěžení informace o činnosti této státní instituce a rovněž o historii statistiky na celosvětové i tuzemské úrovni včetně osobností spojenými s problematikou a historií statistiky. Pojmy k zapamatování: Časová řada, lineární trend, přímka, parabola, hyperbola, nelineární trend, exponenciála, metody vícerozměrné statistické analýzy, metody vícerozměrné statistické klasifikace, diskriminační analýza; shluková analýza, metody analýzy korelačních struktur faktorová analýza; analýza hlavních komponent; kanonická korelační analýza, analýza rozptylu, preferenční analýza, T-test, Český statistický úřad. Úkoly k zopakování a procvičení Příklad 3.1.: Mezi lineární funkce nepatří: a) parabola b) hyperbola c) exponenciála Řešení: c 26 Při zpomalujícím se rostoucím trendu nebo naopak při zpomalujícím se klesajícím trendu je typickou funkcí popisující uvedený trend: a) přímka b) hyperbola c) parabola Řešení: b K popisu konstantního sezónního kolísání se používají: a) sezónní odchylky b) sezónní indexy c) regresní koeficienty Řešení: a Příklad 3.2.: Mezi metody vícerozměrné statistické klasifikace nepatří: a) preferenční analýza b) diskriminační analýza c) shluková analýza Řešení: a Nejběžnějším grafickým výstupem shlukové analýzy je: a) polygon b) histogram c) dendrogram Řešení: c Preferenční analýza vychází z: a) analýzy rozptylu b) T- testu c) χ2 - testu Řešení: a Příklad 3.3.: Český statistický úřad - centrála: a) sídlí v Brně b) sídlí v Praze c) nemá sídlo, pracuje pouze on-line Řešení: b Mezi významné statistiky patří: a) Thomas Korrel b) Karl Pearson c) Peater Cluster Řešení: b Česká republika je z hlediska historie statistiky, využívaní a rozvoje statistických metod: a) velmi zaostalá, stejně jako středoafrické státy b) na nejvyšší úrovni v celosvětovém srovnání c) zhruba na úrovni USA Řešení: b 27 Korespondenční úkol: Vyhledejte na internetových stránkách přesné iniciály a data narození, případně úmrtí zakladatele metody ANOVA. Řešení: Sir Ronald Aylmer Fisher (1890 - 1962). Hodnocení Každá správná odpověď nebo výsledek výpočtu je hodnoceno jedním bodem. Sebehodnocením je žádoucí dosáhnout alespoň 70% úspěšnost správných odpovědí, výsledků výpočtů. Jestliže jste nedosáhli požadované úspěšnosti, pokuste se zlepšit svůj studijní výsledek pozornějším studiem kapitoly, popřípadě se spojit s tutorem předmětu. Další studijní zdroje http://www.czso.cz/ B) Studijní opory předmětu MT 105 část MATEMATIKA v kombinovaném studiu Vysoké školy hotelové v Praze, magisterský studijní program všech oborů Průvodce studiem matematické části předmětu MT105 Níže uvedeme přehled základních pojmů, jejich vlastnosti a použití té části základů matematiky, která je obsahem předmětu a kterou je třeba zvládnout pro úspěšné vykonání dílčí zkoušky. Probíraná látka patří k základním informacím, které by měl student vysoké školy zvládat. Téma je v podstatě totožné s obsahem skript. První modul Základy diferenciálního počtu. Skripta M II, kap. 2. a 3. Limita funkce. Jedná se o základní, přitom náročný pojem diferenciálního počtu a vůbec celé matematické oblasti nazývané matematická analýza. Definice limity (str. 24, M II) je vyslovena v pojmech matematické logiky, což je standardní postup. Pro určení limity u početně lehčích příkladů vystačíme s intuicí, geometrickým názorem, resp. s numerickým výpočtem (př. 8, str. 23). Výrok Axfax =→ )(lim lze přibližně vystihnout slovy: Pokud se číslo x neomezeně (stále více) blíží k číslu a (případ ax = pro nás nezajímá!), potom se funkční hodnota )(xf neomezeně blíží k limitě, tj. číslu .A Stručně, pokud ,ax → potom .)( Axf → Číslo A je „mezní“ hodnota funkce ),(xf pokud se číslo x přibližuje číslu .a V případě ,∞±=a resp. ,∞±=A mluvíme o nevlastních limitách. Příslušná definice vyžaduje korekci. Pokuste se vyslovit definici např. vlastní limita v nevlastním bodě: .)(lim Axfx =∞→ Limita posloupnosti je speciálním případem limity funkce (vyslovte ji!). Pozn. Stále sledujeme výklad látky podle učebního textu M II, kap. II. Jednoduchá intuice, plynoucí z definice, dává řešení následujících příkladů: Pokud ,∞→n pak 1 1 → − n n (tj. );1 1 lim = − ∞→ n n n pokud ,∞→n pak ; 2 1 /12 1 12 22 2 → + = + nn n pokud ,∞→x potom ;0 sin → x x pokud ,∞→x potom .1 1 →x e Určení limit ,1 sin lim0 =→ x x x 1 1 lim0 = − → x ex x už vyžaduje hlubší úvahy (zabývat se jimi nebudeme, jsou ale důležité, protože slouží k odvození derivací funkcí ,sin x ).x e Pro výpočet limit 28 funkcí, které získáme algebraickými operacemi mezi funkcemi, použijeme věty o limitách (M II, str. 25). Limitou je definován základní pojem diferenciálního počtu, tj. derivace, který má obsáhlé použití v přírodních vědách, v ekonomii apod. Spojitost funkce. Řekneme, že funkce )(xfy = je spojitá v bodě ,a pokud platí );()(lim afxfax =→ vždy předpokládáme, že platí ).( fDa∈ Funkce )(xf je spojitá v bodě ,a pokud z předpokladu ax → plyne ).()( afxf → Funkce je spojitá na intervalu, pokud je spojitá v každém jeho bodě. Geometricky není graf spojité funkce „přerušen“. Elementární funkce jsou spojité na svých definičních oborech. Derivace funkce. Derivace funkce )(xfy = v bodě x - označíme ji )(xf ′ – je dána limitou (pokud existuje) ).( )()( lim0 xf h xfhxf h ′= −+ → Jde o limitu neurčitého výrazu typu „ 0 0 “ (M II, str. 25). Derivace )(xf ′ je tedy „mezní“ hodnotou zlomku h xfhxf )()( −+ – což je podíl přírůstku )()( xfhxf −+ funkce )(xf odpovídající přírůstku h nezávisle proměnné x pro .0→h Typickým příkladem derivace je zavedení okamžité rychlosti bodu pohybujícího se po přímce :)(tv t s tv t ∆ ∆ = →∆ 0 lim)( s∆( označuje přírůstek dráhy za čas ).t∆ Další důležitý příklad z ekonomie: Mezní náklady; blíže viz studijní opory předmětu MT003, IS VŠH. Výpočet derivací některých elementárních funkcí nečiní problém: Derivace lineární funkce qkxy += je . )()( lim0 k h qkxqhxk h = +−++ → Vypočtěte (z definice!) derivaci funkce n x pro .3,2=n Pro 1−=n )0( ≠x máme . 1 )( 1 lim /1)/(1 lim 1 200 xhxxh xhx x hh −= + − = −+ = ′       →→ Odvodit derivaci funkcí ,sin x ,x e xln je náročnější; není to naším úkolem. Výpočet derivace budeme provádět užitím vzorců tab. II a věty 3.2, M II, str. 33. Tyto vzorce si musí student zcela osvojit; jejich použití by mělo být samozřejmé. Geometrický význam derivace. Promyslete si význam zlomku h xfhxf x y )()( −+ ≡ ∆ ∆ z obr. 3.1, str. 30 (jde o první základní krok k pochopení pojmu derivace). Snadno usoudíte, že derivace )(xf ′ (jako mezní hodnota podílu x y ∆ ∆ při )0→∆x je rovna směrnici k tečny sestrojené ke grafu funkce )(xf v bodě [ ].)(, xfx Tedy .)( kxf =′ Rovnice této tečny je uvedena na str. 35 vzorcem 3.4, M II. Grafy elementárních funkcí jsou „hladké“, v každém bodě jejich definičního oboru lze sestrojit tečnu. Funkce, která má derivaci, je spojitá. Aplikace derivace. Lokální extrémy funkcí. Pojem lokálního minima (maxima) je názorný (viz def. 3.3, str. 38). Hodně úloh v ekonomii vede k nalezení extrémů funkcí (v obecnějším případě mluvíme o optimalizaci – blíže viz odst. 6.8 skript M II). Platí následující věta: Má-li funkce v bodě a lokální extrém (předpokládáme existenci )),(af ′ potom .0)( =′ af O bodech splňujících rovnici 0)( =′ xf se říká, že jsou „podezřelé“ z extrému. Dále, pokud ,0)( ≠′′ af pak extrém v a nastává, a to: Je-li ,0)( >′′ af jedná se o ostré lokální minimum, pokud ,0)( <′′ af jedná se o ostré lokální maximum. Platnost rovnice 0)( =′ xf v extrémních bodech je velmi názorná, v těchto bodech je tečna rovnoběžná s osou .x Funkce monotonní. Pojem monotonní funkce jsme zavedli již v předmětu MT003. O monotonnosti funkce lze často rozhodovat užitím derivace: Např. pokud 0)( >′ xf na intervalu I, pak na I funkce roste (více odst. 3.4, M II). Ověření této poučky není zcela triviální. L´Hospitalovo pravidlo. Slouží k výpočtu limit neurčitých výrazů. Více M II, str. 36. 29 Funkce konvexní (konkávní), inflexní body. Definice viz 3.5, M II. Je-li funkce konvexní (konkávní) lze rozhodnout pomocí 2. derivace, např.: Pokud 0)( >′′ xf na I, potom je funkce na I konvexní. V inflexních bodech dochází ke změně tvaru grafu funkce z konvexního na konkávní. Jsou charakterizovány nutnou podmínkou .0)( =′′ xf Uveďme: zrychlení je druhá derivace dráhy podle času. Pokud se zabýváme ekonomickými veličinami, pak kladná druhá derivace znamená progresivní růst, záporná depresivní. Průběh funkce. Příklad na průběh funkce bude obsahem průběžného i každého zkouškového testu. Průběh funkce znamená načrtnout graf funkce užitím následujícího postupu: 1. Určit definiční obor; stanovit základní vlastnosti funkce (sudá, lichá, periodická – pokud existují). Nalézt nulové body – průsečíky grafu s osou „ x “ – tedy nalézt řešení rovnice .0)( =xf 2. Aplikace 1. derivace: Nalézt lokální extrém (nutné řešit rovnici 0)( =′ xf !), intervaly monotonnosti, vypočítat limity v krajních bodech definičního oboru (L’Hospitalovo pravidlo]. Stanovit obor hodnot. 3. Aplikace 2. derivace: Intervaly konvexity (konkavity), inflexní body (řešit rovnici ).0)( =′′ xf Uveďme dále neřešené úlohy, které budou součástí průběžného i zkouškového testu: Početně jednodušší příklady: ;2 cbxaxy ++= ;3 bxaxy += ;23 bxaxy += ; x b axy += bx ax y + = 2 pro .,, Rcba ∈ Další úlohy: ; 1 2 − = x x y ; x e y x = ;x e x y = ;2 x exy − = ; 2 x xey − = ; ln x x y = ;ln xxy = . ln x x y = Numerické řešení rovnic .0)( =xf V současné době výkonných počítačů mají numerické metody velký význam pro aplikaci matematiky v praxi. Zmíníme Newtonovu metodu tečen pro rovnici typu .0)( =xf Typické jsou dvě třídy těchto rovnic: a) Algebraické rovnice stupně 3 a vyššího, např. .0133 =+− xx b) Transcendentní rovnice, např. .0=−− xe x Tyto rovnice nelze obecně řešit analogicky (vzorcem) jako např. kvadratickou rovnici. Řeší se přibližně – numericky. Metoda je podrobně popsána v odst. 3.4.7, M II. Numerické příklady nejsou obsahem písemných prací, ale u studentů požadujících lepší klasifikaci se požaduje popis principu této elegantní metody. Druhý modul 1. Integrál a jeho aplikace. 2. Funkce dvou proměnných, jejích grafy parciální derivace. Extrémy funkce dvou proměnných, metoda nejmenších čtverců. 3. Kontrolní test (30 min.). Ukázka kontrolního testu: a) Načtrtněte graf funkce xxy 62 3 −= užitím 1. a 2. derivace. b) Spočtěte určitý integrál ∫ − 1 0 ,)1( dxex jaký je jeho geometrický význam? Úkolem 2. soustředění bude pochopit definici a umět aplikovat určitý integrál; zejména bude podrobně objasněna Newtonova formule a vztah mezi určitým integrálem a primitivní funkcí. Budou probrány základní metody výpočtu primitivní funkcí a zdůvodněn geometrický význam určitého integrálu pro výpočet obsahu ploch. Uveďme jednoduché příklady (budou 30 spočteny na soustředění a budou analogické příkladům z testu): ,)1( 2 1 2 ∫ + dxx ∫ − 1 0 ,dxe x ,sin 0 ∫ π xdx ∫ − 2 0 2 ,)2( dxx , 14 1 dx x ∫ . 1 1 dx x e ∫ Druhý modul 1. Integrál a jeho aplikace. 2. Funkce dvou proměnných, její graf, parciální derivace. Extrémy funkce dvou proměnných, metoda nejmenších čtverců. 2. Kontrolní test (30 min.). Ukázka kontrolního testu: a) načrtněte graf funkce xxy 62 3 −= užitím 1. a 2. derivace. 3. Spočtěte určitý integrál ∫ − 1 0 ;)1( dxex jaký je jeho geometrický význam? Úkolem 2. soustředění bude pochopit definici a umět aplikovat určitý integrál; zejména bude podrobně objasněna Newtonova formulace – vztah mezi určitým integrálem a primitivní funkcí. Budou probrány základní metody výpočtu primitivních funkcí a zdůrazněn geometrický význam určitého integrálu pro výpočet obsahu ploch. Uveďme jednoduché příklady (budou spočteny na soustředění; jsou analogické příkladů z testu): ∫ + 2 0 2 ,)1( dxx ∫ − 1 0 ,dxe x ∫ π 0 ,sin xdx ∫ − 2 0 2 ,)2( dxx , 14 1 dx x ∫ . 1 1 dx x e ∫ Úkolem je vypočítat integrál a načrtnout obrázek, jehož plošný obsah je dán příslušným integrálem. V závěru bude zmínka o nevlastním integrálu; budeme jej potřebovat v dodatku opor. O nevlastním integrálu mluvíme v případě, pokud je buď integrační obor, nebo funkce na něm neomezená (resp. kombinace obojího). Např. ∫ ∞ − 0 ,dxe x , 1 0 ∫ ∞ dx x ∫ ∞ 1 2 , 1 dx x . 11 0 dx x ∫ Požaduje se výpočet nevlastního integrálu v případě, kdy lze určit zobecněnou Newtonovu formuli: ∫ −∞=∫ = ∞ ∞→ A aa A aFFdxxfdxxf ),()()(lim)( kde tedy )(∞F označuje limitu funkce )(AF v nekonečnu. Je-li ,)( RF ∈∞ říkáme, že je integrál konvergentní. Např. [ ] .1)0()( 00 =−∞=∫ −= ∞∞ −− FFedxe xx Zmínka o funkcích více proměnných, jejich grafech, parciálních derivacích a jejich extrémech má pouze informativní charakter; není předmětem zkoušky. Těmito pojmy lze popsat princip metody nejmenších čtverců. Třetí modul Lineární algebra. Pojmy lineární algebry jsou pro většinu studentů nové, poměrně abstraktní; je třeba jim věnovat patřičnou pozornost. Přitom lineární algebra má široké uplatnění v aplikacích na praktické výpočty. Následující text je pokus o zcela jednoduchý a názorný výklad způsobu řešení lineárních rovnic užitím matic. Pojmy násobení matic, hodnost matice, ekvivalence lze nalézt v kap. 6 skript M II. Jedním z velmi důležitých a náročných pojmů je lineární nezávislost (odst. 6.1 skript); je nutné mu věnovat náležitou pozornost. Příklad: dvě rovnice o třech neznámých 31 A má typ (m,n) → x má typ (n,1) → b má typ (m,1) ech neznámých           = → z y x x A má typ má typ má typ 32 33 34 35 Protože h < n, máme nekonečně mnoho volíme n – h = 1 neznámou za parametr. č ě mnoho řešení; = 1 neznámou za parametr. 36 37 38 Řešení soustav užitím Cramerova pravidla a další metody lineární algebry nalezneme v dostatečné míře ve skriptech M II. 39 ešení soustav užitím Cramerova pravidla a další metody lineární algebry nalezneme e ve skriptech M II. ešení soustav užitím Cramerova pravidla a další metody lineární algebry nalezneme 40 Ukázka zkouškového testu; obsahuje tři příklady: Průběh funkce, určitý integrál, soustava rovnic. 1. Užitím 1. a 2. derivace nakreslete graf funkce . 2 2 x x y += 2. Vypočtěte ; 1 1 ∫ e dx x načrtněte obrazec, jehož plošný obsah je dán tímto integrálem. 3. Řešte soustavu .0 ,22 ,1 =+− =−+ −=−− zx zyx zyx Dodatek. V dodatku bude čtenář seznámen s některými pojmy pravděpodobnosti a statistické indukce; jejich znalost umožní více porozumět principům probíraných metod ve statistické části předmětu MT105. Výklad navazuje na odstavec 7 skript M I. Náhodná veličina )(ωX je reálná funkce definovaná na množině Ω elementárních jevů .Ω∈ω Budeme se zbývat pouze případem spojitého rozdělení pravděpodobnosti veličiny .X V tom případě je množina Ω nespočetná a nelze přiřadit pravděpodobnosti jednotlivým elementárním jevům, ale pouze prvkům jistého systému podmnožin Ω∈A takovým, že obraz každé množiny ),(aX A∈ω je interval. Pravděpodobnost má vždy vlastnosti uvedené v odstavci 7.2.2 skript M I, zejména platí .1)(0 ≤≤ AP Spojité rozdělení pravděpodobnosti. Náhodná veličina má spojité rozdělení pravděpodobnosti, pokud existuje funkce )(xf (která se nazývá hustotou pravděpodobnosti) taková, že platí ∫= ∞− x dttfxF .)()( Touto formulí je zcela popsáno rozdělení pravděpodobnosti náhodné veličiny ve spojitém případě. Platí totiž (vlastnost určitého integrálu) vzorec ∫ −==≤≤ b a aFbFdxxfbXaP ),()()()( který každé podmnožině z uvažovaného systému podmnožin z ,Ω která se funkcí X zobrazí na interval, přiřazuje její pravděpodobnost. Kvantily náhodné veličiny. %100α kvantilem veličiny X s distribuční funkcí )(xF je číslo αX definované vztahem .)()( ααα ==≤ XFXXP Často se volí .95,0=α U konkrétních rozdělení existují jisté odchylky od této definice; je třeba je vzít na vědomí. Střední hodnota )(xE náhodné veličiny X s hustotou )(xf je číslo dané vzorcem ∫= R dxxxfXE .)()( Analogicky jsou definovány další charakteristiky veličiny ,X např. rozptyl ).(XD Normální rozdělení. Náhodná veličina X má normální rozdělení (ozn. se )),,( 2 σµN pokud její hustota pravděpodobnosti je dána vzorcem na str. 80 skript M I; čísla 2 ,σµ jsou parametry rozdělení. Platí: ,)( µ=XE .)( 2 σ=XD Lineární substituce σ µ− = X X N (viz níže poznámka o transformaci náhodných veličin) převádí náhodnou veličinu X s normálním rozdělením ),( 2 σµN na normovanou náhodnou veličinu N X s rozdělením ).1,0(N Vzorec pro distribuční funkci rozdělení )1,0(N je uveden na straně 80 skripta M I. Hodnoty této funkce i hodnoty kvantilů, které se ozn. ,αu lze nalézt v tabulkách, resp. mnoha statistických programech a tabulkových procesorech. Z výše uvedeného vzorce plyne důležitý vztah pro normální rozdělení .)()()(       − Φ−      − Φ=−=≤≤ σ µ σ µ ab aFbFbXaP 41 Transformace náhodných veličin. Je-li )(xG reálná funkce, X náhodná veličina, potom )(XG je opět náhodná veličina. Tedy výše uvedená lineární transformace σ µ− = X X N převádí normální rozdělení ),( 2 σµN na normované normální rozdělení ).1,0(N Transformace YX ln= převádí veličinu Y s lognormálním rozdělením ),( 2 σµLN na veličinu X s normálním rozdělením ).,( 2 σµN Náhodná veličina ,... 22 2 2 1 2 rUUU +++=χ kde i U jsou nezávislé náhodné veličiny s rozdělením ),1,0(N se nazývá 2 χ -rozdělení o r stupních volnosti. Nalézt analytické vyjádření její hustoty pravděpodobnosti vyžaduje hlubší matematický aparát. Hodnoty kvantilů jsou tabelovány. Testování hypotéz. Buď 0 H nulová hypotéza, o které má test rozhodnout, zda ji přijímáme nebo zamítáme. Z pravidla se k hypotéze 0 H volí alternativní hypotéza ,1 H kterou zaručeně přijmeme, pokud test hypotézu 0 H zamítne. Příklad: Buď µ střední hodnota základního souboru, kterou neznáme. Testujeme hypotézu 00 : µµ =H oproti alternativě .: 01 µµ ≠H Je k dispozici náhodný výběr ze základního souboru, ze kterého spočteme výběrový protějšek sledované charakteristiky základního souboru. O přijetí (zamítnutí) hypotézy 0 H rozhodne testovací kriterium (statistika); pokud hodnota statistiky padne do oboru přijetí, 0 H nezamítáme, pokud padne do kritického oboru, 0 H se zamítá a přijímá .1 H Obor přijetí a kritický obor tvoří disjunktní číselné množiny, oddělené kritickou hodnotou testu. Statistika je náhodná veličina, která při platnosti 0 H má jisté rozdělení pravděpodobnosti. Možné jsou dvě situace a) Test zamítne hypotézu ,0 H i když je pravdivá – mluvíme o chybě I. druhu. Pravděpodobnost jevu P(zamítáme 0 H / 0 H platí) se označuje ,α nazývá hladinou významnosti a lze ji předem zvolit (obvykle 0,05). b) Test přijme hypotézu ,0 H i když neplatí; jde o chybu 2. druhu. Stanovit její pravděpodobnost β = P( 0 H přijímáme/ 0 H neplatí) je problematické. Číslo β−1 se nazývá sílou testu. Očekávaný výsledek testu má být přijetí hypotézy ;1 H pokud tato situace nastane, říkáme, že hypotéza 1 H obsahuje statisticky významné tvrzení. Případ, kdy 0 H platí je tudíž málo pravděpodobný; jeho pravděpodobnost udává číslo .α Sestavení testovacího kritéria ukážeme na jednoduchém, ale typickém příkladě. Mějme k dispozici náhodný výběr n xxx ...,,, 21 ze základního souboru s rozdělením ).,( 2 σµN Předpokládáme, že µ je neznámé, ale 2 σ je dáno. Testujeme hypotézu 00 : µµ =H oproti alternativě .: 01 µµ ≠H Označme x výběrový průměr a zvolme hladinu .α Je účelné hypotézu 0 H zamítnout, pokud vzdálenost čísel x a 0 µ přesáhne jistou mez, kterou stanovíme z dané hodnoty .α Je známo, že x má normální rozdělení, a tedy veličina )( 0µ σ −= x n U má za předpokladu platnosti 0 H rozdělení ).1,0(N Pro její kvantil 2/1 α− u platí .)( 2/1 αα => − uUP Pokud tedy za hledanou statistiku testu zvolíme ,U je výraz vlevo pravděpodobnost chyby 1. druhu a kvantil 2/1 α− u kritická hodnota testu: Pokud pro dané x a 0 µ platí ,)( 2/10 αµ σ −>− ux n hypotézu 0 H zamítáme. 42 Literatura HINDLS, R., HRONOVÁ, S., NOVÁK, I.: Analýza dat v manažerském rozhodování VŠE Praha, Grada, 1999, ISBN 80-7169-255-7 HINDLS, R., HRONOVÁ, S., SEGER, J. FISCHER, J.: Statistika pro ekonomy, 8. vydání, Praha 2007, Professional Publishing, ISBN 978-80-86946-43-6 KAŇKA, M., HEZLER,J.: Matematika pro ekonomické fakulty. Ekopress Praha 2000. ISBN: 80-86119-31-9. MALEC, M.: Kvantitativní metody, 2008, VŠH, Tiskařské služby - Rudolf Valenta, ISBN 978-80-86578-80-4 MALEC, M.: Elementární matematika, VŠH Praha 2007, ISBN: 978-80-86578-62-0 MAREK, L.; NOVÁK, I.; VRABEC, M.: Statistika II. Vysoká škola hotelová v Praze 8, Praha, 2004, 90 stran, ISBN 80-86578-30-5. NOVÁK, I.: Statistika,VŠH, Tiskána Petr Pošík Poděbrady, 2001, ISBN 80-86578-56-9 PECÁKOVÁ, I., NOVÁK, I., HERZMANN, J.: Pořizování a vyhodnocování dat ve výzkumech veřejného mínění (3 vydání), VŠE Praha , Oeconomica, 2004, ISBN 80-245- 0753-6 43 Název: Studijní opory předmětu MT 105 KVANTITATIVNÍ METODY v kombinovaném studiu Vysoké školy hotelové v Praze, magisterský studijní program všech oborů Autor: Doc. RNDr. Miloslav Malec, CSc.; Dr. Ing. Sylva Skupinová Zveřejnění: Elektronická verze uveřejněna v informačním systému VŠH ISBN: 978-80-87411-43-8