HOMOSKEDALISUUS: MIKÄ SE ON, MERKITYS JA ESIMERKKEJÄ - DUDAS

Homoscedasticity on ennustavan tilastollisen mallin ilmenee, jos kaikki tiedot ryhmät yhden tai useamman huomautuksia, varianssi (tai riippumattomia) kuvion kanssa suhteessa selittävät muuttujat pysyvät ennallaan.

Regressiomalli voi olla homoskedaattinen tai ei, jolloin puhutaan heteroskedatilisuudesta.

Kuva 1. Viisi tietojoukkoa ja sarjan regressiosovitus. Varianssi suhteessa ennustettuun arvoon on sama jokaisessa ryhmässä. (Upav-biblioteca.org)

Useiden riippumattomien muuttujien tilastollista regressiomallia kutsutaan homoskedastiseksi, vain jos ennustetun muuttujan virheen varianssi (tai riippuvaisen muuttujan keskihajonta) pysyy yhtenäisenä selittävien tai riippumattomien muuttujien arvoryhmille.

Kuvion 1 viidessä tietoryhmässä on laskettu varianssi kussakin ryhmässä suhteessa regression arvioimaan arvoon, osoittautuen samaan kussakin ryhmässä. Lisäksi oletetaan, että tiedot seuraavat normaalia jakaumaa.

Graafisella tasolla se tarkoittaa, että pisteet ovat hajallaan tai hajallaan regressiosovituksen ennustaman arvon ympärille ja että regressiomallilla on sama virhe ja pätevyys selittävän muuttujan alueella.

Homoskedalisuuden merkitys

Homoskedalisuuden merkityksen havainnollistamiseksi ennustetilastoissa on tarpeen verrata vastakkaiseen ilmiöön, heteroskedatilisuuteen.

Homoskedaalisuus vs. heteroskedalisuus

Kuvassa 1, jossa esiintyy homoskedastisuutta, on totta, että:

Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)

Kun Var ((yi-Yi); Xi) edustaa varianssia, pari (xi, yi) edustaa ryhmän i tietoja, kun taas Yi on ryhmän keskiarvon Xi regression ennustama arvo. Ryhmän i n-tietojen varianssi lasketaan seuraavasti:

Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n

Päinvastoin, kun heteroskedatilisuutta esiintyy, regressiomalli ei ehkä ole voimassa koko alueella, jolla se laskettiin. Kuvio 2 esittää esimerkkiä tästä tilanteesta.

Kuvio 2. Heteroskedatilisuutta osoittava tietoryhmä. (Oma suunnittelu)

Kuvio 2 esittää kolmea tietoryhmää ja joukon sopivuutta lineaarista regressiota käyttämällä. On huomattava, että toisen ja kolmannen ryhmän tiedot ovat hajaantuneempia kuin ensimmäisessä ryhmässä. Kuvion 2 kaavio näyttää myös kunkin ryhmän keskiarvon ja sen virhepalkin ± σ kunkin tietoryhmän σ keskihajonnan kanssa. On muistettava, että keskihajonta σ on varianssin neliöjuuri.

On selvää, että heteroskedatilisuuden tapauksessa regression estimointivirhe muuttuu selittävän tai riippumattoman muuttujan arvoalueella ja välein, joissa tämä virhe on erittäin suuri, regression ennuste ei ole luotettava tai ei sovellettavissa.

Regressiomallissa virheet tai jäännökset (ja -Y) on jaettava yhtä suurella varianssilla (σ ^ 2) koko riippumattoman muuttujan arvoalueella. Tästä syystä hyvän regressiomallin (lineaarisen tai epälineaarisen) on läpäistävä homoskedastisuustesti.

Homoskedastisuuskokeet

Kuvassa 3 esitetyt pisteet vastaavat tutkimuksen tietoja, joissa etsitään talojen hintojen (dollareina) suhdetta koon tai pinta-alan funktiona neliömetrinä.

Ensimmäinen testattava malli on lineaarinen regressio. Ensinnäkin on huomattava, että sopivuuden määrityskerroin R ^ 2 on melko korkea (91%), joten voidaan ajatella, että sopivuus on tyydyttävä.

Kaksi aluetta voidaan kuitenkin selvästi erottaa säätökaaviosta. Yksi niistä, oikealla oleva, soikea, suljettu, täyttää homoskedastisuuden, kun taas vasemmalla puolella olevalla alueella ei ole homoskedastisuutta.

Tämä tarkoittaa, että regressiomallin ennuste on riittävä ja luotettava alueella 1800 m ^ 2 - 4800 m ^ 2, mutta erittäin riittämätön tämän alueen ulkopuolella. Heteroskedatisella vyöhykkeellä virhe ei ole vain erittäin suuri, vaan myös tiedot näyttävät seuraavan eri suuntausta kuin lineaarisen regressiomallin ehdottama.

Kuva 3. Asuntojen hinnat alueittain ja ennustava malli lineaarisella regressiolla, esittäen homoskedasticiteetti- ja heteroscedasticityvyöhykkeet. (Oma suunnittelu)

Tietojen sirontakaavio on yksinkertaisin ja visuaalisin testi niiden homoskedasticisyydelle, mutta silloin, kun se ei ole niin ilmeistä kuin kuvassa 3 esitetyssä esimerkissä, on käytettävä kuvaajia, jotka sisältävät apumuuttujia.

Standardoidut muuttujat

Alueiden erottamiseksi, joilla homoskedastisuus täyttyy ja joissa sitä ei ole, otetaan käyttöön standardisoidut muuttujat ZRes ja ZPred:

ZRes = Abs (y - Y) / σ

ZPred = Y / σ

On huomattava, että nämä muuttujat riippuvat käytetystä regressiomallista, koska Y on regression ennusteen arvo. Alla on sirontakaavio ZRes vs ZPred samasta esimerkistä:

Kuva 4. On huomattava, että homoskedasticityvyöhykkeellä ZRes pysyy yhtenäisinä ja pieninä ennustealueella (oma yksityiskohta).

Kuvan 4 kaaviossa, jossa on standardisoidut muuttujat, alue, jolla jäännösvirhe on pieni ja yhtenäinen, erotetaan selvästi alueesta, jossa sitä ei ole. Ensimmäisessä vyöhykkeessä homoskedasticiteetti täyttyy, kun taas alueella, jolla jäännösvirhe on hyvin muuttuva ja suuri, heteroskedaalisuus täyttyy.

Regression säätöä sovelletaan samaan dataryhmään kuviossa 3, tässä tapauksessa säätö on epälineaarinen, koska käytetty malli sisältää potentiaalisen funktion. Tulos on esitetty seuraavassa kuvassa:

Kuvio 5. Uudet homoskedastisuuden ja heteroskedatisuuden vyöhykkeet datassa, joka sopii epälineaariseen regressiomalliin. (Oma laatiminen).

Kuvion 5 kaaviossa homoskedaattiset ja heteroskedaattiset alueet on merkittävä selvästi. On myös huomattava, että nämä vyöhykkeet vaihdettiin suhteessa niihin, jotka muodostettiin lineaarisen sovituksen mallissa.

Kuvion 5 kaaviossa on selvää, että vaikka sopivuuden määrittämiskerroin olisi melko korkea (93,5%), malli ei ole riittävä koko selittävän muuttujan aikavälille, koska arvojen tiedot yli 2000 m ^ 2: n läsnäolo on heteroskedaattinen.

Ei-graafiset testit homoskelastiisuudesta

Yksi ei-graafisista testeistä, joita käytetään eniten todentamaan, täyttyykö homoskedasticiteetti vai ei, on Breusch-Pagan-testi.

Kaikkia testin yksityiskohtia ei anneta tässä artikkelissa, mutta sen perusominaisuudet ja niiden vaiheet esitetään karkeasti:

Regressiomallia sovelletaan n tietoon, ja sen varianssi lasketaan suhteessa mallin arvioimaan arvoon σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
Uusi muuttuja on määritelty ε = ((yj - Y) ^ 2) / (σ ^ 2)
Uutta muuttujaa sovelletaan samaan regressiomalliin ja sen uudet regressioparametrit lasketaan.
Kriittinen arvo Chi-neliö (χ ^ 2) määritetään, tämä on puoli muuttujan ε uusien jäännösten neliöiden summasta.
Chi-neliöjakaustaulua käytetään ottaen huomioon merkitsevyystaso (yleensä 5%) ja vapausasteiden lukumäärä (regressiomuuttujien # vähennettynä yksiköllä) taulukon x-akselilla, jotta saadaan hallitus.
Vaiheessa 3 saatua kriittistä arvoa verrataan taulukossa löytyvään arvoon (χ ^ 2).
Jos kriittinen arvo on taulukon alapuolella, meillä on nollahypoteesi: on homoskedastisuutta
Jos kriittinen arvo on taulukon yläpuolella, meillä on vaihtoehtoinen hypoteesi: ei ole homoskedaktiikkaa.

Suurimpaan osaan tilastollisia ohjelmistopaketteja, kuten: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic ja monet muut, sisältyy Breusch-Pagan-homoskedastisuustesti. Toinen testi varianssin tasaisuuden tarkistamiseksi on Levene-testi.

Viitteet

Box, Hunter & Hunter. (1988) Tilastot tutkijoille. Käänsin toimittajat.
Johnston, J (1989). Ekonometriset menetelmät, Vicens -Vives-toimittajat.
Murillo ja González (2000). Ekonometrian käsikirja. Las Palmas de Gran Canarian yliopisto. Palautettu: ulpgc.es.
Wikipedia. Homoscedasticity. Palautettu osoitteesta: es.wikipedia.com
Wikipedia. Homoscedasticity. Palautettu osoitteesta: en.wikipedia.com

HOMOSKEDALISUUS: MIKÄ SE ON, MERKITYS JA ESIMERKKEJÄ - DUDAS - 2026