KORRELAATIOKERROIN: KAAVAT, LASKENTA, TULKINTA, ESIMERKKI - DUDAS

Korrelaatiokerroin tilastojen on osoitus siitä, että toimenpiteet taipumus kahden määrällisten X ja Y on lineaarinen tai suhteellinen suhde toisiinsa.

Muuttujien X ja Y parit ovat yleensä saman populaation kaksi ominaisuutta. Esimerkiksi X voi olla henkilön pituus ja Y hänen paino.

Kuva 1. Korrelaatiokerroin neljälle dataparille (X, Y). Lähde: F. Zapata.

Tässä tapauksessa korrelaatiokerroin osoittaisi, onko tietyssä populaatiossa trendi kohti suhteellista suhdetta pituuden ja painon välillä.

Pearsonin lineaarinen korrelaatiokerroin merkitään pienillä kirjaimilla r ja sen minimi- ja maksimiarvot ovat vastaavasti -1 ja +1.

Arvo r = +1 osoittaa, että parisarja (X, Y) ovat täydellisesti linjassa ja että kun X kasvaa, Y kasvaa samassa suhteessa. Toisaalta, jos tapahtuisi, että r = -1, parisarja olisi myös kohdistettu täydellisesti, mutta tässä tapauksessa, kun X kasvaa, Y vähenee samassa suhteessa.

Kuva 2. Lineaarisen korrelaatiokertoimen eri arvot. Lähde: Wikimedia Commons.

Toisaalta, r = 0-arvo osoittaisi, että muuttujien X ja Y välillä ei ole lineaarista korrelaatiota. R = +0,8-arvo osoittaa, että pareilla (X, Y) on taipumus rypistyä toiselle puolelle ja toinen tietystä linjasta.

Kaava korrelaatiokertoimen r laskemiseksi on seuraava:

Kuinka laskea korrelaatiokerroin?

Lineaarinen korrelaatiokerroin on tilastollinen määrä, joka on rakennettu tieteellisiin laskureihin, useimpiin laskentataulukoihin ja tilastollisiin ohjelmiin.

On kuitenkin helppo tietää, kuinka sitä määrittelevä kaava sovelletaan, ja tätä varten esitetään yksityiskohtainen laskelma pienellä tietojoukolla.

Ja kuten edellisessä osassa todettiin, korrelaatiokerroin on kovarianssi Sxy jaettuna muuttujan X muuttujien X ja Sy muuttujan Y vakiopoikkeamalla Sx.

Kovarianssi ja varianssi

Kovarianssi Sxy on:

Sxy = / (N-1)

Missä summa menee yhdestä N datapariin (Xi, Yi). ja ovat datan Xi ja Yi aritmeettinen keskiarvo.

Muuttujan X vakiopoikkeama on puolestaan tietojoukon Xi varianssin neliöjuuri, jossa i on 1 - N:

Sx = √

Samoin muuttujan Y keskihajonta on tietojoukon Yi varianssin neliöjuuri, jossa i on 1 - N:

Sy = √

Havainnollistava tapaus

Jotta voimme näyttää yksityiskohtaisesti kuinka korrelaatiokerroin lasketaan, otamme seuraavan joukon neljä paria tietoja

(X, Y): {(1, 1); (2,3); (3, 6) ja (4, 7)}.

Ensin lasketaan X: n ja Y: n aritmeettinen keskiarvo seuraavasti:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Sitten jäljellä olevat parametrit lasketaan:

Kovarianssi Sxy

Sxy = / (4-1)

Sxy = / (3) = 10,5 / 3 = 3,5

Vakiopoikkeama Sx

Sx = √ = √ = 1,29

Vakiopoikkeama Sy

Sx = √ =

√ = 2,75

Korrelaatiokerroin r

r = 3,5 / (1,29 * 2,75) = 0,98

Tulkinta

Edellisen tapauksen tietojoukossa havaitaan vahva lineaarinen korrelaatio muuttujien X ja Y välillä, mikä ilmenee sekä sirontakaaviossa (esitetty kuvassa 1) että korrelaatiokertoimessa, joka antoi arvo melko lähellä yhtenäisyyttä.

Siltä osin kuin korrelaatiokerroin on lähempänä arvoa 1 tai -1, sitä järkevämpää on sovittaa data riville, lineaarisen regression tulos.

Lineaarinen regressio

Lineaarinen regressioviiva saadaan pienimmän neliösumman menetelmällä. jossa regressioviivan parametrit saadaan minimoimalla N-arvon arvioidun Y-arvon ja Yi-eron neliön summa.

Toisaalta pienimmän neliösumman menetelmällä saadut regressioviivan y = a + bx parametrit a ja b ovat:

* b = Sxy / (Sx ²) kaltevuudelle

* a = - b regressioviivan ja Y-akselin leikkauspisteelle.

Muista, että Sxy on edellä määritelty kovarianssi ja Sx ² on edellä määritellyn keskihajonnan varianssi tai neliö. ja ovat datan X ja Y aritmeettinen keskiarvo.

esimerkki

Korrelaatiokerrointa käytetään määrittämään, onko kahden muuttujan välillä lineaarinen korrelaatio. Sitä voidaan käyttää, kun tutkittavat muuttujat ovat kvantitatiivisia, ja lisäksi oletetaan, että ne seuraavat normaalia tyyppijakaumaa.

Seuraavaksi esitetään valaiseva esimerkki: lihavuuden asteen mitta on kehon massaindeksi, joka saadaan jakamalla ihmisen paino kilogrammoina henkilön neliökorkeudella neliöyksiköinä.

Haluat tietää, onko painoindeksi ja veressä olevan HDL-kolesterolipitoisuuden välillä vahva korrelaatio millimoolina litrassa. Tätä tarkoitusta varten on tehty 533 ihmisen kanssa tutkimus, joka esitetään yhteenvetona seuraavassa kaaviossa, jossa kukin piste edustaa yhden henkilön tietoja.

Kuvio 3. Tutkimus BMI- ja HDL-kolesterolista 533 potilaalla. Lähde: Aragonese Institute of Health Sciences (IACS).

Graafin tarkka havainnointi osoittaa, että HDL-kolesterolipitoisuuden ja kehon massaindeksin välillä on tietty lineaarinen trendi (ei kovin selvästi). Tämän suuntauksen kvantitatiivinen mitta on korrelaatiokerroin, joka tässä tapauksessa osoittautui r = -0,276.

Viitteet

González C. Yleiset tilastot. Palautettu osoitteesta: tarwi.lamolina.edu.pe
IACS. Aragonese Health Sciences Institute. Palautettu osoitteesta: ics-aragon.com
Salazar C. ja Castillo S. Tilastojen perusperiaatteet. (2018). Palautettu osoitteesta: dspace.uce.edu.ec
Superprof. Korrelaatiokerroin. Palautettu: superprof.es
USAC. Kuvaileva tilasto-ohje. (2011). Palautettu: statistika.ingenieria.usac.edu.gt
Wikipedia. Pearsonin korrelaatiokerroin. Palautettu osoitteesta: es.wikipedia.com.

KORRELAATIOKERROIN: KAAVAT, LASKENTA, TULKINTA, ESIMERKKI - DUDAS - 2026