- Kuinka laskea korrelaatiokerroin?
- Kovarianssi ja varianssi
- Havainnollistava tapaus
- Kovarianssi Sxy
- Vakiopoikkeama Sx
- Vakiopoikkeama Sy
- Korrelaatiokerroin r
- Tulkinta
- Lineaarinen regressio
- esimerkki
- Viitteet
Korrelaatiokerroin tilastojen on osoitus siitä, että toimenpiteet taipumus kahden määrällisten X ja Y on lineaarinen tai suhteellinen suhde toisiinsa.
Muuttujien X ja Y parit ovat yleensä saman populaation kaksi ominaisuutta. Esimerkiksi X voi olla henkilön pituus ja Y hänen paino.

Kuva 1. Korrelaatiokerroin neljälle dataparille (X, Y). Lähde: F. Zapata.
Tässä tapauksessa korrelaatiokerroin osoittaisi, onko tietyssä populaatiossa trendi kohti suhteellista suhdetta pituuden ja painon välillä.
Pearsonin lineaarinen korrelaatiokerroin merkitään pienillä kirjaimilla r ja sen minimi- ja maksimiarvot ovat vastaavasti -1 ja +1.
Arvo r = +1 osoittaa, että parisarja (X, Y) ovat täydellisesti linjassa ja että kun X kasvaa, Y kasvaa samassa suhteessa. Toisaalta, jos tapahtuisi, että r = -1, parisarja olisi myös kohdistettu täydellisesti, mutta tässä tapauksessa, kun X kasvaa, Y vähenee samassa suhteessa.

Kuva 2. Lineaarisen korrelaatiokertoimen eri arvot. Lähde: Wikimedia Commons.
Toisaalta, r = 0-arvo osoittaisi, että muuttujien X ja Y välillä ei ole lineaarista korrelaatiota. R = +0,8-arvo osoittaa, että pareilla (X, Y) on taipumus rypistyä toiselle puolelle ja toinen tietystä linjasta.
Kaava korrelaatiokertoimen r laskemiseksi on seuraava:

Kuinka laskea korrelaatiokerroin?
Lineaarinen korrelaatiokerroin on tilastollinen määrä, joka on rakennettu tieteellisiin laskureihin, useimpiin laskentataulukoihin ja tilastollisiin ohjelmiin.
On kuitenkin helppo tietää, kuinka sitä määrittelevä kaava sovelletaan, ja tätä varten esitetään yksityiskohtainen laskelma pienellä tietojoukolla.
Ja kuten edellisessä osassa todettiin, korrelaatiokerroin on kovarianssi Sxy jaettuna muuttujan X muuttujien X ja Sy muuttujan Y vakiopoikkeamalla Sx.
Kovarianssi ja varianssi
Kovarianssi Sxy on:
Sxy = / (N-1)
Missä summa menee yhdestä N datapariin (Xi, Yi).
Muuttujan X vakiopoikkeama on puolestaan tietojoukon Xi varianssin neliöjuuri, jossa i on 1 - N:
Sx = √
Samoin muuttujan Y keskihajonta on tietojoukon Yi varianssin neliöjuuri, jossa i on 1 - N:
Sy = √
Havainnollistava tapaus
Jotta voimme näyttää yksityiskohtaisesti kuinka korrelaatiokerroin lasketaan, otamme seuraavan joukon neljä paria tietoja
(X, Y): {(1, 1); (2,3); (3, 6) ja (4, 7)}.
Ensin lasketaan X: n ja Y: n aritmeettinen keskiarvo seuraavasti:
Sitten jäljellä olevat parametrit lasketaan:
Kovarianssi Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Vakiopoikkeama Sx
Sx = √ = √ = 1,29
Vakiopoikkeama Sy
Sx = √ =
√ = 2,75
Korrelaatiokerroin r
r = 3,5 / (1,29 * 2,75) = 0,98
Tulkinta
Edellisen tapauksen tietojoukossa havaitaan vahva lineaarinen korrelaatio muuttujien X ja Y välillä, mikä ilmenee sekä sirontakaaviossa (esitetty kuvassa 1) että korrelaatiokertoimessa, joka antoi arvo melko lähellä yhtenäisyyttä.
Siltä osin kuin korrelaatiokerroin on lähempänä arvoa 1 tai -1, sitä järkevämpää on sovittaa data riville, lineaarisen regression tulos.
Lineaarinen regressio
Lineaarinen regressioviiva saadaan pienimmän neliösumman menetelmällä. jossa regressioviivan parametrit saadaan minimoimalla N-arvon arvioidun Y-arvon ja Yi-eron neliön summa.
Toisaalta pienimmän neliösumman menetelmällä saadut regressioviivan y = a + bx parametrit a ja b ovat:
* b = Sxy / (Sx 2) kaltevuudelle
* a =
Muista, että Sxy on edellä määritelty kovarianssi ja Sx 2 on edellä määritellyn keskihajonnan varianssi tai neliö.
esimerkki
Korrelaatiokerrointa käytetään määrittämään, onko kahden muuttujan välillä lineaarinen korrelaatio. Sitä voidaan käyttää, kun tutkittavat muuttujat ovat kvantitatiivisia, ja lisäksi oletetaan, että ne seuraavat normaalia tyyppijakaumaa.
Seuraavaksi esitetään valaiseva esimerkki: lihavuuden asteen mitta on kehon massaindeksi, joka saadaan jakamalla ihmisen paino kilogrammoina henkilön neliökorkeudella neliöyksiköinä.
Haluat tietää, onko painoindeksi ja veressä olevan HDL-kolesterolipitoisuuden välillä vahva korrelaatio millimoolina litrassa. Tätä tarkoitusta varten on tehty 533 ihmisen kanssa tutkimus, joka esitetään yhteenvetona seuraavassa kaaviossa, jossa kukin piste edustaa yhden henkilön tietoja.

Kuvio 3. Tutkimus BMI- ja HDL-kolesterolista 533 potilaalla. Lähde: Aragonese Institute of Health Sciences (IACS).
Graafin tarkka havainnointi osoittaa, että HDL-kolesterolipitoisuuden ja kehon massaindeksin välillä on tietty lineaarinen trendi (ei kovin selvästi). Tämän suuntauksen kvantitatiivinen mitta on korrelaatiokerroin, joka tässä tapauksessa osoittautui r = -0,276.
Viitteet
- González C. Yleiset tilastot. Palautettu osoitteesta: tarwi.lamolina.edu.pe
- IACS. Aragonese Health Sciences Institute. Palautettu osoitteesta: ics-aragon.com
- Salazar C. ja Castillo S. Tilastojen perusperiaatteet. (2018). Palautettu osoitteesta: dspace.uce.edu.ec
- Superprof. Korrelaatiokerroin. Palautettu: superprof.es
- USAC. Kuvaileva tilasto-ohje. (2011). Palautettu: statistika.ingenieria.usac.edu.gt
- Wikipedia. Pearsonin korrelaatiokerroin. Palautettu osoitteesta: es.wikipedia.com.
