Korelacja

Co to jest korelacja:

Korelacja oznacza podobieństwo lub związek między dwiema rzeczami, ludźmi lub pomysłami . Jest to podobieństwo lub równoważność, która istnieje między dwiema różnymi hipotezami, sytuacjami lub przedmiotami.

W dziedzinie statystyki i matematyki korelacja odnosi się do miary między dwiema lub większą liczbą powiązanych zmiennych.

Termin korelacja jest rzeczownikiem żeńskim, który pochodzi od łacińskiego correlatiōne.

Korelację słowa można zastąpić synonimami, takimi jak: relacja, równanie, nexus, korespondencja, analogia i połączenie.

Współczynnik korelacji

W statystyce współczynnik korelacji Pearsona (r), zwany również współczynnikiem korelacji produktu, mierzy związek między dwiema zmiennymi w tej samej skali metrycznej.

Funkcja współczynnika korelacji polega na określeniu intensywności relacji istniejącej między znanymi zestawami danych lub informacji.

Wartość współczynnika korelacji może wahać się od -1 do 1, a uzyskany wynik określa, czy korelacja jest ujemna, czy dodatnia.

Aby zinterpretować współczynnik, należy wiedzieć, że 1 oznacza, że korelacja między zmiennymi jest doskonała dodatnia, a -1 oznacza, że jest ona ujemna . Jeśli współczynnik jest równy 0, oznacza to, że zmienne nie zależą od siebie.

W statystykach znajduje się również współczynnik korelacji Spearmana, który nosi tę nazwę na cześć statystyka Charlesa Spearmana. Funkcja tego współczynnika polega na pomiarze intensywności relacji między dwiema zmiennymi, niezależnie od tego, czy są one liniowe, czy nie.

Korelacja Spearmana służy do oceny, czy intensywność relacji między dwiema analizowanymi zmiennymi można zmierzyć monotonną funkcją (funkcja matematyczna, która zachowuje lub odwraca początkową relację kolejności).

Obliczanie współczynnika korelacji Pearsona

Metoda 1) Obliczanie współczynnika korelacji Pearsona za pomocą kowariancji i odchylenia standardowego.

Gdzie

S _XY to kowariancja;

S _x i S _y reprezentują odchylenie standardowe, odpowiednio, zmiennych x i y.

W tym przypadku obliczenia obejmują najpierw znalezienie kowariancji między zmiennymi i odchylenie standardowe każdego z nich. Następnie kowariancja jest dzielona przez pomnożenie odchyleń standardowych.

Często instrukcja ta zapewnia już albo standardowe odchylenia zmiennych, albo kowariancję między nimi, po prostu stosując formułę.

Metoda 2) Obliczanie współczynnika korelacji Pearsona z surowymi danymi (bez kowariancji lub odchylenia standardowego).

Dzięki tej metodzie najbardziej bezpośrednia formuła wygląda następująco:

Na przykład, zakładając, że mamy dane z n = 6 obserwacji dwóch zmiennych: poziom glukozy (y) i wiek (x), obliczenia są następujące:

Krok 1) Skonfiguruj tabelę z istniejącymi danymi: i, x, y, i dodaj puste kolumny dla xy, x² i y²:

Krok 2: Pomnóż x i y, aby wypełnić kolumnę „xy”. Na przykład w wierszu 1 będziemy mieli: x1y1 = 43 × 99 = 4257.

Krok 3: Podnieś wartości kolumny x i zapisz wyniki w kolumnie x². Na przykład w pierwszym wierszu będziemy mieli x ₁ 2 = 43 × 43 = 1849.

Krok 4: Zrób to samo co w kroku 3, teraz używając kolumny y i zapisz kwadrat swoich wartości w kolumnie y². Na przykład w pierwszym wierszu będziemy mieli: y ₁ 2 = 99 × 99 = 9801.

Krok 5: Uzyskaj sumę wszystkich numerów kolumn i umieść wynik w stopce kolumny. Na przykład suma kolumny Wiek X jest równa 43 + 21 + 25 + 42 + 57 + 59 = 247.

Krok 6: Użyj powyższego wzoru, aby uzyskać współczynnik korelacji:

Mamy więc:

Współczynnik korelacji Spearmana

Obliczenie współczynnika korelacji Spearmana jest nieco inne. W tym celu musimy uporządkować nasze dane w następującej tabeli:

1. Po ogłoszeniu 2 par danych musimy wprowadzić je do tabeli. Na przykład:

2. W kolumnie „Ranking A” będziemy klasyfikować obserwacje, które są w „Dacie A” w sposób rosnący, przy czym „1” jest najniższą wartością w kolumnie, en (całkowita liczba obserwacji), najwyższa wartość w kolumnie „Data A „ W naszym przykładzie jest to:

3. Robimy to samo, aby uzyskać kolumnę „Ranking B”, teraz używając obserwacji w kolumnie „Dane B”:

4. W kolumnie „d” umieszczamy różnicę między dwoma rankingami (A - B). Tutaj sygnał nie ma znaczenia.

5. Podnieś każdą z wartości w kolumnie „d” i zapisz w kolumnie d²:

6. Dodaj wszystkie dane z kolumny „d²”. Ta wartość to Σd². W naszym przykładzie Σd² = 0 + 1 + 0 + 1 = 2

7. Teraz używamy wzoru Spearmana:

W naszym przypadku n jest równe 4, ponieważ przyglądamy się liczbie wierszy danych (co odpowiada liczbie obserwacji).

8. Wreszcie zastępujemy dane w poprzedniej formule:

Regresja liniowa

Regresja liniowa jest formułą używaną do oszacowania możliwej wartości zmiennej (y), gdy znane są wartości innych zmiennych (x). Wartość „x” jest zmienną niezależną lub objaśniającą, a „y” jest zmienną zależną lub odpowiedzią.

Regresja liniowa jest używana do sprawdzenia, jak wartość „y” może się zmieniać jako funkcja zmiennej „x”. Linia zawierająca wartości kontroli wariancji nazywana jest linią regresji liniowej.

Jeśli zmienna objaśniająca „x” ma jedną wartość, regresja będzie nazywana prostą regresją liniową .