Jak obliczyć emisje

W statystykach emisji - są to wartości, które są ostro różne od innych wartości w złożonym zestawie danych. Emisja może wskazywać anomalii w dystrybucji danych lub błędach w pomiarze, tak często emisje są wyłączone z zestawu danych. Wyklucz emisje z zestawu danych, możesz przyjść na nieoczekiwane lub dokładniejsze wnioski. Dlatego konieczne jest, aby móc obliczyć i oceniać emisje, aby zapewnić prawidłowe zrozumienie danych statystycznych.

Kroki

  1. Obraz zatytułowany Oblicz Krok 1
jeden. Naucz się rozpoznawać potencjalne emisje. Przed wyeliminowanie wartości wychodzących z zestawu danych należy określić potencjalne emisje. Emisje to wartości, które są bardzo różne od większości wartości w zestawie danych - innymi słowy, emisje leżą poza trendem większości wartości. Łatwo jest wykryć w tabelach wartości lub (szczególnie) na harmonogramach. Jeśli wartości w zestawie danych są na harmonogramie, emisje leżą daleko od większości innych wartości. Jeśli na przykład większość wartości leży dalej, a następnie emisje leżą po obu stronach takiego bezpośredniego.
  • Na przykład rozważ zestaw danych reprezentujących temperaturę 12 różnych obiektów w pokoju. Jeśli 11 obiektów ma temperaturę około 70 stopni, ale dwunastym obiektem (ewentualnie piec) ma temperaturę 300 stopni, a następnie szybkie przeglądanie wartości może pokazać, że piec jest prawdopodobną emisją.
  • Obraz zatytułowany Oblicz Odstające Krok 2
    2. Ułóż dane rosnące. Pierwszym krokiem przy określaniu emisji jest obliczanie zestawu danych mediany. To zadanie jest znacznie uproszczone, jeśli wartości w zestawie danych znajdują się rosnąco (od mniejszych do więcej).
  • Kontynuując powyższy przykład, rozważ następujący zestaw danych, reprezentujących temperatury kilku obiektów: {71, 70, 73, 70, 70, 71, 72, 72, 71, 71, 72, 71, 72, 72, 71. Ten zestaw musi być uporządkowany w następujący sposób: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Obraz zatytułowany Oblicz odstające Krok 3
    3. Oblicz mediany zestaw danych. Mediana DataSet jest wartością w środku zestawu danych. Jeśli zestaw danych zawiera nieparzystą liczbę wartości, mediana jest wartością, do której i po czym ta sama liczba wartości znajduje się w zestawie danych. Ale jeśli zestaw danych zawiera nawet liczbę wartości, musisz znaleźć średnią arytmetyczną dwóch średnich wartości. Należy pamiętać, że przy obliczaniu emisji mediany jest zwykle wskazany jako Q2, ponieważ leży między Q1 a Q3 - niższe i górne kwartały, które zdefiniujemy później.
  • Nie bój się pracować z zestawami danych, w których nawet liczby wartości - średnie arytmetyczne dwie średnie wartości będą liczbą, która nie jest w zestawie danych, jest normalna. Ale jeśli dwie średnie wartości są tego samego numeru, a średnia arytmetyczna jest równa tej liczbie, jest również w kolejności rzeczy.
  • W powyższym przykładzie średnio 2 wartości wynoszą 70 i 71, więc mediana jest równa ((70 + 71) / 2) = 70.5.
  • Obraz zatytułowany Oblicz Odstające Krok 4
    cztery. Oblicz dolne kwartały. Ta wartość wskazana jako Q1, poniżej której leży 25% wartości z zestawu danych. Innymi słowy, jest połowa wartości zlokalizowanych przed medianiem. Jeśli mediana znajduje się nawet liczba wartości z zestawu danych, musisz znaleźć średnie arytmetyczne dwie średnie wartości, aby obliczyć Q1 (jest podobny do mediany obliczeń).
  • W naszym przykładzie 6 wartości znajdują się po medianie i 6 wartościach - do niego. Oznacza to, że w celu obliczenia dolnego kwartyla musimy znaleźć średnią arytmetyczną dwóch średnich średnich wartości leżących do mediany. Tutaj średnie wartości są 70 i 70. Tak więc, Q1 = ((70 + 70) / 2) = 70.
  • Obraz zatytułowany Oblicz odstające Krok 5
    pięć. Oblicz górny kwartyl. Ta wartość wskazana jako Q3, powyżej której leży 25% wartości z zestawu danych. Proces obliczania Q3 jest podobny do procesu obliczania Q1, ale tutaj jest uważane za wartości znajdujące się po medianie.
  • W powyższym przykładzie dwa średnie wartości z sześciu wartości leżących po medianie o 71 i 72. Tak więc, Q3 = ((71 + 72) / 2) = 71,5.
  • Obraz zatytułowany Oblicz Odstające Krok 6
    6. Oblicz zasięg Eskerterter. Obliczanie Q1 i Q3, musisz znaleźć odległość między tymi wartościami. Aby to zrobić, odlicz Q1 z Q3. Wartość wnętrza jest niezwykle ważna dla określania granic wartości, które nie są emisjami.
  • W naszym przykładzie Q1 = 70 i Q3 = 71.5. Zakres interkomunicowy wynosi 71,5 - 70 = 1,5.
  • Należy pamiętać, że dotyczy to wartości ujemnych Q1 i Q3. Na przykład, jeśli Q1 = -70, wówczas zakres interkomunicowy wynosi 71,5 - (-70) = 141,5.
  • Obraz zatytułowany Oblicz Odstające Krok 7
    7. Znajdź "Granice wewnętrzne" wartości w zestawie danych. Emisje są określane przez analizę wartości - niezależnie od tego, czy spadają, czy nie w granicach tak zwanych "wewnętrznych granic" i "granic zewnętrznych". Wartość przechodząca "wewnętrzna granice" jest klasyfikowana jako "nieznaczna emisja", podczas gdy wartość za "zewnętrznymi granicami" jest klasyfikowana jako "znacząca emisja". Aby znaleźć wewnętrzne granice, musisz dodać zakres eskarotyczny o 1,5 - wynik należy dodać do III kwartału i odliczyć od Q1. Znalezione dwie liczby są wewnętrznymi obramowaniem danych.
  • W naszym przykładzie zakres interkombii jest równy (71,5 - 70) = 1,5. Dalej: 1,5 * 1,5 = 2,25. Ten numer musi być dodany do Q3 i odejmij go z Q1, aby znaleźć granice wewnętrzne:
  • 71.5 + 2.25 = 73,75
  • 70 - 2.25 = 67,75
  • Zatem granice wewnętrzne są równe 67,75 i 73,75.
  • W naszym przykładzie, tylko temperatura pieca - 300 stopni - leży poza tymi granicami i można je uznać za nieletni. Ale nie spiesz się z wnioskami, konieczne jest ustalenie, czy ta temperatura jest znaczącymi emisjami. Obraz zatytułowany Oblicz Odstające Krok 7Bullet2
  • Obraz zatytułowany Oblicz Odstające Krok 8
    osiem. Znajdź zestaw danych "External Borders". Odbywa się to w taki sam sposób, jak w przypadku granic wewnętrznych, z wyjątkiem tego, że zakres interkomuniczny jest pomnożony przez 3, a nie przez 1,5. Wynik należy dodać do III i odejmij od Q1. Znalezione dwie liczby są zewnętrznymi obramowaniem danych.
  • W naszym przykładzie pomnożyć zakres escarotyczny przez 3: 1,5 * 3 = 4.5. Oblicz zewnętrzne obramowania:
  • 71.5 + 4,5 = 76
  • 70 - 4.5 = 65,5
  • Zatem granice zewnętrzne są równe 65,5 i 76.
  • Wszelkie wartości, które są poza granicami zewnętrznymi, są uważane za znaczącą emisję. W naszym przykładzie temperatura pieca - 300 stopni - jest uważana za znaczącą emisję.Obraz zatytułowany Oblicz etap 8Bullet2
  • Obraz zatytułowany Oblicz Odstające Krok 9
    dziewięć. Użyj oceny jakościowej, aby ustalić, czy wyeliminować emisje z zestawu danych. Opisana powyżej metoda pozwala określić, czy niektóre emisje (nieistotne lub znaczące) są. Jednak nie mylone - wartość sklasyfikowana jako emisja jest tylko "kandydatem" na wyjątek, czyli, że nie jesteś zobowiązany do wykluczenia go. Powodem pojawienia się emisji jest głównym czynnikiem wpływającym na decyzję o wykluczeniu emisji. Z reguły, emisje, które pojawiają się z powodu błędu (w pomiarach, zapisach, i tak dalej) są wykluczone. Z drugiej strony, emisje związane z brakiem błędów, ale z nowymi informacjami lub trendem, z reguły pozostawić w zestawie danych.
  • Równie ważne jest oszacowanie wpływu emisji do mediany zestaw danych (niezależnie od tego, czy go zniekształcają, czy nie). Jest to szczególnie ważne, gdy dokonujesz wniosków na podstawie mediany zestawu danych.
  • W naszym przykładzie jest niezwykle mało prawdopodobne, że piec będzie ogrzewać się do temperatury 300 stopni (jeśli tylko nie uwzględniać naturalnych anomalii). Dlatego można go zakończyć (z dużym udziałem zaufania), że taka temperatura jest błędem pomiaru, który chcesz wykluczyć z zestawu danych. Ponadto, jeśli nie wykluczysz emisji, mediany zestaw danych będzie równy (69 + 69 + 70 + 70 + 70 + 72 + 73 + 300) / 12 = 89,67 stopni, ale jeśli wykluczasz emisję, mediana będzie równy (69 + 69 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 stopni.
  • Emisje są zazwyczaj wynikiem błędów ludzkich, więc emisje muszą być wykluczone z zestawów danych.
  • Obraz zatytułowany Oblicz odstające Krok 10
    10. Oblicz znaczenie (czasami) emisje pozostawione w zestawie danych. Niektóre emisje muszą być wykluczone z zestawu danych, ponieważ ich powody są błędy i problemy techniczne - inne emisje należy pozostawić w zestawie danych. Jeśli na przykład emisja nie jest wynikiem błędu i / lub daje nowe zrozumienie zjawiska testowego, należy go pozostawić w zestawie danych. Eksperymenty naukowe są szczególnie wrażliwe na emisję - eliminując emisję przez pomyłkę, możesz pominąć nowy trend lub otwarcie.
  • Na przykład opracowujemy nowy lek, aby zwiększyć rozmiar ryb w rybołówstwie. Będziemy używać starego zestawu danych ({71, 70, 73, 70, 70, 70, 70, 72, 71, 300, 71, 69}), ale tym razem będzie dużo ryb (w gramach) po otrzymaniu Narkotyk eksperymentalny. Innymi słowy, pierwszy lek prowadzi do wzrostu masy ryb do 71 g, drugi lek - do 70 g i tak dalej. W tej sytuacji 300 jest znaczącą emisją, ale nie powinniśmy wykluczyć tego - jeśli założymy, że nie było błędów pomiarowych, taka emisja jest znaczącym sukcesem w eksperymencie. Lek, który zwiększona waga rybna do 300 gramów działa znacznie lepsza niż inne narkotyki - w ten sposób, 300 jest najważniejszą wartością w zestawie danych.
  • Rada

    • Po znalezieniu emisji spróbuj wyjaśnić swoją obecność, zanim ich wykluczysz z zestawu danych. Mogą wskazywać błędy lub anomalie pomiarowe w dystrybucji.

    Czego potrzebujesz

    • Kalkulator
    Podobne publikacje