In de statistiek is een uitbijter of "uitbijter" een datum die zeer ver afwijkt van enig ander gegeven binnen een steekproef of een set datums (de set datums wordt data genoemd). Vaak kan een uitbijter in een datumset dienen als een waarschuwing voor de statisticus van een afwijking of experimentele fout in de uitgevoerde metingen, wat ertoe zou kunnen leiden dat de statisticus de uitbijter van de datumset verwijdert. Als de statisticus de uitbijters uit de gegeven set verwijdert, kunnen de conclusies die uit het onderzoek worden getrokken heel verschillend zijn. Daarom is het erg belangrijk om te weten hoe uitbijters moeten worden berekend en geanalyseerd om een correct begrip van een statistische datumset te garanderen.
Stap
Stap 1. Leer hoe u mogelijk uitschieters kunt identificeren
Voordat we beslissen of we uitbijterdatums uit de datumset willen verwijderen of niet, moeten we natuurlijk vaststellen welke datums het potentieel hebben om uitbijters te worden. In het algemeen is een uitbijter een gegeven dat zeer ver afwijkt van de andere datums in een bepaalde datumverzameling - met andere woorden, een uitbijter bevindt zich "buiten" de andere datums. Het is meestal eenvoudig om uitschieters in een gegevenstabel of (met name) een grafiek te detecteren. Als een reeks datums visueel wordt beschreven met een grafiek, lijkt het uitbijterdatum "zeer ver" van de andere datums te liggen. Als bijvoorbeeld de meeste nulpunten in een gegeven een rechte lijn vormen, zal het uitbijtergegeven redelijkerwijs niet worden geïnterpreteerd als het vormen van die lijn.
Laten we eens kijken naar een reeks datums die de temperaturen van 12 verschillende objecten in een kamer voorstellen. Als 11 objecten een temperatuur hebben van ongeveer 70 Fahrenheit (21 graden Celsius), maar het 12e object, een oven, een temperatuur heeft van 300 Fahrenheit (150 graden Celsius), dan is direct te zien dat de oventemperatuur zeer waarschijnlijk een uitbijter
Stap 2. Rangschik de datums in een set van datums van laag naar hoog
De eerste stap bij het berekenen van uitbijters in een datumset is het vinden van de mediaan (middelste waarde) van die datumset. Deze taak wordt heel eenvoudig als de datums in een set datums zijn gerangschikt van de kleinste naar de grootste. Dus, voordat u verder gaat, rangschik de datums in een dergelijke datumset.
Laten we het bovenstaande voorbeeld voortzetten. Dit is onze set datums die de temperaturen van verschillende objecten in een kamer weergeeft: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Als we de datums van laag naar hoog rangschikken, wordt de volgorde van de datums: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Stap 3. Bereken de mediaan van de nulpuntset
De mediaan van een datumset is een datum waarbij de andere helft van de datum boven die datum ligt en de resterende helft eronder - in feite is die datum de datum die zich in het "midden" van de datumset bevindt. Als het aantal datums in een nulpuntset oneven is, is het heel gemakkelijk te vinden - de mediaan is het nulpunt met hetzelfde nummer erboven en eronder. Als het aantal nulpunten in de verzameling nulpunten echter even is, worden de 2 nulpunten in het midden gemiddeld om de mediaan te vinden, omdat geen enkele datum in het midden past. Opgemerkt moet worden dat bij het berekenen van uitbijters de mediaan meestal de variabele Q2-ni krijgt omdat Q2 tussen Q1 en Q3 ligt, het onderste en bovenste kwartiel, dat we later zullen bespreken.
- Niet te verwarren met een datumset waar het aantal datums even is - het gemiddelde van de 2 middelste datums zal vaak een getal opleveren dat niet in de datumset zelf staat - dit is oké. Als de 2 middelste datums echter hetzelfde getal zijn, zal het gemiddelde natuurlijk ook hetzelfde getal zijn, wat ook prima is.
- In het bovenstaande voorbeeld hebben we 12 datums. De 2 middelste datums zijn respectievelijk de 6e en 7e datums - 70 en 71. Dus de mediaan van onze set datums is het gemiddelde van deze 2 getallen: ((70 + 71) / 2), = 70.5.
Stap 4. Bereken het onderste kwartiel
Deze waarde, die we de variabele Q1 geven, is de datum die 25 procent (of een kwart) van de datums vertegenwoordigt. Met andere woorden, het is het nulpunt dat de nulpunten onder de mediaan doorsnijdt. Als het aantal datums onder de mediaan even is, moet u opnieuw het gemiddelde nemen van de 2 datums in het midden om Q1 te vinden, net zoals u de mediaan zelf zou vinden.
In ons voorbeeld zijn er 6 datums die boven de mediaan liggen en 6 datums die onder de mediaan liggen. Dit betekent dat we, om het onderste kwartiel te vinden, het gemiddelde moeten nemen van de 2 datums in het midden van de 6 datums onder de mediaan. De 3e en 4e datums van 6 datums onder de mediaan zijn beide 70. Het gemiddelde is dus ((70 + 70) / 2), = 70. 70 wordt onze Q1.
Stap 5. Bereken het bovenste kwartiel
Deze waarde, die we de variabele Q3 geven, is het nulpunt waarop 25 procent van de nulpunten in de datumset aanwezig zijn. Het vinden van Q3 is vrijwel hetzelfde als het vinden van Q1, behalve dat we in dit geval kijken naar de datums boven de mediaan, niet onder de mediaan.
Als we ons voorbeeld hierboven voortzetten, zijn de 2 datums in het midden van de 6 datums boven de mediaan 71 en 72. Het gemiddelde van deze 2 datums is ((71 + 72)/2), = 71, 5. 71, 5 is onze Q3.
Stap 6. Zoek de interkwartielafstand
Nu we Q1 en Q3 hebben gevonden, moeten we de afstand tussen deze twee variabelen berekenen. De afstand van Q1 tot Q3 wordt gevonden door Q1 af te trekken van Q3. De waarden die u krijgt voor interkwartielafstanden zijn erg belangrijk voor het definiëren van de grenzen van niet-uitbijterdatums in uw datumset.
- In ons voorbeeld zijn onze waarden van Q1 en Q3 70 en 71, 5. Om de interkwartielafstand te vinden, trekken we Q3 - Q1 = 71,5 - 70 = af 1, 5.
- Opgemerkt moet worden dat dit ook waar is, zelfs als Q1, Q3 of beide negatieve getallen zijn. Als onze Q1-waarde bijvoorbeeld -70 was, zou onze correcte interkwartielafstand 71,5 - (-70) = 141, 5 zijn.
Stap 7. Zoek de “binnenaanslag” in de nulpuntset
Uitbijters worden gevonden door te controleren of het gegeven binnen de getalgrenzen valt die "binnenste omheining" en "buitenste omheining" worden genoemd. Een datum die buiten de binnenste omheining van de referentieset valt, wordt een "kleine uitbijter" genoemd, terwijl een datum die buiten de buitenste omheining valt, een "grote uitbijter" wordt genoemd. Om de binnenste omheining in uw datumset te vinden, vermenigvuldigt u eerst de interkwartielafstand met 1, 5. Voeg vervolgens het resultaat toe met Q3 en trek het ook af van Q1. De twee waarden die u krijgt, zijn de binnenste omheiningsgrenzen van uw datumset.
-
In ons voorbeeld is de interkwartielafstand (71,5 - 70), of 1,5. Vermenigvuldig 1,5 met 1,5, wat resulteert in 2, 25. We tellen dit getal op bij Q3 en trekken Q1 af met dit getal om de grenzen van de binnenste omheining als volgt te vinden:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Dus de grenzen van onze innerlijke omheining zijn: 67, 75 en 73, 75.
-
In onze set van datums, ligt alleen de oventemperatuur, 300 Fahrenheit - buiten deze limieten en dus is deze datum een kleine uitbijter. We hebben echter nog steeds niet berekend of deze temperatuur een grote uitbijter is, dus trek geen conclusies voordat we onze berekeningen hebben gedaan.
Stap 8. Zoek de "buitenste aanslag" in de nulpuntset
Dit wordt op dezelfde manier gedaan als het vinden van de binnenste omheining, behalve dat de interkwartielafstand wordt vermenigvuldigd met 3. Het resultaat wordt dan opgeteld bij Q3 en afgetrokken van Q1 om de boven- en ondergrenzen van de buitenste omheining te vinden.
-
In ons voorbeeld geeft het vermenigvuldigen van de interkwartielafstand met 3 (1, 5 x 3), of 4, 5. We vinden de grenzen van de buitenste omheining op dezelfde manier als voorheen:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- De grenzen van de buitenste omheining zijn: 65,5 en 76.
-
De datums die buiten de grens van de buitenste omheining liggen, worden grote uitbijters genoemd. In dit voorbeeld ligt de oventemperatuur, 300 Fahrenheit, duidelijk buiten de buitenste omheining, dus dit gegeven is "absoluut" een grote uitbijter.
Stap 9. Gebruik een kwalitatief oordeel om te bepalen of het uitbijtergegeven al dan niet moet worden "weggegooid"
Met behulp van de hierboven beschreven methode kan worden bepaald of een gegeven een ondergeschikt, een groot gegeven of helemaal geen uitbijter is. Vergis je echter niet: het vinden van een datum als een uitbijter markeert die datum alleen als een "kandidaat" die uit de datumset moet worden verwijderd, niet als een datum die "moet" worden weggegooid. De "reden" die ervoor zorgt dat een uitbijterdatum afwijkt van andere datums in een datumset, is erg belangrijk bij het bepalen of deze moet worden weggegooid of niet. Over het algemeen kan een uitbijter die bijvoorbeeld wordt veroorzaakt door een fout in meting, registratie of experimentele planning, worden weggegooid. Aan de andere kant worden uitbijters die niet door fouten zijn veroorzaakt en die wijzen op nieuwe informatie of trends die niet eerder waren voorspeld, meestal "niet" weggegooid.
- Een ander criterium om te overwegen is of de uitbijter een groot effect heeft op het gemiddelde van een gegeven set, d.w.z. of de uitbijter deze verwart of verkeerd doet lijken. Dit is erg belangrijk om te overwegen als u conclusies wilt trekken uit het gemiddelde van uw dataset.
-
Laten we ons voorbeeld bestuderen. In dit voorbeeld, omdat het "zeer" onwaarschijnlijk lijkt dat de oven 300 Fahrenheit bereikte door onvoorspelbare natuurlijke krachten, kunnen we met bijna zekerheid concluderen dat de oven per ongeluk aan was gelaten, wat resulteerde in een gegeven afwijking van hoge temperatuur. Als we de uitbijters niet verwijderen, is ons gemiddelde van de datumset (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheit (32 graden Celsius), terwijl het gemiddelde als we de uitbijters verwijderen is (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 graden Celsius).
Aangezien deze uitbijters werden veroorzaakt door menselijke fouten en omdat het onjuist zou zijn om te zeggen dat de gemiddelde kamertemperatuur bijna 32 graden Celsius bereikt, kunnen we er beter voor kiezen om onze uitschieters "weg te gooien"
Stap 10. Ken het belang (soms) van het handhaven van uitbijters
Hoewel sommige uitbijters uit de datumset moeten worden verwijderd omdat ze fouten veroorzaken en/of de resultaten onnauwkeurig of onjuist maken, moeten sommige uitbijters behouden blijven. Als bijvoorbeeld een uitbijter op natuurlijke wijze lijkt te zijn verkregen (dat wil zeggen, niet het resultaat van een fout) en/of een nieuw perspectief biedt op het bestudeerde fenomeen, mag de uitbijter niet uit de gegeven set worden verwijderd. Wetenschappelijk onderzoek is meestal een zeer gevoelige situatie als het gaat om uitbijters - het onjuist verwijderen van uitbijters kan betekenen dat informatie wordt weggegooid die wijst op een nieuwe trend of ontdekking.