Menu

Item gefilterd op datum: december 2012

Multipele regressieanalyse

  • De situatie waarin niet één onafhankelijke variabele of voorspeller is voor Y, maar meerdere. We houden ons nu niet meer bezig met bivariate analyse, maar met multivariate analyse.

  • Iedere X variabele krijgt zijn eigen regressie gewicht. Het is belangrijk om bij analyse van deze gewichten in het achterhoofd te houden dat het gewichten zijn, ze geven het relatieve belang aan van de desbetreffende X variabele bij de voorspelling van Y.
    • Een veelgemaakte fout is dat men resultaten interpreteert als X1 heeft veel met Y te maken en X2 heeft weinig verband met Y. Dit is onjuist, de resultaten betekenen alleen dat X1 zijn werk heeft gedaan in de voorspelling Y, de variabele X2 lijkt op X1 en heeft daar weinig aan toe te voegen.
    • De b-gewichten zijn schaalafhankelijk; een onafhankelijke X variabele door 2 delen maakt het regressiegewicht navenant groter. Vaak zet men de scores om in standaardscores en voert de regressie op de gestandaardiseerde variabelen uit. De b gewichten die daaruit komen heten dan βi.
    • De maat voor de voorspelling is R^2 en is de correlatie tussen de waargenomen scores Y en de op basis van het multivariate regressiemodel voorspelde scores Ў, R^2 is dus maximaal 1.
    • Het is ook mogelijk diverse regressiemodellen uit te rekenen en te toetsen of de R^2 waarden van de diverse modellen significant verschillen.
  • Vergelijking van verschillende sets van predicatoren kan op twee manieren:
  • Met weinig voorspellers beginnen en voorspellers toevoegen tot de voorspelling niet meer verbetert (forward methode)
  • Of met veel voorspellers beginnen en er telkens een verwijderen tot de voorspelling niet meer dramatisch omlaag gaat. (backward methode)
  • Als we echter niet zozeer geïnteresseerd zijn in het verschil tussen een beperkt aantal groepen, maar in het effect van continue varabele op de overlevingsduur, of wals we geïnteresseerd zijn in het effect van diverse onafhankelijke variabelen op de afhankelijke variabele, dan zijn andere modellen geboden en kunnen we een regressiemodel opstellen. Een dergelijk model wordt de Cox-regressie genoemd.
    • De afhankelijke variabele bij Cox-regressie si de hazard h(t). De baseline hazard is de hazard voor een individu als de waarden van alle onafhankelijke variabelen nul zijn.
    • Aangezien de afhankelijke varaibele de hazard is, betkeent een positief regressiegewicht dat een hogere score op de desbetreffende onafhankelijke variable het risico op recidive doet toenemen.

Lees meer...

Enkelvoudige regressieanalyse

  • Het voorspellen van een afhankelijke variabele Y uit één onafhankelijke variabele X. Het criterium is niet of er een samenhang is en in welke richting, maar hoe goed het lukt die uit Y te voorspellen.

  • Als de voorspelde Y Ў is, dan kan de vraag hoe goed mijn voorspelling van Y is vertaalt worden als: Hoeveel Ў van Y afwijkt. De afwijkingen van de voorspelde en de echte scores van Y is ‘e’. Dus geldt: e = Y – Ў.
  • Als indicator hoe goed het lukt om Y uit X te voorspellen wordt de standaardschattingsfout gebruikt.
  • Als de correlatie tussen X en Y nul is, dan levert X geen bijdrage aan de voorspelling van Y. Als echter in het andere extreme geval de correlatie 1 is of -1 dan is de voorspelfout nul en dus perfect.
  • Om Y uit X te voorspellen hebben we het lineair model: Y = a+bX + e (regressiemodel).
  • Het intercept a geeft weer hoeveel wij gemiddeld bij X moeten optellen om Y te voorspellen. Het regressiegewicht b geeft weer hoeveel Y toeneemt met toename van X.
  • De regressieanalyse is niet symmetrisch, omgedraaid komen er andere getallen uit.
Lees meer...

De Log-ranktoets

  • Bij overlevingsduuranalyse kan het verband tussen een zekere groepsindelingen de verdeling van de duur tot de gebeurtenis die we onderzoeken bepaald worden met behulp van de log-ranktoets.
  • Deze toets lijkt sterk op de Ӽ^2 teots in de zin dat vergeleken wordt in hoeverre het geobserveerde aantal events afwijkt van het onder de nulhypothese van geen verschil tussen A en B verwachte aantal events.
  • Per interval waarin gebeurtenissen plaatsvinden is uit te rekenen hoeveel van die gevallen wij bij groep A aangetroffen zouden hebben als het voor de kans op recidive geen verschil maakt of iemand in groep A of B zit. Het bij groep B verwachte aantal is het totaal aantal gevallen minus het bij A verwachte aantal recidivegevallen.
    • Kleine groepen en in absolute zin geringe recidiveaantal kunnen maken dat een toets toch geen significantie aangeeft.
    • Een van de aannames die aan de toets tengrondslag liggen is dat de verhouding van de hazard over de groepen niet met de tijd verandert. Dit heet de aanname van proportionele hazards of ook wel de proportional hazards assumption.
    • Als de curves verschillend van vorm worden dan is de assumptie van proportionele hazards geschonden en zou een andere test gebruikt moeten worden. Een goede kanditdaat daarvoor is;
  • De Breslow test, een variant van de Wilcoxon non-parametrische toets.
  • De log-ranktoets is redelijk robuust tegen afwijkingen van de aanname van proportionele hazards; als de overlevingsfuncties kruis, is het echter een duidelijke indicatie dat de log-ranktoets niet meer betrouwbaar is.
  • Voor het geval geen censurering is opgetreden kunnen verschillen tussen groepen met een gewone non-parametrische toets voor ordinale gegevens zoals de Mann-Whitney¸ getoetst worden.
  • Als men recidive na uitstroom uit een behandeling of detentie onderzoekt, is het belangrijk te corrigeren voor de leeftijden van de verschillende groepen.
  • Een tweede belangrijke verstorende factor is expositie, die wij mogelijk het beste kunnen omschrijven als blootstelling aan de mogelijkheid om opnieuw delicten te plegen.
  • Als iemand vastzit, kan hij in principe niet recidiveren. Voor het bepalen van de hazard zou dus eigenlijk voor die detentietijd gecorrigeerd moeten worden (niet altijd zo, in de gevangenis kan bijv. ook gerecidiveerd worden).

Lees meer...

Relatief risico & Odds ratios

de odds ratio is de maat voor de verhouding van het relatief risico. We bespreken eerst het relatief risico, vaak aangeduid als RR. De verhouding van deze twee wordt nu het relatief risico genoemd.

  • Een relatief risico van 1 betekent dat er geen verschil is tussen de twee soorten gegevens.
  • Een odds ratio van 1 betekent dat er geen verschil is tussen de twee soorten gegevens, de verhouding van de kans bij beiden typen gegeven is dan gelijk. De odds ratio wordt relatief vaak gebruikt omdat:
    • Een aantal technieken, standaard de odds ratio produceert
    • De odds ratio wordt gezien als een betere maat dan de Pearson als de gegevens scheef verdeeld zijn.
      • De odds ratio makkelijk en eenduidig te berekenen, en onafhankelijk van hoe men de variabelen kruist in de kruistabel.
      • Voor de odds kan getoetst worden of zij significant van 1 afwijken. Als het 95% betrouwbaarheidsinterval het verhoudingsgetal 1 omsluit wordt de odds ratio niet gerapporteerd.

Lees meer...

De Ӽ^2 toets

De vraag of twee variabelen die in de kruistabel weergegeven zijn me telkaar verband hebben wordt beantwoord met deze toets. De vraag is of uitgaande van de nulhypothese H0: Ӽ^2 = 0 de resultaten niet zo onwaarschijnlijk zijn dat we op de alternatieve hypothese H0: Ӽ^2 >0 zouden moeten overstappen. Als we de Ӽ^2 uitrekenen krijgen we een indicatie van de waarschijnlijkheid van deze resultaten als er in werkelijkheid (in de populatie) geen verband tussen twee kenmerken is.

  • Als de Ӽ^2 berekend is, kan het bijbehorende aantal vrijheidsgraden in de tabel worden opgezocht. Hoe waarschijnlijk deze waarde is onder de nulhypothese van geen verband tussen de rijvariabele en de kolomvariabele.

Lees meer...

De standaarddeviatie

die niets anders is dan de wortel uit de variantie s = √s^2. – Het voordeel van de standaarddeviatie is dat de waarde weer te interpreteren is in termen van de oorspronkelijke schaal.

Lees meer...

De variantie

wordt aangeduid met s^2. De formule produceert dus de gemiddelde som van de gekwadrateerde afwijkingen van de individuele scores van het gemiddelde. – Een nadeel van de variantiemaat is dat door het kwadrateren, de relatie met de oorspronkelijke schaal waarin de metingen verricht zijn, zoek is.

Lees meer...

De Range

het spectrum waarop de getallen zich bevinden, om minder last te hebben van vertekening door extreme waarnemingen, rapporteert men de range van de getallen waarbij het laagste en hoogste getal verwijderd zijn.

Lees meer...

Het gemiddelde

is de som van de waarnemingen gedeeld door het aantal waarnemingen. Nadeel van het gemiddelde is dat het gevoelig is voor afwijkende, extreme scores. – De mediaan is ongevoelig voor zulke uitbijters.

Lees meer...

De Mediaan

De Mediaan is de waarde waar 50% van de waarnemingen boven en dus ook onder ligt. – De mediaan is een belangrijke maat van centrale tendentie in de criminologie omdat veel gegevens scheef verdeeld zijn, voor dat soort extreme waarnemingen is de mediaan niet gevoelig.

Lees meer...
Abonneren op deze RSS feed

Advies nodig?

Vraag dan nu een gratis en vrijblijvende scan aan voor uw website.
Wij voeren een uitgebreide scan en stellen een SEO-rapport op met aanbevelingen
voor het verbeteren van de vindbaarheid en de conversie van uw website.

Scan aanvragen