GENMOD Process Count-data som har en förekomst av nollor som är större än förväntat för den underliggande sannolikhetsfördelningen av räkningar kan modelleras med en nollblåsad fördelning. I GENMOD kan den underliggande distansen vara antingen Poisson eller negativ binomial. Se Lambert (1992). Long (1997) och Cameron och Trivedi (1998) för mer information om nollblåsade modeller. Befolkningen anses bestå av två typer av individer. Den första typen ger Poisson eller negativ binomial fördelade räkningar, vilket kan innehålla nollor. Den andra typen ger alltid en nollräkning. Låt vara den underliggande fördelningen medelvärdet och vara sannolikheten för att en enskild var av den andra typen. Parametern kallas här nollinflation sannolikheten. och sannolikheten för nollräkning överstiger den frekvens som förutses av den underliggande fördelningen. Du kan begära att nollinflationssannolikheten visas i en utdatasats med PZERO-sökordet. Sannolikhetsfördelningen av en nollblåsad Poisson slumpmässig variabel Y ges av och sannolikhetsfördelningen av en nollblåsad negativ binomial slumpvariabel Y ges av var den negativa binomialdispersionsparametern är. var är en av de binära länkfunktionerna: logit, probit eller komplementär logglogg. Länkfunktionen är som standard logglänken eller länkfunktionsalternativet som anges i ZEROMODEL-satsen. Länkfunktionen är standardloggfunktionen som standard, eller länkfunktionen specificerad i MODEL-satsen, för både Poisson och den negativa binomialen. Kovariaterna för observation bestäms av den modell som anges i ZEROMODEL-satsen, och kovariaten bestäms av den modell som anges i MODEL-satsen. Regressionsparametrarna och uppskattas med största sannolikhet. Medelvärdet och variansen av Y för den nollblåsade Poisson ges byzeroinfl: Zero-inflated Count Data Regression-argument som överförs till zeroinfl. control i standardinställningen. Nollblåsade räknemodeller är tvåkomponentblandningsmodeller som kombinerar en punktmassa vid noll med en korrekt räknefördelning. Således finns det två källor till nollor: nollor kan komma från både punktmassan och från räknarkomponenten. Normalt är räknemodellen en Poisson - eller negativ binomialregression (med logglänk). Den geometriska fördelningen är ett speciellt fall av den negativa binomialen med storleksparametern lika med 1. För att modellera det observerade tillståndet (noll kontra räknat) används en binär modell som tar upp sannolikheten för nollinflation. i det enklaste fallet endast med en avlyssning men eventuellt innehållande regressorer. För denna nollinflationsmodell kan en binomialmodell med olika länkar användas, vanligtvis logit eller probit. Formeln kan användas för att specificera båda komponenterna i modellen: Om en formel av typ y x1 x2 levereras, används samma regressorer i båda komponenterna. Detta motsvarar y x1 x2 x1 x2. Naturligtvis kan en annan uppsättning regressorer specificeras för räknaren och nollinflationskomponenten, t. ex. y x1 x2 z1 z2 z3 vilket ger räknemodellen y x1 x2 villkorad av () nollinflationsmodellen y z1 z2 z3. En enkel inflationsmodell där alla nolltal har samma sannolikhet att de tillhör nollkomponenten kan enligt specifikationen med formel y Offsets anges i båda delarna av modellen avseende räkne - och nollinflationsmodell: y x1-förskjutning (x2) z1 z2 offset (z3). där x2 används som en förskjutning (dvs med koefficient fixerad till 1) i räknarkomponenten och z3 analogt i noll-inflationskomponenten. Genom den ovan angivna regeln utvidgas x1-förskjutningen (x2) till y x1-offset (x2) x1-förskjutningen (x2). Istället för att använda offset () wrapper i formeln. Förskjutningsargumentet kan också användas, vilket endast ställer en förskjutning för räknemodellen. Således är formel y xl och förskjutning x2 ekvivalent med formel y x1-förskjutning (x2) x1. Alla parametrar beräknas med största sannolikhet med optim. med kontrollalternativ som anges i zeroinfl. control. Startvärden kan levereras, beräknas med EM (förväntningsmaksimering) algoritmen eller av glm. fit (standard). Standardfel härleds numeriskt med hjälp av Hessian-matrisen som returneras av optim. Se zeroinfl. control för detaljer. Det returnerade monterade modellobjektet är av klass zeroinfl och liknar monterade glm-objekt. För element såsom koefficienter eller termer returneras en lista med element för noll respektive räknarkomponent. För detaljer se nedan. En uppsättning av standardutdragsfunktioner för monterade modellobjekt finns att tillgå för objekt i klass zeroinfl. inklusive metoder för att skriva ut generiska funktioner. sammanfattning. coef. vcov. logLik. residualer. förutspå. inpassad. villkor. model. matrix. Se predict. zeroinfl för mer information om alla metoder. Ett objekt av klass nollinfl. d. v.s. en lista med komponenter inklusiveNOTICE: IDRE Statistical Consulting Group kommer att flytta webbplatsen till WordPress CMS i februari för att underlätta underhåll och skapande av nytt innehåll. Några av våra äldre sidor kommer att tas bort eller arkiveras så att de inte längre kommer att upprätthållas. Vi kommer att försöka upprätthålla omdirigeringar så att de gamla webbadresserna fortsätter att fungera så gott vi kan. Välkommen till Institutet för digital forskning och utbildning Hjälp Stat Consulting Group genom att ge en gåva SAS Data Analys Exempel Nollblåst Negativ Binomial Regression Nollblåst Negativ Binomial Regression är för modellering av räknevariabler med överdrivna nollor och det är vanligtvis för överdispergerad räkna utfall variabler. Dessutom förklarar teorin att de överskjutande nollorna genereras av en separat process från räknevärdena och att de överskjutande nollorna kan modelleras oberoende. Observera: Syftet med den här sidan är att visa hur man använder olika dataanalyskommandon. Det täcker inte alla aspekter av forskningen som forskare förväntas göra. I synnerhet omfattar det inte dataväxling och kontroll, verifiering av antaganden, modelldiagnostik eller potentiella uppföljningsanalyser. Sidan uppdaterades med SAS 9.2.3. Exempel på Zero-inflated Negative Binomial Regression Exempel 1. Skol administratörer studerar närvaro beteende högskolans juniorer på två skolor. Förutsägare av antalet dagars frånvaro inkluderar studentens kön och standardiserade testresultat i matematik och språkkonst. Exempel 2. De statliga djurbiologerna vill modellera hur många fiskar som fångas av fiskare i en statspark. Besökare frågas hur länge de stannade, hur många personer var i gruppen, var det barn i gruppen och hur många fiskar som fångades. Vissa besökare fiskar inte, men det finns inga uppgifter om huruvida en person fiskat eller inte. Vissa besökare som fiskade fångade inte någon fisk, så det finns överskott av nollor i uppgifterna på grund av de människor som inte fiskade. Beskrivning av Data Lets fortsätter exempel 2 ovanifrån med dataset fish. sas7bdat. Vi har uppgifter om 250 grupper som gick till en park. Varje grupp blev ifrågasatt om hur många fiskar de fångade (räkna), hur många barn var i gruppen (barnet), hur många personer var i gruppen (personer) och huruvida de tog en husbil till parken (husbil) . Förutom att förutsäga antalet fångade fiskar finns det intresse att förutsäga förekomsten av överskjutande nollor, dvs sannolikheten för att en grupp fångade nollfisk. Vi använder variablerna barn. personer. och husbil i vår modell. Låt oss titta på data. Vi kan se från tabellen över beskrivande statistik ovan att variationen i resultatvariabeln är ganska stor i förhållande till medelvärdet. Detta kan vara en indikation på överdispersion. Analysmetoder du kan tänka på Innan vi visar hur du kan analysera detta med en nollblåsad negativ binomialanalys, låt oss överväga några andra metoder som du kan använda. OLS-regression - Du kan försöka analysera dessa data med hjälp av OLS-regression. Räkna data är dock mycket vanliga och beräknas inte väl av OLS-regression. Zero-uppblåst Poisson Regression - Zero-uppblåst Poisson-regression gör det bättre när data inte överdisperseras, dvs när variansen inte är mycket större än medelvärdet. Vanliga räknemodeller - Poisson eller negativa binomialmodeller kan vara mer lämpliga om det inte finns några överskjutande nollor. SAS nollblåsad negativ binomialanalys med proc genmod En nollblåsad modell förutsätter att nollresultat beror på två olika processer. Till exempel, i det exempel på fiske som presenteras här, är de två processerna att ett ämne har gått och inte fiskat. Om inte gått fiske är det enda resultatet möjligt noll. Om borta fiskar är det då en räkningsprocess. De två delarna av en nollblåsad modell är en binär modell, vanligtvis en logitmodell till modell vilken av de två processerna som nollresultatet är förknippat med och en räknemodell, i detta fall en negativ binomialmodell, för att modellera räkningen bearbeta. Det förväntade talet uttrycks som en kombination av de två processerna. Ta exempel på fiske igen, E (av fiskfångad) prob (inte borta) 0 prob (fiskat) E (ykgonefiske). Nu kan vi bygga upp vår modell. Vi ska använda variablerna barn och camper för att modellera räkningen i delen av negativ binomialmodell och de variabla personerna i logitdelen av modellen. SAS-kommandon visas nedan. Vi behandlar variabel camper som en kategorisk variabel genom att inkludera den i klassutgåvan. Detta kommer också att göra postuppskattningarna enklare. I det här exemplet vill vi också uttryckligen använda camper 0 som referensgrupp. För detta ändamål sorterar vi data i nedåtgående ordning och använder orderalternativet i proc genmod för att tvinga det att ta camper 0 som referensgrupp. Utgången har några komponenter som förklaras nedan. Modellinformation: Allmän information om datasättningen, resultatvariabeln, distributionen och antalet observationer som används i modellen. Klassnivåinformation: För varje kategorisk variabel, antal nivåer och hur nivåerna kodas. Den senast visade nivån är referensgruppen i modellen. I det här exemplet kommer det att vara 0. Kriterier för bedömning av passform: Dessa åtgärder används vanligtvis för att jämföra modeller. Analys av maximala sannolikhetsparametervurderinger: Negativ binomial del av modellen, uppskattad med största sannolikhet. Analys av högsta sannolikhet Nollinflation Parameteruppskattningar: Logistisk regression del av modellen, för att uppskatta sannolikheten för att vara en överdriven noll. Genom att se igenom resultaten av regressionsparametrar ser vi följande: Predikatorbarnet och husbilen i den del av den negativa binomialregressionsmodellen som förutsäger antalet fångade fisk (räkna) är båda signifikanta prediktorer. Prediktorn i den del av logitmodellen som förutsäger överdrivna nollor är statistiskt signifikant. För dessa data är den förväntade förändringen i logg (räkning) för en enhetsökning i barn -1,515255. Detta motsvarar en 78 (1 - e -1.515255,78) minskning av det förväntade räkningen för varje ytterligare barn i festen som håller andra variabler konstant. Grupper med campare (camper 1) hade en förväntad loggning (räknare) 0.879051 högre än grupper utan campare (camper 0), dvs det förväntade antalet fiskar för en husbil är cirka 2,41 (e 0,879051 2,41) gånger högre än för en icke-camper . Log oddsen för att vara en överdriven noll skulle minska med 1,67 för varje ytterligare person i gruppen. Med andra ord, desto mer folk i gruppen, desto mindre troligt att nollet skulle bero på att inte gått fiske. Ställ det klart, desto större gruppen personen var i, desto mer sannolikt var personen ifred. Uppskattningen av dispersionsparametern visas med sitt konfidensintervall. Det verkar tillräckligt med indikation på överdispersion, vilket innebär att negativ binomialmodell kan vara mer lämplig. Vi kanske vill jämföra den nuvarande nollblåsade negativa binomialmodellen med den rena negativa binomialmodellen, som kan göras via till exempel Vuong-test. För närvarande är Vuong-test inte en standard del av proc genmod. men ett makroprogram är tillgängligt från SAS som gör Vuong-testet. Du kan ladda ner det här makroprogrammet efter länken och lagra det på hårddisken. I det här exemplet sparade vi makroprogrammet i d: workdae-katalogen och byter namn på det som vuong. sas. För att använda makroprogrammet använder vi inkludera uttalandet. Detta makroprogram tar några argumenter som visas nedan. Vi återupprätta modellerna för att få fram dessa nödvändiga inmatningsargument. Vi har också använt uttalandeaffären för att lagra uppskattningarna så att vi kan göra efterskattning med samma modell via proc plm utan att behöva återställa modellen. Med den nollblåsade negativa binomialmodellen finns totalt sex regressionsparametrar som inkluderar avlyssningen, regressionskoefficienterna för barn och camper och dispersionsparametern för modellens negativa binomiala del samt avlyssnings - och regressionskoefficienten för personer . Den släta negativa binomialregressionsmodellen har totalt fyra regressionsparametrar. Skala parametrarna (skala1 och skala2) är dispersionsparametrarna från varje motsvarande modell. Utgången ovan visar Vuong-testet följt av Clarke Sign-testet. De positiva värdena för Z-statistiken för Vuong-testet indikerar att det är den första modellen, den nollblåsta negativa binomialmodellen, som ligger närmare den sanna modellen. Båda dessa test har samma nollhypotes och det händer att de två testen inte överensstämmer med varandra vilket leder till ett svagt stöd för den nollblåsade negativa binomialmodellen. Nu, let39s försöker förstå modellen bättre genom att använda några av kommandon för uppskattning av post. Först undersöker vi fördelningen av den förutsagda sannolikheten för att vara en överdriven noll av antalet personer i gruppen. Vi kan se att ju större gruppen, ju mindre sannolikheten är, desto mer sannolikt är det att personen gick på fiske. Eftersom vi tidigare har sparat vår modell som m1 använder vi proc plm för att få det förutspådda antalet fångade fisk, jämförande campare med icke-campare med olika antal barn. För att få förutsäkningstalet har vi använt alternativet ilink (för invers länk). Notera som standard att SAS fixar värdet för prediktorvariabeln med sitt medelvärde. Därefter kan vi också fråga proc plm att plotta de monterade värdena med campervariabel. Saker att tänka på Här är några frågor som du kanske vill överväga i samband med din forskningsanalys. Frågan om överdispersionsparametern är generellt en knepig. En stor överdispersionsparameter kan bero på en missspecificerad modell eller kan bero på en verklig process med överdispersion. Att lägga till ett överdispersionsproblem förbättrar inte nödvändigtvis en missspecificerad modell. Zinbmodellen har två delar, en negativ binomialtalsmodell och logitmodellen för att förutsäga överskridande nollor, så du kanske vill granska dessa dataanalyssexempel sidor, negativ binomialregression och logitregression. Eftersom zinb har både en räknemodell och en logitmodell, borde var och en av de två modellerna ha goda förutsägare. De två modellerna behöver inte nödvändigtvis använda samma prediktorer. Problem med perfekt förutsägelse, separation eller partiell separation kan förekomma i den logistiska delen av den nollblåsade modellen. Räkna data använder ofta exponeringsvariabel för att ange hur många gånger händelsen kan ha hänt. Du kan inkludera exponering i din modell genom att använda alternativet exponering (). Det rekommenderas inte att nollblåsta negativa binomialmodeller tillämpas på småprover. Vad som utgör ett litet prov verkar inte vara klart definierat i litteraturen. Pseudo-R-kvadrerade värden skiljer sig från OLS R-squareds, se FAQ: Vad är pseudo R-squareds för en diskussion om denna fråga. Referenser Cameron, A. Colin och Trivedi, P. K. (2009) Mikroekonometri med stata. College Station, TX: Stata Press. Long, J. Scott, amp freese, Jeremy (2006). Regressionsmodeller för kategoriska beroendevariabler med Stata (andra upplagan). College Station, TX: Stata Press. Long, J. Scott (1997). Regressionsmodeller för kategoriska och begränsade beroendevariabler. Tusen Oaks, CA: Sage Publications. Innehållet på denna webbplats bör inte tolkas som en godkännande av någon särskild webbplats, bok eller mjukvaruprodukt av University of California. NOTICE: IDRE Statistical Consulting Group kommer att flytta webbplatsen till WordPress CMS i februari för att underlätta underhåll och skapande av nytt innehåll. Några av våra äldre sidor kommer att tas bort eller arkiveras så att de inte längre kommer att upprätthållas. Vi kommer att försöka upprätthålla omdirigeringar så att de gamla webbadresserna fortsätter att fungera så gott vi kan. Välkommen till Institutet för digital forskning och utbildning Hjälp Stat Consulting Group genom att ge en gåva Stata Data Analysis Examples Zero-uppblåst Negativ Binomial Regression Version info: Koden för denna sida testades i Stata 12. Zero-uppblåst negativ binomial regression är för modellering räkna variabler med överdrivna nollor och det är vanligtvis för överdisperserade räkneutfallsvariabler. Dessutom förklarar teorin att de överskjutande nollorna genereras av en separat process från räknevärdena och att de överskjutande nollorna kan modelleras oberoende. Observera: Syftet med den här sidan är att visa hur man använder olika dataanalyskommandon. Det täcker inte alla aspekter av forskningen som forskare förväntas göra. I synnerhet omfattar det inte dataväxling och kontroll, verifiering av antaganden, modelldiagnostik eller potentiella uppföljningsanalyser. Exempel på nollblåsad negativ binomialregression Exempel 1. Skoladministratörer studerar närvarobeteendet hos gymnasieskolan på två skolor. Förutsägare av antalet dagars frånvaro inkluderar studentens kön och standardiserade testresultat i matematik och språkkonst. Exempel 2. De statliga djurbiologerna vill modellera hur många fiskar som fångas av fiskare i en statspark. Besökare frågas hur länge de stannade, hur många personer var i gruppen, var det barn i gruppen och hur många fiskar som fångades. Vissa besökare fiskar inte, men det finns inga uppgifter om huruvida en person fiskat eller inte. Vissa besökare som fiskade fångade inte någon fisk, så det finns överskott av nollor i uppgifterna på grund av de människor som inte fiskade. Beskrivning av data Lets fortsätta exempel 2 ovanifrån. Datauppsättningen som används i detta exempel är från Stata. Vi har uppgifter om 250 grupper som gick till en park. Varje grupp blev ifrågasatt innan de lämnade parken om hur många fisk de fångade (räkna), hur många barn var i gruppen (barnet), hur många personer var i gruppen (personer) och huruvida de tog en husbil till park (husbil). Resultatvariabeln av intresse kommer att vara antalet fångade fiskar. Även om frågan om antalet fångade fångar blev tillfrågad till alla, betyder det inte att alla gick på fiske. Vad skulle vara orsaken till att någon skulle rapportera en nollräkning Var det för att den här personen var otur och inte fånga någon fisk, eller var det för att den här personen inte gick och fiskar alls Om en person inte gick på fisket skulle resultatet alltid vara noll. Annars, om en person gick till fiske, kunde räkningen vara noll eller icke-noll. Så vi kan se att det verkade finnas två processer som skulle generera nolltal: otur i fiske eller gick inte att fiska. Låt oss först titta på data. Vi börjar med att läsa i data och beskrivande statistik och tomter. Detta hjälper oss att förstå data och ge oss några tips om hur vi ska modellera data. Vi kan se från tabellen över beskrivande statistik ovan att variationen i resultatvariabeln är ganska stor i förhållande till medelvärdet. Detta kan vara en indikation på överdispersion. Analysmetoder du kan tänka på Innan vi visar hur du kan analysera detta med en nollblåsad negativ binomialanalys, låt oss överväga några andra metoder som du kan använda. OLS-regression - Du kan försöka analysera dessa data med hjälp av OLS-regression. Räkna data är dock mycket vanliga och beräknas inte väl av OLS-regression. Zero-uppblåst Poisson Regression - Zero-uppblåst Poisson-regression gör det bättre när data inte överdisperseras, dvs när variansen inte är mycket större än medelvärdet. Vanliga räknemodeller - Poisson eller negativa binomialmodeller kan vara mer lämpliga om det inte finns några överskjutande nollor. Zero-inflated negativ binomial regression En nollblåsad modell förutsätter att nollresultat beror på två olika processer. Till exempel, i det exempel på fiske som presenteras här, är de två processerna att ett ämne har gått och inte fiskat. Om inte gått fiske är det enda resultatet möjligt noll. Om borta fiskar är det då en räkningsprocess. De två delarna av en nollblåsad modell är en binär modell, vanligtvis en logitmodell till modell vilken av de två processerna som nollresultatet är förknippat med och en räknemodell, i detta fall en negativ binomialmodell, för att modellera räkningen bearbeta. Det förväntade talet uttrycks som en kombination av de två processerna. Ta exempel på fiske igen, E (av fiskfångad) prob (inte borta) 0 prob (fiskat) E (ykgonefiske). Nu kan vi bygga upp vår modell. Vi ska använda variablerna barn och camper för att modellera räkningen i delen av negativ binomialmodell och de variabla personerna i logitdelen av modellen. Stata-kommandot visas nedan. Vi behandlar variabel camper som en kategorisk variabel genom att ange ett prefix quot-i.-quot framför variabelnamnet. Detta kommer att göra uppskattningarna av posten enklare. Vi har inkluderat vuong-alternativet som ger ett test av den nollblåsade modellen jämfört med den normala negativa binomialmodellen tillsammans med zip-alternativet som ger ett sannolikhetstest av alfa0 (i princip zinb mot zip). Utgången har några komponenter som förklaras nedan. Det börjar med iterationsloggen som ger värdena för loggens likelihoods som börjar med en modell som inte har några prediktorer. Det sista värdet i loggen är det slutliga värdet av logg sannolikheten för hela modellen och upprepas nedan. Därefter kommer rubrikinformationen. På högra sidan ges antalet observationer (316) tillsammans med sannolikhetsförhållandet chi-kvadrerade. Detta jämför den kompletta modellen med en modell utan räknepredictorer, vilket ger en skillnad i två grader av frihet. Detta följs av p-värdet för chi-kvadraten. Modellen är som helhet statistiskt signifikant. Under rubriken hittar du de negativa binomiala regressionskoefficienterna för var och en av variablerna tillsammans med standardfel, z-poäng, p-värden och 95 konfidensintervaller för koefficienterna. Följande är logit-koefficienter för att förutsäga överskjutande nollor tillsammans med deras standardfel, z-poäng, p-värden och konfidensintervaller. Dessutom kommer det att uppskattas den naturliga loggen för överdispersionskoefficienten, alfa, tillsammans med det otransformerade värdet. Om alfakoefficienten är noll beräknas modellen bättre med en Poisson-regressionsmodell. Nedanför de olika koefficienterna hittar du resultaten av zip och vuong-alternativen. Zip-alternativet testar den nollblåsade negativa binomialmodellen jämfört med den nollblåsade poissonmodellen. Ett signifikant sannolikhetsförhållande för alfa0 indikerar att zinkmodellen föredrages för zip-modellen. Vuong-testet jämför den nollblåsade modellens negativa binomial med en vanlig negativ binomial regressionsmodell. Ett signifikant z-test indikerar att den nollblåsta modellen föredras. Genom att se igenom resultaten av regressionsparametrar ser vi följande: Predikatorbarnet och husbilen i den del av den negativa binomialregressionsmodellen som förutsäger antalet fångade fisk (räkna) är båda signifikanta prediktorer. Prediktorn i den del av logitmodellen som förutsäger överdrivna nollor är statistiskt signifikant. För dessa data är den förväntade förändringen i logg (räkning) för en enhetsökning i barn -1,515255 med andra variabler konstant. En husbil (camper 1) har en förväntad logg (räkning) på 0.879051 högre än för en icke-camper (camper 0) som håller andra variabler konstant. Log oddsen för att vara en överdriven noll skulle minska med 1,67 för varje ytterligare person i gruppen. Med andra ord, desto mer folk i gruppen desto mindre troligt att nollet skulle bero på att inte gått fiske. Ställ det klart, desto större gruppen personen var i, desto mer sannolikt var personen ifred. Vi kan se längst ner i vår modell att sannolikhetsförhållandet testar att alfa 0 skiljer sig signifikant från noll. Detta tyder på att våra data är överdisperserade och att en nollblåsad negativ binomialmodell är mer lämplig än en nollblåsad Poisson-modell. Vuong-testet föreslår att den nollblåsade negativa binomialmodellen är en signifikant förbättring jämfört med en standard negativ binomialmodell. Nu, för att vara på den säkra sidan, kan vi genomsöka zinb-kommandot med det robusta alternativet för att erhålla robusta standardfel för Poisson-regressionskoefficienterna. Vi kan inte inkludera vuong-alternativet när du använder robusta standardfel. Att använda det robusta alternativet har resulterat i en viss förändring i modellen chi-kvadraten, som nu är en Wald chi-kvadrat. Denna statistik är baserad på log-pseudo-sannolikheter istället för log-sannolikheter. Modellen är fortfarande statistiskt signifikant. De robusta standardfel försöker justera för heterogenitet i modellen. Nu kan vi försöka förstå modellen bättre genom att använda några av uppskattningskommandon. Först och främst använder vi prediktorkommandot med pr-alternativet för att få den förutsagda sannolikheten att vara kvotöverdriven nollkvot på grund av att inte gått fiske. Vi ser sedan fördelningen av den förutsagda sannolikheten av antalet personer i gruppen. Vi kan se att ju större gruppen, ju mindre sannolikheten är, desto mer sannolikt är det att personen gick på fiske. Slutligen kommer vi att använda marginalkommandot för att få det förutspådda antalet fångade fisk, jämföra campare med icke-campare med olika antal barn och maringsplot för att visualisera informationen som produceras av marginalkommandot. Observera att marginalkommandot som standard fastställde den förväntade förutsagda sannolikheten för att vara en överdriven noll vid dess medelvärde. Till exempel, här är ett alternativt sätt att producera samma förutspådda räknat antal campare 0 1 och barn 0. Saker att tänka på Här är några frågor som du kanske vill överväga i samband med din forskningsanalys. Frågan om överdispersionsparametern är generellt en knepig. En stor överdispersionsparameter kan bero på en missspecificerad modell eller kan bero på en verklig process med överdispersion. Att lägga till ett överdispersionsproblem förbättrar inte nödvändigtvis en missspecificerad modell. Zinbmodellen har två delar, en negativ binomialtalsmodell och logitmodellen för att förutsäga överskridande nollor, så du kanske vill granska dessa dataanalyssexempel sidor, negativ binomialregression och logitregression. Eftersom zinb har både en räknemodell och en logitmodell, borde var och en av de två modellerna ha goda förutsägare. De två modellerna behöver inte nödvändigtvis använda samma prediktorer. Problem med perfekt förutsägelse, separation eller partiell separation kan förekomma i den logistiska delen av den nollblåsade modellen. Räkna data använder ofta exponeringsvariabel för att ange hur många gånger händelsen kan ha hänt. Du kan inkludera exponering i din modell genom att använda alternativet exponering (). Det rekommenderas inte att nollblåsta negativa binomialmodeller tillämpas på småprover. Vad som utgör ett litet prov verkar inte vara klart definierat i litteraturen. Pseudo-R-kvadrerade värden skiljer sig från OLS R-squareds, se FAQ: Vad är pseudo R-squareds för en diskussion om denna fråga. Referenser Cameron, A. Colin och Trivedi, P. K. (2009) Mikroekonometri med stata. College Station, TX: Stata Press. Long, J. Scott, amp freese, Jeremy (2006). Regressionsmodeller för kategoriska beroendevariabler med Stata (andra upplagan). College Station, TX: Stata Press. Long, J. Scott (1997). Regressionsmodeller för kategoriska och begränsade beroendevariabler. Tusen Oaks, CA: Sage Publications. Senast uppdaterad den 12 oktober 2011Innehållet på denna webbplats bör inte tolkas som en godkännande av någon särskild webbplats, bok eller mjukvaruprodukt av University of California.
No comments:
Post a Comment