Sunday, 16 December 2018

Tobit regression in stata forex


Bem-vindo ao Instituto de Pesquisas e Educação Digital Stata Annotated Output Tobit Regression Esta página mostra um exemplo de análise de regressão de tobotas com notas de rodapé explicando o resultado. Os dados neste exemplo foram reunidos em estudantes de graduação que se candidatam a uma escola de pós-graduação e inclui GPA de graduação, a reputação da escola de graduação (um indicador topnotch), o escore GRE dos alunos e se o aluno foi admitido ou não na escola de pós-graduação. A gama de possíveis pontuações GRE é de 200 a 800. Isso significa que nossa variável de resultados é deixada censurada e censurada à direita. Em outras palavras, se dois alunos obtiveram 800, eles são iguais de acordo com a nossa escala, mas podem não ser verdadeiramente iguais em aptidão. (Em outras palavras, nós temos um efeito de teto.) O mesmo vale para dois alunos com 200 (um efeito de piso). A regressão de Tobit gera um modelo que prediz que a variável de resultado esteja dentro do intervalo especificado. Se estamos interessados ​​em prever um escore GRE de estudantes usando seu GPA de graduação e a reputação de sua instituição de graduação, primeiro devemos considerar o GRE como uma variável de resultado. Para gerar um modelo de tobas em Stata, liste a variável de resultado seguida pelos preditores e especifique o limite inferior e o limite superior da variável de resultado. O limite inferior é especificado em parênteses após 11 e o limite superior é especificado entre parênteses após ul. Um modelo de tobo pode ser usado para prever um resultado que é censurado de cima, de baixo, ou ambos. Saída de regressão de Tobit a. Probabilidade de registro - Esta é a probabilidade do log do modelo ajustado. É usado no teste Qui-Quadrado de Razão de Probabilidade de se todos os coeficientes de regressão dos preditores no modelo são simultaneamente zero. B. Número de obs - Este é o número de observações no conjunto de dados para o qual todas as variáveis ​​de resposta e preditor não estão faltando. C. LR chi2 (2) - Este é o teste Qui-Quadrado da Razão de Probabilidade (LR) que pelo menos um dos coeficientes de regressão dos preditores não é igual a zero. O número entre parênteses indica os graus de liberdade da distribuição Qui-Quadrado usado para testar a estatística LR Chi-Quadrado e é definido pelo número de preditores no modelo (2). D. Prob gt chi2 - Esta é a probabilidade de obter uma estatística de teste LR tão extrema como, ou mais, do que a estatística observada sob a hipótese nula, a hipótese nula é que todos os coeficientes de regressão são simultaneamente iguais a zero. Em outras palavras, esta é a probabilidade de obter esta estatística do qui-quadrado (70,93) ou uma mais extrema se não houver efeito das variáveis ​​preditoras. Esse valor de p é comparado a um nível alfa especificado, nossa vontade de aceitar um erro de tipo I, que normalmente é definido como 0,05 ou 0,01. O pequeno valor p do teste LR, lt0.0001, levaria a concluir que pelo menos um dos coeficientes de regressão no modelo não é igual a zero. O parâmetro da distribuição do qui-quadrado usado para testar a hipótese nula é definido pelos graus de liberdade na linha anterior, chi2 (2) e. Pseudo R2 - Este é McFaddens pseudo R-squared. A regressão de Tobit não tem um equivalente ao R-quadrado que é encontrado na regressão OLS no entanto, muitas pessoas tentaram chegar a um. Há uma grande variedade de estatísticas pseudo-R-square. Como esta estatística não significa o que R-quadrado significa na regressão OLS (a proporção de variância da variável de resposta explicada pelos preditores), sugerimos interpretar esta estatística com grande cautela. Para mais informações sobre pseudo R-squareds, veja O que são Pseudo R-Squared. F. Gre - Esta é a variável de resposta prevista pelo modelo. Estamos usando um modelo de tobas porque esta variável de resposta é censurada: os escores do GRE são dimensionados de 200 a 800 e não podem ficar fora desse intervalo. G. Coef. - Estes são os coeficientes de regressão. Os coeficientes de regressão de Tobit são interpretados de maneira semelhante aos coeficientes de regressão OLS no entanto, o efeito linear é na variável latente não censurada, e não no resultado observado. O esperado resultado de GRE muda por Coef. Para cada aumento de unidade no preditor correspondente. Gpa - Se um sujeito aumentasse sua gpa em um ponto, seu escore GRE esperado aumentaria em 111.3085 pontos, enquanto mantendo constantes todas as outras variáveis ​​no modelo. Assim, quanto maior a gpa dos estudantes. Quanto maior o escore GRE previsto. Topnotch - Se um sujeito frequentasse uma instituição topnotch para sua educação de graduação, seu score GRE esperado seria 46.65774 pontos maior do que um sujeito com a mesma média de grau que frequentava uma instituição não superior. Assim, os sujeitos das instituições de graduação topnotch têm maiores pontuações GRE esperadas do que os indivíduos de instituições de graduação não topnotch se as médias de pontos de classificação forem mantidas constantes. Contras - Se todas as variáveis ​​preditoras no modelo forem avaliadas em zero, o escore GRE previsto seria o contras 205.8515. Para sujeitos de instituições de graduação não topnotch (topnotch avaliado em zero) com zero gpa. O escore GRE previsto seria 205,85515. Isso pode parecer muito baixo, considerando o escore GRE médio é 587,7, mas note que a avaliação de gpa em zero está fora do intervalo de valores plausíveis para gpa. H. Std. Errar. - Estes são os erros padrão dos coeficientes de regressão individuais. Eles são usados ​​tanto no cálculo da estatística do teste t, quanto no sobrescrito i, quanto no intervalo de confiança do coeficiente de regressão, superíndice k. Eu. T - A estatística de teste t é a proporção do Coef. Para o Std. Errar. Do respectivo preditor. O valor t é usado para testar uma hipótese alternativa de dois lados que o Coef. Não é igual a zero. J. Pgtt - Esta é a probabilidade de a estatística de teste t (ou uma estatística de teste mais extrema) ser observada sob a hipótese nula de que um coeficiente de regressão de preditores particular é zero, dado que o resto dos preditores estão no modelo. Para um determinado nível alfa, Pgtt determina se a hipótese nula pode ou não ser rejeitada. Se Pgtt for menor que o alfa, então a hipótese nula pode ser rejeitada e a estimativa do parâmetro é considerada estatisticamente significativa nesse nível alfa. Gpa - A estatística do teste t para o preditor gpa é (111.308515.19665) 7.32 com um p-valor associado de lt0.001. Se configurarmos o nosso nível alfa para 0,05, rejeitaremos a hipótese nula e concluiremos que o coeficiente de regressão para gpa foi encontrado para ser estatisticamente diferente de zero dado topnotch está no modelo. Topnotch - A estatística do teste t para o topnotch do preditor é (46.6577415.75356) 2.96 com um p-valor associado de 0.003. Se configuramos o nosso nível alfa para 0,05, rejeitaremos a hipótese nula e concluiremos que o coeficiente de regressão para topnotch foi encontrado para ser estatisticamente diferente de zero dado gpa está no modelo. Contras - A estatística de teste t para a intercepção, contras, é (205.851551.24073) 4.02 com um valor de p associado de l 0,001. Se configurarmos o nosso nível alfa em 0,05, rejeitaremos a hipótese nula e concluiremos que os contras foram encontrados de forma estatisticamente diferente de GPA zero e a topnotch está no modelo e avaliada em zero. K. 95 Conf. Intervalo - Este é o Intervalo de Confiança (CI) para um coeficiente individual dado que os outros preditores estão no modelo. Para um determinado preditor com um nível de confiança 95, diz que estamos seguros de que o coeficiente quottruequot está entre os limites inferior e superior do intervalo. O CI é equivalente à estatística do teste t: se o IC inclui zero, não pode rejeitar a hipótese nula de que um coeficiente de regressão particular é zero, dado que os outros preditores estão no modelo com o nível alfa de zero. Uma vantagem de um CI é que é ilustrativo que fornece um intervalo onde o parâmetro quottruequot pode ser encontrado. eu. Sigma - Este é o erro padrão estimado da regressão. Esse valor, 111.4882, é comparável ao erro quadrático médio da raiz que seria obtido em uma regressão OLS. M. Obs. Resumo - Isso indica quantas das observações no conjunto de dados são censuradas. Aqui, vemos que nenhum dos registros é censurado (todos são maiores que 200) e 25 dos registros são censurados à direita (maior ou igual a 800). O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Data Análise Exemplos Regressão Probit Informações da versão: Código para Esta página foi testada em Stata 12. A regressão de Probit, também chamada de modelo de probit, é usada para modelar variáveis ​​de resultado dicotômicas ou binárias. No modelo probit, a distribuição normal padrão inversa da probabilidade é modelada como uma combinação linear dos preditores. Nota: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, a verificação de premissas, o diagnóstico de modelo e as possíveis análises de acompanhamento. Exemplos de regressão de probit Exemplo 1: Suponha que estamos interessados ​​nos fatores que influenciam se um candidato político ganha uma eleição. A variável resultado (resposta) é binária (01) ganha ou perde. As variáveis ​​preditoras de interesse são a quantidade de dinheiro gasto na campanha, a quantidade de tempo gasto fazendo campanha negativamente e se o candidato é um operador histórico. Exemplo 2: Um pesquisador está interessado em como as variáveis, como GRE (pontuação do Exame Grau de Pós-Graduação), GPA (nota média) e prestígio da instituição de graduação, fazem entrada na pós-graduação. A variável de resposta, admitida não admite, é uma variável binária. Descrição dos dados Para a análise de dados abaixo, vamos ampliar o Exemplo 2 sobre entrar na pós-graduação. Nós geramos dados hipotéticos, que podem ser obtidos no nosso site. Este conjunto de dados tem uma variável de resposta binária (resultado, dependente) chamada admitir. Existem três variáveis ​​preditoras: gre. Gpa e rank. Trataremos as variáveis ​​gre e gpa como contínuas. O rango variável é ordinário, assume os valores de 1 a 4. Instituições com um ranking de 1 têm o maior prestígio, enquanto aqueles com uma classificação de 4 têm o menor. Nós trataremos a classificação como categórica. Os métodos de análise que você pode considerar abaixo são uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão Probit, o foco desta página. Regressão logística. Um modelo logit produzirá resultados similares regressão probit. A escolha do probit versus logit depende em grande parte das preferências individuais. Regressão OLS. Quando usado com uma variável de resposta binária, este modelo é conhecido como um modelo de probabilidade linear e pode ser usado como uma forma de descrever probabilidades condicionais. No entanto, os erros (isto é, os resíduos) do modelo de probabilidade linear violam os pressupostos de homosqueticidade e normalidade dos erros da regressão OLS, resultando em erros padrão inválidos e testes de hipóteses. Para uma discussão mais completa sobre estes e outros problemas com o modelo de probabilidade linear, veja Long (1997, pág. 38-40). Análise de função discriminante de dois grupos. Um método multivariado para variáveis ​​de resultado dicotômicas. Hotellings T 2. O resultado 01 é transformado na variável de agrupamento, e os preditores anteriores são transformados em variáveis ​​de resultado. Isso produzirá um teste geral de significância, mas não dará coeficientes individuais para cada variável, e não está claro até que ponto cada coeficiente de resposta é ajustado para o impacto dos outros fatores. Regração de Probit Abaixo, usamos o comando probit para estimar um Modelo de regressão probit. O eu. Antes de classificação indica que a classificação é uma variável fator (ou seja, variável categórica) e que deve ser incluída no modelo como uma série de variáveis ​​indicadores. Observe que essa sintaxe foi introduzida no Stata 11. Na saída acima, primeiro vemos o registro de iteração, indicando a rapidez com que o modelo convergeu. A probabilidade de log (-229.20658) pode ser usada em comparações de modelos aninhados, mas não vamos mostrar um exemplo disso aqui. Também no topo da saída, vemos que todas as 400 observações em nosso conjunto de dados foram usadas na análise (menos observações teriam sido usadas se qualquer uma de nossas variáveis ​​tivesse valores faltantes). O coeficiente de verossimilhança do qui-quadrado de 41,56 com um valor de p de 0,0001 nos diz que nosso modelo como um todo é estatisticamente significativo, ou seja, ele se encaixa significativamente melhor do que um modelo sem preditores. Na tabela, vemos os coeficientes, seus erros padrão, a estatística z, os p-valores associados e o intervalo de confiança 95 dos coeficientes. Ambos os gre dos. Gpa. E as três variáveis ​​de indicadores para classificação são estatisticamente significativas. Os coeficientes de regressão probit dão a alteração no escore z ou índice probit para uma alteração de unidade no preditor. Para um aumento de uma unidade em gre. O z-score aumenta em 0,001. Por cada aumento de uma unidade na gpa. A pontuação z aumenta em 0,478. As variáveis ​​de indicadores para classificação possuem uma interpretação ligeiramente diferente. Por exemplo, tendo frequentado uma instituição de graduação de 2, versus uma instituição com uma classificação de 1 (o grupo de referência), diminui o índice z em 0.415. Podemos testar um efeito geral de classificação usando o comando de teste. Abaixo, vemos que o efeito geral da classificação é estatisticamente significativo. Também podemos testar hipóteses adicionais sobre as diferenças nos coeficientes para diferentes níveis de classificação. Abaixo, nós testamos que o coeficiente para o ranking 2 é igual ao coeficiente para o ranking 3. Você também pode usar probabilidades previstas para ajudá-lo a entender o modelo. Você pode calcular as probabilidades previstas usando o comando de margens, que foi introduzido em Stata 11. Abaixo usamos o comando de margens para calcular a probabilidade prevista de admissão em cada nível de classificação. Mantendo todas as outras variáveis ​​no modelo por seus meios. Para obter mais informações sobre o uso do comando de margens para calcular as probabilidades previstas, consulte nossa página Usando margens para probabilidades previstas. No resultado acima, vemos que a probabilidade prevista de ser aceito em um programa de pós-graduação é de 0,52 para as instituições de graduação de maior prestígio (rank1) e 0,19 para as instituições mais bem classificadas (rank4), detendo gre e gpa aos seus meios. Abaixo, geramos as probabilidades previstas de valores de gre de 200 a 800 em incrementos de 100. Como não especificamos nem significativos em (ou) em (.) Para especificar valores nos quais as outras variáveis ​​preditoras são mantidas, os valores na tabela são Probabilidades preditivas médias calculadas usando os valores da amostra das demais variáveis ​​preditoras. Por exemplo, para calcular a probabilidade preditiva média quando gre 200, a probabilidade prevista foi calculada para cada caso, usando o valor dos casos de classificação e gpa. E definir gre para 200. Na tabela acima, podemos ver que a probabilidade preditiva média de aceitação é de apenas 0,16 se o escore GRE for 200 e aumenta para 0,42 se o escore GRE for 800 (em média entre os valores da amostra de gpa e classificação ). Também pode ser útil usar gráficos de probabilidades previstas para entender e apresentar o modelo. Podemos também querer ver medidas de como o modelo se encaixa. Isso pode ser particularmente útil ao comparar modelos concorrentes. O comando de comando escrito pelo usuário produz uma variedade de estatísticas de ajuste. Você pode encontrar mais informações sobre fitstat digitando findit fitstat (consulte Como posso usar o comando findit para pesquisar programas e obter ajuda adicional para obter mais informações sobre como usar findit). Coisas a considerar Células vazias ou células pequenas: você deve verificar se há células vazias ou pequenas fazendo uma tabela cruzada entre preditores categóricos e a variável de resultados. Se uma célula tem muito poucos casos (uma célula pequena), o modelo pode tornar-se instável ou pode não ser executado. Separação ou quase separação (também chamada de previsão perfeita), condição em que o resultado não varia em alguns níveis das variáveis ​​independentes. Veja a nossa página FAQ: o que é completo ou quase completo na regressão do logisticprobit e como lidar com eles para obter informações sobre modelos com previsão perfeita. Tamanho da amostra: ambos os modelos probit e logit requerem mais casos do que a regressão OLS, pois utilizam técnicas de estimação de máxima verossimilhança. Às vezes, é possível estimar modelos para resultados binários em conjuntos de dados com apenas um pequeno número de casos usando regressão logística exata (usando o comando exlogístico). Para obter mais informações, consulte nosso exemplo de análise de dados para regressão logística exata. Também é importante ter em mente que, quando o resultado é raro, mesmo se o conjunto de dados geral for grande, pode ser difícil estimar um modelo probit. Pseudo-R-quadrado: existem várias medidas diferentes de psuedo-R-quadrado. Todos tentam fornecer informações semelhantes às fornecidas pelo R-squared na regressão OLS no entanto, nenhuma delas pode ser interpretada exatamente como o R-quadrado na regressão OLS é interpretado. Para uma discussão de vários pseudo-R-squareds, veja Long e Freese (2006) ou nossa página de FAQs O que são pseudo R-squareds Em Stata, os valores de 0 são tratados como um nível da variável de resultado e todos os outros valores não faltantes São tratados como o segundo nível do resultado. Diagnóstico: os diagnósticos para a regressão probit são diferentes da regressão OLS. Os diagnósticos para modelos probit são semelhantes aos dos modelos logit. Para uma discussão sobre o diagnóstico do modelo para regressão logística, consulte Hosmer e Lemeshow (2000, Capítulo 5). Referências Hosmer, D. Lemeshow, S. (2000). Regressão Logística Aplicada (Segunda Edição). Nova York: John Wiley Sons, Inc. Long, J. Scott (1997). Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment