Stata - Stata

Stata
Stata logo med blue.png
Interface grande wwwsa.png
Stata 17 no Windows
Autor (es) original (is) William Gould
Desenvolvedor (s) StataCorp
lançamento inicial 1985 ( 1985 )
Versão estável
17.0 / 20 de abril de 2021 ; há 4 meses ( 2021-04-20 )
Escrito em C
Sistema operacional Windows , macOS , Linux
Modelo Análise estatística
Licença Proprietário
Local na rede Internet www .stata .com

Stata ( / s t t ə / , FIQUE -ta , alternativamente / s t Æ t ə / , ocasionalmente estilizado como STATA®) é um de uso geral estatística pacote de software desenvolvido por StataCorp para manipulação de dados, a visualização, estatísticas, e relatórios automatizados. É usado por pesquisadores em muitos campos, incluindo economia , sociologia , ciência política , biomedicina e epidemiologia .

Stata foi inicialmente desenvolvido pelo Computing Resource Center na Califórnia e a primeira versão foi lançada em 1985. Em 1993, a empresa mudou-se para College Station, TX e foi renomeada Stata Corporation, agora conhecida como StataCorp. Um grande lançamento em 2003 incluiu um novo sistema gráfico e caixas de diálogo para todos os comandos. Desde então, uma nova versão é lançada a cada dois anos. A versão atual é Stata 17, lançada em abril de 2021.

Visão geral técnica e terminologia

Interface de usuário

Desde sua criação, Stata sempre empregou uma interface de linha de comando integrada. A partir da versão 8.0, Stata incluiu uma interface gráfica de usuário baseada no framework Qt que usa menus e caixas de diálogo para dar acesso a muitos comandos embutidos. O conjunto de dados pode ser visualizado ou editado em formato de planilha. A partir da versão 11, outros comandos podem ser executados enquanto o navegador de dados ou editor é aberto.

Estrutura e armazenamento de dados

Até o lançamento da versão 16, o Stata só podia abrir um único conjunto de dados por vez. Stata permite flexibilidade na atribuição de tipos de dados aos dados. Seu compresscomando reatribui automaticamente os dados a tipos de dados que ocupam menos memória sem perda de informações. Stata utiliza tipos de armazenamento inteiro que ocupam apenas um ou dois bytes em vez de quatro, e precisão simples (4 bytes) em vez de precisão dupla (8 bytes) é o padrão para números de ponto flutuante .

O formato de dados do Stata é sempre tabular no formato. Stata se refere às colunas de dados tabulares como variáveis.

Compatibilidade de formato de dados

Stata pode importar dados em uma variedade de formatos. Isso inclui formatos de dados ASCII (como CSV ou formatos de banco de dados ) e formatos de planilha (incluindo vários formatos do Excel ).

Os formatos de arquivo proprietários do Stata mudaram com o tempo, embora nem todo lançamento do Stata inclua um novo formato de conjunto de dados. Cada versão do Stata pode ler todos os formatos de conjunto de dados mais antigos e pode gravar tanto o formato de conjunto de dados atual quanto o anterior mais recente, usando o saveoldcomando. Portanto, a versão atual do Stata sempre pode abrir conjuntos de dados que foram criados com versões mais antigas, mas versões mais antigas não podem ler conjuntos de dados de formato mais recentes.

Stata pode ler e gravar conjuntos de dados de formato SAS xPort nativamente, usando o fdause e fdasave comandos.

Alguns outros aplicativos econométricos , incluindo Gretl , podem importar formatos de arquivo Stata diretamente.

História

Origens

O desenvolvimento do Stata começou em 1984, inicialmente por William (Bill) Gould e posteriormente por Sean Becketti. O software foi originalmente planejado para competir com programas estatísticos para computadores pessoais como SYSTAT e MicroTSP . Stata foi escrito, então como agora, na linguagem de programação C , inicialmente para PCs que executam o sistema operacional DOS . A primeira versão foi lançada em 1985 com 44 comandos.

Tabela: Comandos em Stata 1.0 e Stata 1.1
acrescentar dir no arquivo enredo carretel
bip Faz entrada consulta resumir
por derrubar rótulo regressar tabular
capturar apagar Lista renomear teste
confirme saída macro substituir modelo
converter expandir fundir corre usar
correlacionar formato modificar Salve 
contar gerar mais definir
descrever ajuda arquivo de saída ordenar

Desenvolvimento

Houve 17 versões principais do Stata entre 1985 e 2021, e código adicional e atualizações de documentação entre as versões principais. Em seus primeiros anos, conjuntos extras de programas Stata às vezes eram vendidos como "kits" ou distribuídos como discos de suporte. Com o lançamento do Stata 6 em 1999, o updates começou a ser entregue aos usuários via web. O lançamento inicial do Stata foi para o sistema operacional DOS . Desde então, versões do Stata foram lançadas para sistemas que executam variantes do Unix , como distribuições Linux , Windows e MacOS . Todos os arquivos Stata são independentes de plataforma.

Centenas de comandos foram adicionados ao Stata em seus 36 anos de história. Certos desenvolvimentos provaram ser particularmente importantes e continuam a moldar a experiência do usuário hoje, incluindo extensibilidade , independência de plataforma e a comunidade de usuários ativa .

Extensibilidade

O programcomando foi implementado no Stata 1.2, dando aos usuários a capacidade de adicionar seus próprios comandos. ado-files seguido no Stata 2.1, permitindo que um programa escrito pelo usuário seja carregado automaticamente na memória. Muitos arquivos ado escritos por usuários são enviados ao [Arquivo de componentes de software estatístico] hospedado pelo Boston College. A StataCorp adicionou um ssccomando para permitir que programas contribuídos pela comunidade sejam adicionados diretamente ao Stata. As edições mais recentes do Stata permitem que os usuários chamem scripts Python e R usando comandos, bem como permitem que os IDEs do Python, como Notebooks Jupyter, importem comandos Stata.

Comunidade de usuários

Uma série de desenvolvimentos importantes foram iniciados pela comunidade de usuários ativos do Stata. O Boletim Técnico Stata , que geralmente contém comandos criados pelo usuário, foi lançado em 1991 e publicado seis vezes por ano. Ele foi relançado em 2001 como o Stata Journal , uma publicação trimestral que contém descrições de comandos fornecidos pela comunidade e dicas para o uso eficaz do Stata. Em 1994, um listserv começou como um hub para os usuários resolverem problemas técnicos e de codificação de forma colaborativa; em 2014, foi convertido em um fórum web. Em 1995, a Statacorp começou a organizar conferências de usuários e desenvolvedores que se reúnem anualmente. Apenas a Conferência Stata anual realizada nos Estados Unidos é organizada pela StataCorp. Outras reuniões de grupos de usuários são realizadas anualmente nos Estados Unidos (a Conferência Stata), Reino Unido, Alemanha e Itália, e com menos frequência em vários outros países. Os distribuidores locais Stata organizam reuniões de grupos de usuários em seus próprios países.

Tabela: Lançamentos e Desenvolvimento de Stata
Versão Data de lançamento Selecione recursos novos ou aprimorados
1.0 Janeiro de 1985
  • lançamento inicial
  • Quarenta e quatro comandos
1,1 Fevereiro de 1985
  • Correções de bugs
1,2 Maio de 1985
  • Novo sistema de menu
  • Melhor ajuda online
  • keep
1,3 Agosto de 1985
  • Stata / Graphics
  • program
1,4 Agosto de 1986
  • Nova documentação
  • Formatado infile
1,5 Fevereiro de 1987
  • anova
  • logit, probit
2.0 Junho de 1988
  • Novos gráficos
  • Variáveis ​​de string
  • Análise de sobrevivência: Cox e Kaplan-Meier
  • Regressão Stepwise
2,1 Setembro de 1990
  • Variáveis ​​de byte
  • Análise Fatorial
  • ado-files
  • reshape
3,0 Março de 1992
  • logistic, ologit, oprobit, clogit,mlogit
  • tobit, cnreg, rreg, qreg, weibull,ereg
  • epitab
  • pweights
3,1 Agosto de 1993
  • mvreg, sureg, heckman, nlreg, areg,canon
  • nbreg
  • regressão linear restrita
  • ml
  • codebook
4,0 Janeiro de 1995
  • xtreg
  • glm
5.0 Outubro de 1996
  • xtgee, xtprobit
  • prais, newey,intreg
  • comandos de estimativa de pesquisa
  • fracpoly
  • st estendido
6,0 Janeiro de 1999
  • ciente da web
  • novo ml
  • operadores de séries temporais
  • arima, arch
  • st reescrito
7,0 Dezembro de 2000
  • frailty
  • xtabond
  • análise de cluster
  • nlogit
  • roc
  • SMCL
8,0 Janeiro de 2003
  • gráficos
  • GUI estendida, caixas de diálogo disponíveis para todos os comandos
  • manova
  • mais pesquisa
  • mais séries temporais (VARs, SVARs)
  • mais internalização GLLAMM
8,1 Julho de 2003
  • Atualizada ml
8,2 Outubro de 2003
  • mudanças gráficas
9,0 Abril de 2005
  • linguagem de programação mata matrix
  • recursos de pesquisa
  • modelos lineares mistos
  • modelos probit multinominais
9,1 Setembro de 2005
9,2 Abril de 2006
10,0 Junho de 2007
  • editor gráfico
  • modelos logísticos e de Poisson com componentes de erro aninhados complexos
10,1 Agosto de 2008
11,0 Julho de 2009
  • variáveis ​​de fator
  • margins comando de pós-estimativa
  • imputação múltipla
11,1 Junho de 2010
11,2 Março de 2011
12,0 Julho de 2011
  • gerenciamento automático de memória
  • modelagem de equações estruturais
12,1 Janeiro de 2012
13,0 Junho de 2013
  • cordas longas
  • efeitos do tratamento
13,1 outubro 2013
14,0 Abril de 2015
  • suporte Unicode
  • análise estatística bayesiana
14,1 Outubro 2015
14,2 Setembro 2016
15.0 Junho de 2017
  • análise de classe latente
  • Documentos PDF e Word
  • transparência de cores ou opacidade em gráficos
15,1 Novembro de 2017
16,0 Junho de 2019
  • quadros (vários conjuntos de dados na memória)
  • regressão laço
  • relatórios automatizados
  • modelos de escolha atualizados
16,1 Fevereiro de 2020
17,0 Abril de 2021
  • tablescomando atualizado
  • econometria bayesiana

Produtos de software

Existem quatro compilações do Stata: Stata / MP, Stata / SE, Stata / BE e Numerics by Stata. Enquanto o Stata / MP permite o processamento paralelo integrado de certos comandos, o Stata / SE e o Stata / BE têm gargalos e limitam o uso a apenas um único núcleo. Stata / MP executa certos comandos cerca de 2,4 vezes mais rápido, cerca de 60% da eficiência máxima teórica, ao executar processos paralelos em quatro núcleos de CPU em comparação com as versões SE ou BE. O Numerics by Stata permite a integração dos comandos Stata na Web.

As versões SE e BE diferem na quantidade de conjuntos de dados de memória que podem utilizar. Embora o Stata / MP possa armazenar de 10 a 20 bilhões de observações e até 120.000 variáveis, o Stata / SE e o Stata / BE armazenam até 2,14 bilhões de observações e lidam com 32.767 variáveis ​​e 2.048 variáveis, respectivamente. O número máximo de variáveis ​​independentes em um modelo é de 65.532 variáveis ​​no Stata / MP, 10.998 variáveis ​​no Stata / SE e 798 variáveis ​​no Stata / BE.

O preço e o licenciamento do Stata dependem do uso pretendido: negócios, governo / sem fins lucrativos, educação ou estudante. As licenças de usuário único são renováveis ​​anualmente ou perpétuas. Outros tipos de licença incluem uma licença única para uso por usuários simultâneos, uma licença de site, um único usuário de volume para preços em massa ou um laboratório de aluno.

Código de exemplo

O seguinte conjunto de comandos gira em torno do gerenciamento de dados simples.

sysuse auto                 // Open the included auto dataset
browse                      // Browse the dataset (opens the Data Editor window)

describe                    // Describes the dataset and associated variables
summarize                   // Summary information about numerical variables

codebook make foreign       // Summary information about the make (string) and foreign (numeric) variables

browse if missing(rep78)    // Browse only observations with missing data for variable rep78
list make if missing(rep78) // List makes of the cars with missing data for variable rep78

O próximo conjunto de comandos passa para as estatísticas descritivas.

summarize price, detail          // Detailed summary statistics for variable price

tabulate foreign                 // One-way frequency table for variable foreign
tabulate rep78 foreign, row      // Two-way frequency table for variables rep78 and foreign

summarize mpg if foreign == 1    // Summary information about mpg if the car is foreign (the "==" sign tests for equality)
by foreign, sort: summarize mpg  // As above, but using the "by" prefix.
tabulate foreign, summarize(mpg) // As above, but using the tabulate command.

Um teste de hipótese simples:

ttest mpg, by(foreign) // T-test for difference in means for domestic vs. foreign cars

Dados gráficos:

twoway (scatter mpg weight)                     // Scatter plot showing relationship between mpg and weight
twoway (scatter mpg weight), by(foreign, total) // Three graphs for domestic, foreign, and all cars

Regressão linear:

generate wtsq = weight^2                      // Create a new variable for weight squared
regress mpg weight wtsq foreign, vce(robust)  // Linear regression of mpg on weight, wtsq, and foreign
predict mpghat                                // Create a new variable contained the predicted values of mpg
twoway (scatter mpg weight) (line mpghat weight, sort), by(foreign) // Graph data and fitted line
Gráficos de regressão do conjunto de dados automático no Stata 17

Veja também

Referências

Leitura adicional

links externos