Stata - Stata
Autor (es) original (is) | William Gould |
---|---|
Desenvolvedor (s) | StataCorp |
lançamento inicial | 1985 |
Versão estável | 17.0 / 20 de abril de 2021
|
Escrito em | C |
Sistema operacional | Windows , macOS , Linux |
Modelo | Análise estatística |
Licença | Proprietário |
Local na rede Internet | www |
Stata ( / s t eɪ t ə / , FIQUE -ta , alternativamente / s t Æ t ə / , ocasionalmente estilizado como STATA®) é um de uso geral estatística pacote de software desenvolvido por StataCorp para manipulação de dados, a visualização, estatísticas, e relatórios automatizados. É usado por pesquisadores em muitos campos, incluindo economia , sociologia , ciência política , biomedicina e epidemiologia .
Stata foi inicialmente desenvolvido pelo Computing Resource Center na Califórnia e a primeira versão foi lançada em 1985. Em 1993, a empresa mudou-se para College Station, TX e foi renomeada Stata Corporation, agora conhecida como StataCorp. Um grande lançamento em 2003 incluiu um novo sistema gráfico e caixas de diálogo para todos os comandos. Desde então, uma nova versão é lançada a cada dois anos. A versão atual é Stata 17, lançada em abril de 2021.
Visão geral técnica e terminologia
Interface de usuário
Desde sua criação, Stata sempre empregou uma interface de linha de comando integrada. A partir da versão 8.0, Stata incluiu uma interface gráfica de usuário baseada no framework Qt que usa menus e caixas de diálogo para dar acesso a muitos comandos embutidos. O conjunto de dados pode ser visualizado ou editado em formato de planilha. A partir da versão 11, outros comandos podem ser executados enquanto o navegador de dados ou editor é aberto.
Estrutura e armazenamento de dados
Até o lançamento da versão 16, o Stata só podia abrir um único conjunto de dados por vez. Stata permite flexibilidade na atribuição de tipos de dados aos dados. Seu compress
comando reatribui automaticamente os dados a tipos de dados que ocupam menos memória sem perda de informações. Stata utiliza tipos de armazenamento inteiro que ocupam apenas um ou dois bytes em vez de quatro, e precisão simples (4 bytes) em vez de precisão dupla (8 bytes) é o padrão para números de ponto flutuante .
O formato de dados do Stata é sempre tabular no formato. Stata se refere às colunas de dados tabulares como variáveis.
Compatibilidade de formato de dados
Stata pode importar dados em uma variedade de formatos. Isso inclui formatos de dados ASCII (como CSV ou formatos de banco de dados ) e formatos de planilha (incluindo vários formatos do Excel ).
Os formatos de arquivo proprietários do Stata mudaram com o tempo, embora nem todo lançamento do Stata inclua um novo formato de conjunto de dados. Cada versão do Stata pode ler todos os formatos de conjunto de dados mais antigos e pode gravar tanto o formato de conjunto de dados atual quanto o anterior mais recente, usando o saveold
comando. Portanto, a versão atual do Stata sempre pode abrir conjuntos de dados que foram criados com versões mais antigas, mas versões mais antigas não podem ler conjuntos de dados de formato mais recentes.
Stata pode ler e gravar conjuntos de dados de formato SAS xPort nativamente, usando o fdause e fdasave comandos.
Alguns outros aplicativos econométricos , incluindo Gretl , podem importar formatos de arquivo Stata diretamente.
História
Origens
O desenvolvimento do Stata começou em 1984, inicialmente por William (Bill) Gould e posteriormente por Sean Becketti. O software foi originalmente planejado para competir com programas estatísticos para computadores pessoais como SYSTAT e MicroTSP . Stata foi escrito, então como agora, na linguagem de programação C , inicialmente para PCs que executam o sistema operacional DOS . A primeira versão foi lançada em 1985 com 44 comandos.
acrescentar | dir | no arquivo | enredo | carretel |
bip | Faz | entrada | consulta | resumir |
por | derrubar | rótulo | regressar | tabular |
capturar | apagar | Lista | renomear | teste |
confirme | saída | macro | substituir | modelo |
converter | expandir | fundir | corre | usar |
correlacionar | formato | modificar | Salve | |
contar | gerar | mais | definir | |
descrever | ajuda | arquivo de saída | ordenar |
Desenvolvimento
Houve 17 versões principais do Stata entre 1985 e 2021, e código adicional e atualizações de documentação entre as versões principais. Em seus primeiros anos, conjuntos extras de programas Stata às vezes eram vendidos como "kits" ou distribuídos como discos de suporte. Com o lançamento do Stata 6 em 1999, o update
s começou a ser entregue aos usuários via web. O lançamento inicial do Stata foi para o sistema operacional DOS . Desde então, versões do Stata foram lançadas para sistemas que executam variantes do Unix , como distribuições Linux , Windows e MacOS . Todos os arquivos Stata são independentes de plataforma.
Centenas de comandos foram adicionados ao Stata em seus 36 anos de história. Certos desenvolvimentos provaram ser particularmente importantes e continuam a moldar a experiência do usuário hoje, incluindo extensibilidade , independência de plataforma e a comunidade de usuários ativa .
Extensibilidade
O program
comando foi implementado no Stata 1.2, dando aos usuários a capacidade de adicionar seus próprios comandos. ado-files seguido no Stata 2.1, permitindo que um programa escrito pelo usuário seja carregado automaticamente na memória. Muitos arquivos ado escritos por usuários são enviados ao [Arquivo de componentes de software estatístico] hospedado pelo Boston College. A StataCorp adicionou um ssc
comando para permitir que programas contribuídos pela comunidade sejam adicionados diretamente ao Stata. As edições mais recentes do Stata permitem que os usuários chamem scripts Python e R usando comandos, bem como permitem que os IDEs do Python, como Notebooks Jupyter, importem comandos Stata.
Comunidade de usuários
Uma série de desenvolvimentos importantes foram iniciados pela comunidade de usuários ativos do Stata. O Boletim Técnico Stata , que geralmente contém comandos criados pelo usuário, foi lançado em 1991 e publicado seis vezes por ano. Ele foi relançado em 2001 como o Stata Journal , uma publicação trimestral que contém descrições de comandos fornecidos pela comunidade e dicas para o uso eficaz do Stata. Em 1994, um listserv começou como um hub para os usuários resolverem problemas técnicos e de codificação de forma colaborativa; em 2014, foi convertido em um fórum web. Em 1995, a Statacorp começou a organizar conferências de usuários e desenvolvedores que se reúnem anualmente. Apenas a Conferência Stata anual realizada nos Estados Unidos é organizada pela StataCorp. Outras reuniões de grupos de usuários são realizadas anualmente nos Estados Unidos (a Conferência Stata), Reino Unido, Alemanha e Itália, e com menos frequência em vários outros países. Os distribuidores locais Stata organizam reuniões de grupos de usuários em seus próprios países.
Versão | Data de lançamento | Selecione recursos novos ou aprimorados |
---|---|---|
1.0 | Janeiro de 1985 |
|
1,1 | Fevereiro de 1985 |
|
1,2 | Maio de 1985 |
|
1,3 | Agosto de 1985 |
|
1,4 | Agosto de 1986 |
|
1,5 | Fevereiro de 1987 |
|
2.0 | Junho de 1988 |
|
2,1 | Setembro de 1990 |
|
3,0 | Março de 1992 |
|
3,1 | Agosto de 1993 |
|
4,0 | Janeiro de 1995 |
|
5.0 | Outubro de 1996 |
|
6,0 | Janeiro de 1999 |
|
7,0 | Dezembro de 2000 |
|
8,0 | Janeiro de 2003 |
|
8,1 | Julho de 2003 |
|
8,2 | Outubro de 2003 |
|
9,0 | Abril de 2005 |
|
9,1 | Setembro de 2005 | |
9,2 | Abril de 2006 | |
10,0 | Junho de 2007 |
|
10,1 | Agosto de 2008 | |
11,0 | Julho de 2009 |
|
11,1 | Junho de 2010 | |
11,2 | Março de 2011 | |
12,0 | Julho de 2011 |
|
12,1 | Janeiro de 2012 | |
13,0 | Junho de 2013 |
|
13,1 | outubro 2013 | |
14,0 | Abril de 2015 |
|
14,1 | Outubro 2015 | |
14,2 | Setembro 2016 | |
15.0 | Junho de 2017 |
|
15,1 | Novembro de 2017 | |
16,0 | Junho de 2019 |
|
16,1 | Fevereiro de 2020 | |
17,0 | Abril de 2021 |
|
Produtos de software
Existem quatro compilações do Stata: Stata / MP, Stata / SE, Stata / BE e Numerics by Stata. Enquanto o Stata / MP permite o processamento paralelo integrado de certos comandos, o Stata / SE e o Stata / BE têm gargalos e limitam o uso a apenas um único núcleo. Stata / MP executa certos comandos cerca de 2,4 vezes mais rápido, cerca de 60% da eficiência máxima teórica, ao executar processos paralelos em quatro núcleos de CPU em comparação com as versões SE ou BE. O Numerics by Stata permite a integração dos comandos Stata na Web.
As versões SE e BE diferem na quantidade de conjuntos de dados de memória que podem utilizar. Embora o Stata / MP possa armazenar de 10 a 20 bilhões de observações e até 120.000 variáveis, o Stata / SE e o Stata / BE armazenam até 2,14 bilhões de observações e lidam com 32.767 variáveis e 2.048 variáveis, respectivamente. O número máximo de variáveis independentes em um modelo é de 65.532 variáveis no Stata / MP, 10.998 variáveis no Stata / SE e 798 variáveis no Stata / BE.
O preço e o licenciamento do Stata dependem do uso pretendido: negócios, governo / sem fins lucrativos, educação ou estudante. As licenças de usuário único são renováveis anualmente ou perpétuas. Outros tipos de licença incluem uma licença única para uso por usuários simultâneos, uma licença de site, um único usuário de volume para preços em massa ou um laboratório de aluno.
Código de exemplo
O seguinte conjunto de comandos gira em torno do gerenciamento de dados simples.
sysuse auto // Open the included auto dataset
browse // Browse the dataset (opens the Data Editor window)
describe // Describes the dataset and associated variables
summarize // Summary information about numerical variables
codebook make foreign // Summary information about the make (string) and foreign (numeric) variables
browse if missing(rep78) // Browse only observations with missing data for variable rep78
list make if missing(rep78) // List makes of the cars with missing data for variable rep78
O próximo conjunto de comandos passa para as estatísticas descritivas.
summarize price, detail // Detailed summary statistics for variable price
tabulate foreign // One-way frequency table for variable foreign
tabulate rep78 foreign, row // Two-way frequency table for variables rep78 and foreign
summarize mpg if foreign == 1 // Summary information about mpg if the car is foreign (the "==" sign tests for equality)
by foreign, sort: summarize mpg // As above, but using the "by" prefix.
tabulate foreign, summarize(mpg) // As above, but using the tabulate command.
Um teste de hipótese simples:
ttest mpg, by(foreign) // T-test for difference in means for domestic vs. foreign cars
Dados gráficos:
twoway (scatter mpg weight) // Scatter plot showing relationship between mpg and weight
twoway (scatter mpg weight), by(foreign, total) // Three graphs for domestic, foreign, and all cars
Regressão linear:
generate wtsq = weight^2 // Create a new variable for weight squared
regress mpg weight wtsq foreign, vce(robust) // Linear regression of mpg on weight, wtsq, and foreign
predict mpghat // Create a new variable contained the predicted values of mpg
twoway (scatter mpg weight) (line mpghat weight, sort), by(foreign) // Graph data and fitted line
Veja também
Referências
Leitura adicional
- Bittmann, Felix (2019). Stata - Uma introdução realmente curta . Boston: DeGruyter Oldenbourg. ISBN 978-3-11061-729-0.
- Pinzon, Enrique, ed. (2015). Trinta anos com o Stata: uma retrospectiva . College Station, Texas: Stata Press. ISBN 978-1-59718-172-3.
- Hamilton, Lawrence C. (2013). Estatísticas com STATA . Boston: Cengage. ISBN 978-0-84006-463-9.