lunes, 5 de octubre de 2015

Primeros comandos de STATA


La fuentes biblográficas a utilizar para esta entrada, aparte del material y de los temas tratados en clase, seran los indicados en la entrada Primera clase de Stata: Introducción.

Estructura básica de la Sintaxis

Los comandos en Stata tienen una estructura básica común, que podemos resumir del siguiente modo:
  • ‘comando variables subgrupos, opciones’
  • [by varlist]: comando [varlist] [=exp] [if exp] [in range] [ponderador], [opciones]
    varlist: Lista de variables a las cuales se les quiere aplicar el comando específico.

En otras palabras: primero escribiremos el nombre de la acción que queremos que realice el programa, seguido de las variables a las que queremos que se aplique esta orden. Opcionalmente aquí podemos especificar las observaciones a las que queremos aplicar la orden (por defecto se aplican a toda la base de datos) y tras una coma especificaremos las opciones del comando que necesitemos.

Información adicional sobre sintaxis y comandos

  • Stata habla inglés. Aunque de entrada nos pueda parecer complejo, el lenguaje con el que nos relacionaremos con Stata es sencillo puesto que, en lo esencial, es inglés. Así, si queremos un resumen de una variable le diremos al programa summarize, si queremos una tabla, tabulate, si queremos una regresión regress, y así sucesivamente. En caso de duda, siempre podemos probar.
  • Distingue mayúsculas y minúsculas.
  • Abreviaciones en Stata. Una característica muy útil de Stata pero que al principio puede provocar alguna confusión, es que los comandos, opciones y nombres de variables se pueden abreviar. La norma general es que se permite una abreviación tan corta como sea posible para identificar sin ambigüedad el comando, opción o variable. Por eso es habitual ver sintaxis de Stata en las que el comando summarize se substituye por sum, tabulate por tab, etc. 

Comandos STATA: Básicos

Comandos de inspección de datos: Descripción de Variables

Una vez tenemos abierto el archivo de datos (base de datos a trabajar) que nos interese, podemos empezar a trabajar con él. La primera tarea a realizar será la inspección de los datos.

browse. El comando browse nos permite abrir la ventana de exploración de datos. Si escribimos browse en la línea de comandos, sin especificar nada más, veremos la base de datos completa. Si, en cambio, queremos restringir la inspección a un conjunto de variables (u observaciones) sólo tenemos que aplicarlo.

summarize. El comando summarize nos proporciona información básica sobre las variables que nos interesen (número de observaciones (sin contar los casos perdidos), media, desviación típica, mínimo y máximo. Más adelante veremos más opciones de este comando.

summarize Despliega estadísticas descriptivas básicas para todas las variables de la base de datos.
summarize [variable1] [variable2] Despliega estadísticas descriptivas básicas para las variables mencionadas.
summarize [variable1] , detail Despliega estadísticas descriptivas detalladas para la variable.

Tabla del comando sum.



tabulate. En caso de variables categóricas, o de cadena, la orden summarize no funcionará o nos aportará información insuficiente o inapropiada. Por ello, usaremos el comando tabulate, para generar tablas de frecuencias que nos informarán de la distribución de la variable elegida. Por defecto, nos muestra cuantos casos hay en cada categoría, el porcentaje que representan y el porcentaje acumulado. tab1. Si queremos aplicar el comando tabulate a más de una variable, debemos utilizar la variante tab1. Esto evitará que Stata intente hacer tablas multidimensionales (de las que hablaremos en su momento).

Visualización de tabulate para una variable especifica.













describe. El comando describe nos proporciona información sobre la(s) variable(s) especificadas, como el tipo de variable, el formato en el que está guardada, su nombre y etiqueta. Es útil para resumir un conjunto de variables de nuestra base de datos.

describe [variable]

Visualización de describe para una variable especifica.
codebook. Es un comando más completo que describe aunque precisamente por ese motivo, los resultados que genera son menos compactos. Produce abundante información sobre la variable, los valores que toma, el rango, los casos perdidos, etc.

codebook Despliega estadísticas para todas las variables de la base de datos.
codebook [variable1] [variable2] Despliega estadísticas sólo para las variables mencionadas.


Visualización de codebook para una variable especifica
























list. Es un comando de inspección de casos, que nos muestra los valores de las variables especificadas para los casos que escojamos. Si no especificamos que variables queremos, por defecto nos mostrará los valores de todas las variables, igual que para los casos. Si trabajamos con encuestas no es un comando muy útil porque no tenemos interés en los casos particulares pero si nuestra base de datos fuese, por ejemplo, de países o de municipios, entonces sí nos interesaría.

list Muestra los valores de todas las variables en todas las observaciones.
list in 1/5  Muestra los valores de todas las variables en las primeras cinco observaciones.
list [variable]  Muestra los valores de la variable.

Visualización de list para una variable especifica y de los 10 primeros casos. 

by varlist. Se aplica el comando específico por valores de determinada variable. Para poder aplicar la opción by los datos siempre deben estar ordenados por la variable de corte seleccionada. El comando utilizado para ordenar datos es sort.

sort [variable1] Ordena los datos por los valores de la variable.

by [variable1]: summarize [variable2] Despliega las estadísticas descriptivas de la variable1 por los elementos de la [variable2].

No hay comentarios:

Publicar un comentario