Home  /  Resources & support  /  User Group meetings  /  2011 Spanish Stata Users Group meeting

2011 Spanish Stata Users Group meeting

Thurdsday, 22 September 2011

Madrid

Universidad Carlos III de Madrid
Calle Madrid 126
28903 Getafe-Madrid

Proceedings


La estimación e interpretación de modelos de ecuaciones estructurales usando Stata 12


David Drukker
StataCorp
En esta charla, describo el comando nuevo sem que está includio en Stata 12. sem estima los parametros de modelos de equaciones estructurales y lineals. Ensenyo como usar sem para estimar los parametros de modelos de equaciones simultáneos que contienen factores no observados. El método de estimación puede ser maximo verosimilitud o el método de momentos generalizados.

Endogenous treatment effects for count-data models with endogenous participation or sample selection


Alfonso Miranda
Institute of Education, University of London
I propose an estimator for models in which an endogenous dichotomous treatment affects a count outcome in the presence of either sample selection or endogenous participation using maximum simulated likelihood. I allow for the treatment to have an effect both on the participation or the sample selection rule and on the main outcome. Applications of this model are frequent in—but not limited to—health economics.

I show an application of the model using data from Kenkel and Terza (2001), who investigated the effect of physician advice on amount of alcohol consumption. My estimates suggest that in these data, (i) neglecting treatment endogeneity leads to a wrongly signed effect of physician advice on drinking intensity, (ii) accounting for treatment endogeneity but neglecting endogenous participation leads to an upward-biased estimate of the treatment effect, and (iii) advice affects only the drinking intensive margin, not drinking prevalence.

Reference
Kenkel, D. S., J. V. Terza. 2001. The effect of physician advice on alcohol consumption: Count regression with an endogenous treatment effect. Journal of Applied Econometrics 16: 165–184.

Convirtiendo series temporales en casos cruzados en Stata


Aurelio Tobías
Instituto de Diagnóstico Ambiental y Estudios del Agua (IDAEA), Consejo Superior de Investicaciones Científicas (CSIC), Barcelona
El diseño de casos cruzados es un diseño epidemiológico observacional propuesto por Maclure (1991) para valorar si una exposición intermitente ha desencadenado un evento agudo de salud a muy corto plazo. El diseño se basa en seleccionar sólo sujetos con el evento de interés (sujetos casos) y comparar su nivel de exposición a la exposición del mismo sujeto durante un periodo de tiempo previo al evento, período control. Este diseño cuenta con una creciente utilización en el campo de la epidemiología ambiental para evaluar los efectos a corto plazo sobre la salud de diversos factores de riesgo ambiental, principalmente contaminación atmosférica (Carracedo-Martínez y cols. 2010). Aunque el análisis estadístico se puede considerar análogo al del diseño de casos y controles emparejados, ya que ambos utilizan la regresión logística condicional (implementada en el comando clogit), la construcción de la base de datos resulta de especial complejidad.

El comando mkcco permite convertir una base de datos para un diseño de series temporales, con datos a nivel diario, en una base de datos para un diseño de casos cruzados. Mostramos, a través de diversos ejemplos, las utlización del comando mkcco para crear una base de datos para un diseño de casos cruzados en sus distintas aproximaciones: unidireccional, bidireccional y de tiempo estratificado.

Referencias
Carracedo-Martínez, E., M. Taracido, A. Tobias, M. Saez, A. Figueiras. 2010. Case-crossover analysis of air pollution health effects: A systematic review of methodology and application. Environmental Health Perspectives 118: 1173–182.
Maclure, M. 1991. The case-crossover design: A method for studying transient effects on the risk of acute events. American Journal of Epidemiology 133: 144–153.

Métodos de descomposición de economía utilizando Stata


D. Raül Ramos
AQR-IREA, Universitat de Barcelona
La utilización de métodos de descomposición es cada vez más frecuente en distintos ámbitos de la economía. La aplicación de dichos métodos permite identificar, por ejemplo, a partir de análisis contrafactuales cuáles son los principales factores explicativos de las diferencias salariales entre hombres y mujeres, hasta qué punto el incremento de los niveles educativos de la población es responsable del aumento de la desigualdad de la renta o por qué hay regiones que crecen mucho más que otras.

El punto de partida de estos trabajos se basa en las contribuciones pioneras de Oaxaca (1973) y Blinder (1973) pero han existido multitud de trabajos posteriores que han introducido nuevas mejoras metodológicas y refinamientos que han permitido la aplicación de estos métodos en contextos mucho más recientes como Juhn, Murphy y Pierce (1991) o Machado y Mata (2005); se centran en el análisis de las diferencias a lo largo de la distribución.

El objetivo de la comunicación es ofrecer una panorámica de los métodos existentes a partir de ejemplos concretos así como las posibilidades de implementar dichos métodos utilizando rutinas creadas para Stata.

Additional information
sp11_ramos.ppt

La prueba de Dixon


Llorenç Quinto
Unitat de Biostadística, CRESIB, Hospital Clínic de Barcelona
Los valores extremos (outliers), son observaciones con una diferencia tan amplia con el resto de datos que hace sospechar que se ha cometido un error grave, o sugiere que estos valores provienen de una población distinta. Aunque existe una extensa literatura estadística sobre el problema de los outliers y se han propuesto muchas pruebas estadísticas para su identificación, la mayoría se han basado en el uso de la prueba de Dixon como el método principal. La prueba de Dixon se fundamenta en la suposición de que si no hay valores anómalos, las observaciones (o una transformación de ellas, tales como como logaritmos) siguen una distribución normal. Se ha convertido en un estándar estándar para la identificación de valores atípicos en química analítica y otros campos.

Dixon describió estadísticos rij basados en los rangos y el tamaño de la muestra, para la identificación de valores sospechosos de ser outliers. Proporcionó fórmulas detalladas para las funciones de densidad y distribución acumulada para r10, r11, r12, r20, r21 y r22 para muestras pequeñas (Dixon, 1950) y generó valores críticos para estos ratios para tamaños de muestra de 3 < n < 30 (Dixon, 1951). Los criterios para una elección adecuada de r en función del tamaño de la muestra fueron presentados posteriormente (Dixon, 1953).

Algunos autores han desarrollado procedimientos para los paquetes estadísticos más usados, utilizando los valores de las tablas originales e interpolaciones para dichos ratios. El comando dixon utiliza los valores propuestos por Dixon en su trabajo original, teniendo en cuenta las correcciones proporcionadas posteriormente por Rorabacher (Rorabacher, 1991) y usando el ratio r10 con un valor crítico igual a 1/3 para tamaños de muestra superiores a 30 (Nccls, 2000;Reed et al., 1971). La identificacón de un valor sospechoso puede cambiar la conclusión de otros valores cuando se excluye éste del conjunto de datos. Por esta razón, este ado-file realiza un proceso iterativo hasta no detectar nuevas observaciones sospechosas de ser consideradas outliers.

Referencias
Dixon, W. J. 1950. Analysis of Extreme Values: The Annals of Mathematical Statistics, v. 21, p. 488–506.
Dixon, W. J. 1951. Ratios Involving Extreme Values: The Annals of Mathematical Statistics, v. 22, p. 68–78.
Dixon, W. J. 1953. Processing Data for Outliers: Biometrics, v. 9, p. 74–89.
NCCLS. 2000. How to Define and Determine Reference Intervals in the Clinical Laboratory: Approved Guideline. 2nd ed. NCCLS document C28-A2. Wayne, PA: NCCLS.

Generación de resultados en formato HTML


Llorenç Quinto
Unitat de Biostadística, CRESIB, Hospital Clínic de Barcelona
Los resultados de análisis realizados en Stata pueden examinarse en la ventana de resultados. Al mismo tiempo, Stata ofrece la posibilidad de almacenarlos en archivos log que pueden generarse en formato texto para que sean accesibles incluso para los investigadores que no posean el programa. Sin embargo, a menudo preferimos cambiar el formato de presentación de los resultados para que éstos sean comprensibles por aquellos colaboradores que no están familiarizados con el output de Stata, o deseamos realizar tablas que sean directamente publicables. Esta tarea de transcripción que habitualmente realizan los profesionales de la estadística de resulta en una pérdida de tiempo, en caso de que el análisis necesite ser repetido.

Presentamos una serie de comandos que permiten programar los reportes de resultados para generarlos automáticamente en formato HTML. Éste es un lenguaje fácil de aprender, gratuito y bien documentado. Mediante los comandos htopen, htclose y htput y con unos conocimientos básicos del lenguaje HTML, será posible producir los resultados con un aspecto atractivo, de una forma rápida y reproducible. El comando htsummary produce tablas descriptivas para dos o más grupos, con la opción de realizar las pruebas de asociación adecuadas para el tipo de variable.

Combinación de distintas fuentes a nivel intermedio con Stata


Enrique Fernández Macís
Universidad de Salamanca, Dpto. de Sociología y Comunicacción
Actualmente, hay disponibles muchas fuentes estadísticas sobre los temas más diversos, pero es difícil combinar el análisis de áreas temáticas distintas porque los datos se basan en muestras distintas. No obstante, si realizamos el análisis a un nivel intermedio de agregación (por ejemplo, combinado datos de distintas fuentes) podremos enriquecer enormemente nuestro análisis. En esta ponencia, se presentará un caso concreto en el que se combinaron datos de empleo, salarios y calidad laboral a nivel europeo utilizando distintas fuentes, y se explicarán brevemente las herramientas disponibles en Stata para este fin.

Additional information
sp11_fernandez.pdf

ELECTOOL: A toolkit to analyze electoral data


Antonio M. Jaime Castillo
Universidad de Málaga and Centro de Estudios Andaluces
ELECTOOL is a toolkit to analyze electoral data. It can be used to analyze aggregate data or individual voting data. It includes two programs: v2seats and electind. v2seats allocates seats to parties, using different allocation methods. Majority formulas include majority and plurality. Highest average formulas include D’Hondt, St. Laguë, modified St. Laguë, Hungarian St. Laguë, Danish method, Imperiali’s divisors, Huntington method, and Adams method. Largest remainder formulas include Hare, Hagenbach–Bischoff, Droop, Imperiali, and reinforced Imperiali quotas.

ELECTOOL can be used at different aggregation levels and allows for different electoral thresholds. Customized formulas are also available. electind computes electoral indicators, such as proportionality, electoral and parliamentary fragmentation, polarization and volatility. Proportionality indicators include Rae, Loosemore–Hanby, Gallagher, Lijphart, St. Laguë maximum deviation, maximum advantage ratio, Grofman index, and Cox–Shugart. Fragmentation indicators include Rae’s F, ENP, Taagepera’s LC, Dunleavy–Boucek, Molinar’s NP, Kesselman–Wildgen, concentration, and competitiveness. Polarization is calculated using both absolute and Euclidean distances. ELECTOOL also computes volatility between elections.

Predicciones electorales mediante post-estratificación


Modesto Escobar
Universidad de Salamanca, Dpto. de Sociología y Comunicación
Una de las finalidades de las ciencias sociales es la predicción de los fenómenos. Entre las predicciones que más atención atraen no sólo a la comunidad científica sino también a los medios de comunicación, se encuentra el pronónstico electoral. Básicamente, hay dos métodos de realizarlo. Uno es a través de series temporales en las que se introducen factores externos; el otro es mediante el empleo de encuestas electorales.

En esta presentación se aborda cómo se puede emplear Stata para pronosticar los datos electorales mediante cuestionarios, habida cuenta de la enorme cantidad de interferencias que se producen en la recogida de la información: desde los diseños muestrales, los problemas de no respuesta hasta las declaraciones sesgadas de los futuros votantes.

Para ello, se hace uso del módulo survey de Stata y se recurre a la modalidad de la post-estratificación empleando el recuerdo de voto. La presentación prestará especial atención al comando svy de Stata y a su uso en dos pasos para predecir el resultado de las elecciones generales. De modo complementario, se incorpora los distintos modelos de predicción de la cultura electoral, tales como el psicológico, el sociológico, el económico y el racional.

Todo ello se realizará para el caso español, empleando las encuestas que regularmente realiza el Centro de Investigaciones Sociológicas.

Scientific organizers

Aurelio Tobías, Spanish Council for Scientific Research (CSIC)

Modesto Escobar, Universidad de Salamanca

Ricardo Mora, Universidad Carlos III de Madrid

Sergi Sanz, Hospital Clínico UB

Llorenç Quinto, Hospital Clínico UB

Logistics organizers

Timberlake Consulting S.L., the official distributor of Stata in Spain.