2011 Spanish Stata Users Group meeting
Thurdsday, 22 September 2011
Universidad Carlos III de Madrid
Calle Madrid 126
28903 Getafe-Madrid
Proceedings
La estimación e interpretación de modelos de
ecuaciones estructurales usando Stata 12
David Drukker
StataCorp
En esta charla, describo el comando nuevo sem que
está includio en Stata 12. sem estima los
parametros de modelos de equaciones estructurales y lineals. Ensenyo como
usar sem para estimar los parametros de modelos de
equaciones simultáneos que contienen factores no observados. El
método de estimación puede ser maximo verosimilitud o el
método de momentos generalizados.
Endogenous treatment effects for count-data models with endogenous participation or sample selection
Alfonso Miranda
Institute of Education, University of London
I propose an estimator for models in which an endogenous dichotomous
treatment affects a count outcome in the presence of either sample selection
or endogenous participation using maximum simulated likelihood. I allow
for the treatment to have an effect both on the participation or the sample
selection rule and on the main outcome. Applications of this model are
frequent in—but not limited to—health economics.
I show an application of the model using data from Kenkel and Terza (2001),
who investigated the effect of physician advice on amount of alcohol
consumption. My estimates suggest that in these data, (i) neglecting treatment
endogeneity leads to a wrongly signed effect of physician advice on drinking
intensity, (ii) accounting for treatment endogeneity but neglecting endogenous
participation leads to an upward-biased estimate of the treatment effect, and
(iii) advice affects only the drinking intensive margin, not drinking
prevalence.
Reference
- Kenkel, D. S., J. V. Terza. 2001. The effect of physician advice on
alcohol consumption: Count regression with an endogenous treatment
effect. Journal of Applied Econometrics 16: 165–184.
Convirtiendo series temporales en casos cruzados en Stata
Aurelio Tobías
Instituto de Diagnóstico Ambiental y Estudios del Agua (IDAEA), Consejo Superior de Investicaciones Científicas (CSIC), Barcelona
El diseño de casos cruzados es un diseño epidemiológico
observacional propuesto por Maclure (1991) para valorar si una
exposición intermitente ha desencadenado un evento agudo de salud a
muy corto plazo. El diseño se basa en seleccionar sólo
sujetos con el evento de interés (sujetos casos) y comparar su nivel de
exposición a la exposición del mismo sujeto durante un periodo
de tiempo previo al evento, período control. Este diseño
cuenta con una creciente utilización en el campo de la
epidemiología ambiental para evaluar los efectos a corto plazo sobre
la salud de diversos factores de riesgo ambiental, principalmente
contaminación atmosférica (Carracedo-Martínez y cols. 2010).
Aunque el análisis estadístico se puede considerar
análogo al del diseño de casos y controles
emparejados, ya que ambos utilizan la regresión logística
condicional (implementada en el comando
clogit),
la construcción de la base de datos resulta de especial complejidad.
El comando
mkcco permite convertir una base de datos para un diseño
de series temporales, con datos a nivel diario, en una base de datos para un
diseño de casos cruzados. Mostramos, a través de diversos ejemplos,
las utlización del comando
mkcco para crear una base de datos
para un
diseño de casos cruzados en sus distintas aproximaciones: unidireccional,
bidireccional y de tiempo estratificado.
Referencias
- Carracedo-Martínez, E., M. Taracido, A. Tobias, M. Saez,
A. Figueiras. 2010. Case-crossover analysis of air pollution health
effects: A systematic review of methodology and application.
Environmental Health Perspectives 118: 1173–182.
- Maclure, M. 1991. The case-crossover design: A method for studying
transient effects on the risk of acute events. American Journal of
Epidemiology 133: 144–153.
Métodos de descomposición de economía utilizando Stata
D. Raül Ramos
AQR-IREA, Universitat de Barcelona
La utilización de métodos de descomposición es cada vez
más frecuente en distintos ámbitos de la economía. La
aplicación de dichos métodos permite identificar, por ejemplo,
a partir de análisis contrafactuales cuáles son los
principales factores explicativos de las diferencias salariales entre
hombres y mujeres, hasta qué punto el incremento de los niveles
educativos de la población es responsable del aumento de la
desigualdad de la renta o por qué hay regiones que crecen mucho
más que otras.
El punto de partida de estos trabajos se basa en las contribuciones pioneras
de Oaxaca (1973) y Blinder (1973) pero han existido multitud de trabajos
posteriores que han introducido nuevas mejoras metodológicas y
refinamientos que han permitido la aplicación de estos métodos
en contextos mucho más recientes como Juhn, Murphy y Pierce (1991) o
Machado y Mata (2005); se centran en el análisis de las diferencias a
lo largo de la distribución.
El objetivo de la comunicación es ofrecer una panorámica de
los métodos existentes a partir de ejemplos concretos así como
las posibilidades de implementar dichos métodos utilizando rutinas
creadas para Stata.
Additional information
sp11_ramos.ppt
La prueba de Dixon
Llorenç Quinto
Unitat de Biostadística, CRESIB, Hospital Clínic de Barcelona
Los valores extremos (outliers), son observaciones con una diferencia tan
amplia con el resto de datos que hace sospechar que se ha cometido un error
grave, o sugiere que estos valores provienen de una población
distinta. Aunque existe una extensa literatura estadística sobre el
problema de los outliers y se han propuesto muchas pruebas
estadísticas para su identificación, la mayoría se han
basado en el uso de la prueba de Dixon como el método principal. La
prueba de Dixon se fundamenta en la suposición de que si no hay
valores anómalos, las observaciones (o una transformación de
ellas, tales como como logaritmos) siguen una distribución normal.
Se ha convertido en un estándar estándar para la
identificación de valores atípicos en química
analítica y otros campos.
Dixon describió estadísticos
rij basados en
los rangos y el tamaño de la muestra, para la identificación
de valores sospechosos de ser outliers. Proporcionó fórmulas
detalladas para las funciones de densidad y distribución acumulada
para
r10,
r11,
r12,
r20,
r21 y
r22 para
muestras pequeñas (Dixon, 1950) y generó valores
críticos para estos ratios para tamaños de muestra de 3 <
n < 30 (Dixon, 1951). Los criterios para una elección
adecuada de
r en función del tamaño de la muestra
fueron presentados posteriormente (Dixon, 1953).
Algunos autores han desarrollado procedimientos para los paquetes
estadísticos más usados, utilizando los valores de las tablas
originales e interpolaciones para dichos ratios. El comando
dixon utiliza
los valores propuestos por Dixon en su trabajo original, teniendo en cuenta
las correcciones proporcionadas posteriormente por Rorabacher (Rorabacher,
1991) y usando el ratio r10 con un valor crítico igual a 1/3 para
tamaños de muestra superiores a 30 (Nccls, 2000;Reed et al., 1971).
La identificacón de un valor sospechoso puede cambiar la
conclusión de otros valores cuando se excluye éste del
conjunto de datos. Por esta razón, este ado-file realiza un proceso
iterativo hasta no detectar nuevas observaciones sospechosas de ser
consideradas outliers.
Referencias
- Dixon, W. J. 1950. Analysis of Extreme Values: The Annals of
Mathematical Statistics, v. 21, p. 488–506.
- Dixon, W. J. 1951. Ratios Involving Extreme Values: The Annals of
Mathematical Statistics, v. 22, p. 68–78.
- Dixon, W. J. 1953. Processing Data for Outliers: Biometrics,
v. 9, p. 74–89.
- NCCLS. 2000. How to Define and Determine Reference Intervals in
the Clinical Laboratory: Approved Guideline. 2nd ed. NCCLS
document C28-A2. Wayne, PA: NCCLS.
Generación de resultados en formato HTML
Llorenç Quinto
Unitat de Biostadística, CRESIB, Hospital Clínic de Barcelona
Los resultados de análisis realizados en Stata pueden examinarse en
la ventana de resultados. Al mismo tiempo, Stata ofrece la posibilidad de
almacenarlos en archivos log que pueden generarse en formato texto para que
sean accesibles incluso para los investigadores que no posean el programa.
Sin embargo, a menudo preferimos cambiar el formato de presentación
de los resultados para que éstos sean comprensibles por aquellos
colaboradores que no están familiarizados con el output de Stata, o
deseamos realizar tablas que sean directamente publicables. Esta
tarea de transcripción que habitualmente realizan los profesionales
de la estadística de
resulta en una pérdida de tiempo, en caso de que el
análisis necesite ser repetido.
Presentamos una serie de comandos que permiten programar los reportes de
resultados para generarlos automáticamente en formato HTML.
Éste es un lenguaje fácil de aprender, gratuito y bien
documentado. Mediante los comandos htopen, htclose y
htput y con unos
conocimientos básicos del lenguaje HTML, será posible producir los
resultados con un aspecto atractivo, de una forma rápida y
reproducible. El comando htsummary produce tablas descriptivas para dos o
más grupos, con la opción de realizar las pruebas de
asociación adecuadas para el tipo de variable.
Combinación de distintas fuentes a nivel intermedio con Stata
Enrique Fernández Macís
Universidad de Salamanca, Dpto. de Sociología y Comunicacción
Actualmente, hay disponibles muchas fuentes estadísticas sobre los
temas más diversos, pero es difícil combinar el
análisis de áreas temáticas distintas porque los datos
se basan en muestras distintas. No obstante, si realizamos el
análisis a un nivel intermedio de agregación (por ejemplo,
combinado datos de distintas fuentes) podremos enriquecer enormemente
nuestro análisis. En esta ponencia, se presentará un caso
concreto en el que se combinaron datos de empleo, salarios y calidad laboral
a nivel europeo utilizando distintas fuentes, y se explicarán
brevemente las herramientas disponibles en Stata para este fin.
Additional information
sp11_fernandez.pdf
ELECTOOL: A toolkit to analyze electoral data
Antonio M. Jaime Castillo
Universidad de Málaga and Centro de Estudios Andaluces
ELECTOOL is a toolkit to analyze electoral data. It can be used to analyze
aggregate data or individual voting data. It includes two programs:
v2seats and electind. v2seats allocates seats to
parties, using different allocation methods. Majority formulas include
majority and plurality. Highest average formulas include D’Hondt, St.
Laguë, modified St. Laguë, Hungarian St. Laguë, Danish method,
Imperiali’s divisors, Huntington method, and Adams method. Largest
remainder formulas include Hare, Hagenbach–Bischoff, Droop,
Imperiali, and reinforced Imperiali quotas.
ELECTOOL can be used at different aggregation levels and allows for
different electoral thresholds. Customized formulas are also available.
electind computes electoral indicators, such as proportionality,
electoral and parliamentary fragmentation, polarization and volatility.
Proportionality indicators include Rae, Loosemore–Hanby, Gallagher,
Lijphart, St. Laguë maximum deviation, maximum advantage ratio, Grofman
index, and Cox–Shugart. Fragmentation indicators include Rae’s F,
ENP, Taagepera’s LC, Dunleavy–Boucek, Molinar’s NP,
Kesselman–Wildgen, concentration, and competitiveness. Polarization is
calculated using both absolute and Euclidean distances. ELECTOOL also
computes volatility between elections.
Predicciones electorales mediante post-estratificación
Modesto Escobar
Universidad de Salamanca, Dpto. de Sociología y Comunicación
Una de las finalidades de las ciencias sociales es la predicción de
los fenómenos. Entre las predicciones que más atención
atraen no sólo a la comunidad científica sino también a
los medios de comunicación, se encuentra el pronónstico
electoral. Básicamente, hay dos métodos de realizarlo. Uno es
a través de series temporales en las que se introducen factores
externos; el otro es mediante el empleo de encuestas electorales.
En esta presentación se aborda cómo se puede emplear Stata
para pronosticar los datos electorales mediante cuestionarios, habida cuenta
de la enorme cantidad de interferencias que se producen en la recogida de la
información: desde los diseños muestrales, los problemas de no
respuesta hasta las declaraciones sesgadas de los futuros votantes.
Para ello, se hace uso del módulo survey de Stata y se recurre a la
modalidad de la post-estratificación empleando el recuerdo de voto.
La presentación prestará especial atención al comando
svy de Stata y a su uso en dos pasos para predecir el resultado de
las elecciones generales. De modo complementario, se incorpora los distintos
modelos de predicción de la cultura electoral, tales como el
psicológico, el sociológico, el económico y el
racional.
Todo ello se realizará para el caso español, empleando las
encuestas que regularmente realiza el Centro de Investigaciones
Sociológicas.
Scientific organizers
Aurelio Tobías, Spanish Council for Scientific Research (CSIC)
Modesto Escobar, Universidad de Salamanca
Ricardo Mora, Universidad Carlos III de Madrid
Sergi Sanz, Hospital Clínico UB
Llorenç Quinto, Hospital Clínico UB
Logistics organizers
Timberlake Consulting S.L.,
the official distributor of Stata in Spain.