2014 Mexican Stata Users Group meeting 
 13 November 2014 
  
  Marriott Reforma Hotel
  Paseo de la Reforma No. 276
  Col. Juárez México, D.F.
  
      
Proceedings
         Impact of tax on gasoline price of the distribution of consumer budget families in Mexico
 Gladys García Sandoval
  Universidad Autónoma de Aguscalientes
This research analyzes the impact of tax over gasoline on a household
consumption budget in Mexico.  We estimate an Almost Ideal Demand System 
(AIDS) econometric model, including demographic and socioeconomic
variables, using data at the household level from the National Survey of
Income and Expenditure (ENIGH 2006).  The analysis shows a
differentiated effect of the gasoline consumption tax over families with
different income levels and a redistribution of the expenditure to goods
that are substitutes for automobiles, showing possible redistributive
effects of these types of environmental policies that are aimed to reduce
the consumption of polluting goods.
   Impacto del Impuesto al Precio de las Gasolinas sobre la Distribución del Presupuesto de Consumo en las Familias de México
En esta investigación se analiza el impacto del impuesto sobre el precio
de las gasolinas sobre la distribución del gasto familiar en bienes de
consumo en México. Se estima un modelo AIDS ("Almost Ideal Demand
System") que incorpora variables demográficas y socioeconómicas 
de las
familias, así como también información de consumo 
desagregado a nivel de hogar. Para esto se utiliza información de gasto 
del
hogar de la Encuesta
Nacional de Ingresos y Gastos del Hogar (ENIGH, 2006) en México. El
análisis del impacto de un incremento en el impuesto en las gasolinas
sobre el presupuesto de consumo familiar muestra un efecto diferenciado
en grupos de distintos ingresos y una redistribución del gasto hacia
bienes sustitutos del uso del automóvil, mostrando los posibles efectos
redistributivos de este tipo de políticas ambientales basadas en
impuestos para reducir el consumo de bienes contaminantes.
  
   Additional information
   mex14_garcia.pdf
 
   Kernel density estimation for circular data
 Isaías H. Salgado-Ugarte
  UNAM
 Marco A. Pérez-Hernández
  UNAM
Quantitative information gathered using a circular scale as a reference 
is a common ocurrence in diverse fields of human activities. As with the
linear scales, the distribution is a characteristic that needs to be 
understood to properly interpretate the data message. One of
the more important tools for analyzing data distribution is kernel-density
estimation, which solves the origin effect and discontinuity drawbacks of
traditional histograms, has guides for choosing the interval (window)
width, and can be implemented with variable interval width to adjust for
too many or too few observations. In this talk, which is based on
previous works by Fisher (1989, 1993) and Cox (1997, 2001, 2004) for
circular estimation and Salgado-Ugarte et al. (1993, 1995, 2009), and
Mosqueda-Romo and Salgado-Ugarte (2011) for linear data, we present a
package of user-written commands to perform circular density estimations: 
circbw calculates a series of practical rules adapted from linear
methods considering circular dispersion and a rule based on the von
Mises distribution dispersion parameter; circkden allows one to
estimate density with several weight (kernel) functions, including
uniform, triangular, Epanechnikov, quartic (biweight), triweight,
Gaussian, and cosine. It displays results in linear or circular form,
counts and gives estimates of modes and antimodes, and allows one to
generate density and estimation points (in degrees) variables for later 
use; cirkdevm is similar to circkden but estimates density with the
von Mises weigth function; circgph draws customized circular density
displays. We present their application on several datasets (ours and some
from the literature). In our experience, these programs provide a very
powerful toolset that leads to a deep knowledge of important circular 
data-distribution features such as symmetry, skewness, and modality.
   Estimación de densidad por núcleo (kernel) para datos circulares
La información cuantitativa recabada tomando como referencia a una escala
circular ocurre comúnmente en campos diversos de la actividad humana.  Como
con las escalas lineales, la distribución es una característica que debe
entenderse para interpretar adecuadamente el mensaje que transmiten los
datos.  Una de las herramientas más importantes para analizar la
distribución de los datos es la estimación de densidad por núcleo (kernel) la cual resuelve los problemas del efecto del origen y la discontinuidad de
los histogramas tradicionales, poseen guías para escoger la amplitud de
intervalo (ventana) y pueden estructurarse con amplitud variable de
ventana para ajustar por abundancia o escases de observaciones.  En esta
contribución y basados sobre trabajos previos de Fisher 1989; 1993) y Cox 
(1997; 2001; 2004) para estimación circular y Salgado-Ugarte et al.
(1993; 1995; 2010), Mosqueda-Romo y Salgado-Ugarte (2011) para
datos lineales, presentamos una serie de programas (archivos ado) para
llevar a cabo estimaciones de densidad circular; circbw calcula una
serie de reglas prácticas adaptadas de métodos lineales que consideran la
dispersión circular y un procedimiento basado en el parámetro de
dispersión de la distribución de von Mises; circkden permite estimar la
densidad con varias funciones ponderales (kernel o núcleo) como la
uniforme, triangular, Epanechnikov, cuártica (biponderada), triponderada,
Gaussiana y coseno.  Despliega los resultados en forma linear o
circular, cuenta y estima modas, antimodas y hace posible generar
variables de densidad y puntos de cáculo (en grados) para uso posterior;
cirkdevm es similar a circkden, pero esima densidades usando
las funciones de von Mises;
circgph dibuja gráficos circulares de densidad personalizados.
Presentamos su aplicación sobre varios conjuntos de datos (propios o
provenientes de la literatura).  En nuestra experiencia, estos programas
proporcionan una herramienta muy poderosa que lleva a un conocimiento
profundo de características importantes de distribución circular tales como
simetría, sesto y modalidad.
  
   Additional information
   mex14_salgado.pdf
 
          Introduction to structural equation modeling using the sem command
 Gustavo Sanchez
  StataCorp
Structural equation modeling is attracting a large interest among 
researchers in different areas because of the diverse variety of models
that can be accommodated within this theoretical framework. I will
briefly comment on some of the models that can be fit using the sem
command, and I will show the use of the SEM Builder (the graphical user
interface for drawing path diagrams) for one of the models included in
the presentation.
  Introducció al ajuste de modelos de ecuaciones estructurales usando el comando sem
El interés en los modelos de ecuaciones estructurales (SEM) ha ido
aumentando de manera significativa debido a la diversa variedad de
modelos que pueden ser representados dentro de este marco teórico.
Comentaremos brevemente acerca de los modelos que pueden ser ajustados
por el comando sem. Adicionalmente, presentaremos un ejemplo donde
mostraremos el uso de la herramienta gráfica implementada en Stata par
la construcción (y estimación) de los diagramas para este tipo de modelos (SEM Builder).
  
   Additional information
   mex14_sanchez.pdf
 
             Unión bases de datos en ausencia de un identificador: El caso de los beneficiarios de programas sociales de la Sagarpa y el Censo Agropecuario y Forestal de 2007
 Carlos Alberto Francisco Cruz
  FAO México
 Jorge Lara Alvarez
  FIRA
 Juan Francisco Islas Aguirre
  FAO México
El principal requisito para unir dos bases de datos es un identificador
único que se encuentre en ambas, por lo que la combinación, 
manipulación y
generación de bases de datos está sujeta a la existencia y calidad del
identificador.  Pero ¿Qué pasa si no se tiene un identificador en
común?  Actualmente Stata cuenta con una rutina llamada "reclink" que
permite unir bases de datos sin identificador a partir de
información  adicional contenida en las bases de datos.  En ese sentido el
objetivo de este trabajo es presentar el uso de Stata para la unión de
bases de datos sin identificador, que es el caso de un padrón de
beneficiarios de la Sagarpa y el Censo Agropecuario 2007.  La
conformación de estas fuentes de información ha permitido un 
diseño  riguroso
de evaluación de impacto de programas sociales de la Sagarpa.
  
   Additional information
   mex14_cruz.pdf
          The causal effect of deficiency at English on female immigrants' labor market outcomes in the UK
 Alfonso Miranda
  CIDE
 Yu Zhu
  University of Dundee
Using the first wave of the UK Household Longitudinal Survey, we 
investigate how deficiency at English as measured by English as
Additional Language (EAL), contributes to the first-generation
immigrant-native wage gap for female employees in the UK (we first
control for age, region of residence, educational attainment, and
ethnicity). To deal with the endogeneity of EAL and a substantial problem
of self-selection into employment, we suggest a three-step estimation (TSE)
procedure and use the interaction of language of country of birth and a 
late age-at-arrival indicator as instruments for EAL, exploiting
variations in the female-to-male ratios of labor force participation and
educational attainment by country of birth to gauge employment
status. The properties of the TSE estimator are investigated in a Monte
Carlo simulation study, and we show evidence that suggests our procedure
delivers a consistent and asymptotically normal estimator. We find a
large and statistically significant causal effect of EAL on the
immigrant-native wage gap.
  El efecto causal de las deficiencias en el dominio de la lengua Inglesa en los resultados de mercado laboral de las mujeres migrantes en el Reino Unido
Usando la primera ola de la Encuesta Longitudinal de Hogares del Reino 
Unido investigamos como las deficiencias en el dominio de la lengua
Inglesa, medida como un indicador de dominio del Inglés como lengua
adicional (EAL por sus siglas en Inglés), contribuye a la brecha salarial
entre nativos y migrantes en el Reino Unido una vez que se controla por
edad, región de residencia, educación y grupo étnico. Para corregir por
endogeneidad de EAL y un problema substancial de auto selección al empleo
sugerimos un método de estimación en tres etapas (TSE por sus siglas 
Inglés) y usamos la interacción entre la lengua del país de nacimiento y un indicador de llegada tardía como instrumento para EAL. Explotamos
variaciones en la razón de tasas de participación entre hombres y mujeres
la educación promedio en el país de origen como instrumento para modelar 
participación en el mercado laboral. Las propiedades del estimador de tres
etapas son investigadas en un estudio de simulación de Monte Carlo 
mostramos evidencia de que nuestro procedimiento define un estimador
consistente y asintóticamente normal.  Encontramos un efecto causa
económicamente relevante y estadísticamente significativo de EAL en la
brecha salarial entre nativos y migrantes.
  
   Additional information
   mex14_miranda.pdf
 
        Welfare analysis of soda and junk food taxes using quaids
 Alfonso Mendoza Velázquez
  CIIE-UPAEP
As described by Poi (2012), the command quaids allows the estimation of 
linear demand systems such as the AIDS model of Deaton and Muellbauer
(1980) and of quadratic versions such as the model of Banks, Blundell, 
and Lewbel (1997). quaids also allows the inclusion of demographic
variables. So far the command allows the computation of expenditure and
compensated and uncompensated price elasticities. Analysts of demand
systems use these estimations extensively, but they are also usually
interested in a battery of additional diagnostics such as linearity
tests, Engle plots, and welfare analysis of direct and
indirect tax reforms. Here we explore some basic tools for welfare
analysis that can potentially be part of the postestimation commands in
quaids, analyzing the effects of the tax on sodas and junk food in Mexico
in place since January 2014. We also extend the elasticities to 
nutritional versions, which is useful to examine health outcomes of fiscal
policy.
  Análisis de Bienestar del Impuesto a Refrescos y Comida Chatarra usando quaids
Como lo describe Poi (2012) el comando quaids permite la 
estimación de
sistemas de demanda lineales como el modelo AIDS de Deaton and
Muellbauer (1980) así como versiones cuadráticas como el modelo 
de Banks,
Blundell y Lewbell (1997). quaids también permite incluir variable
demográficas. Hasta ahora el commando estima elasticidades precio
Hicksianas y Marshallianas. Los analistas de sistemas de demanda usan
estas estimaciones de manera extensiva pero a menudo se interesan en
pruebas de diagnóstico adicionales como pruebas de linealidad, curvas de
Engle y análisis de bienestar de reformas fiscales directas e indirectas
Aquí exploramos algunas herramientas básicas para el 
análisis de bienestar
que pueden verse como parte de los comandos de post estimación in 
quaids
que permiten analizar los efectos de los impuestos. También extendemos
los resultados para el cálculo de elasticidades nutricionales, útiles para
examinar el impacto en la salud. Esto lo ilustramos con el impuesto a
las bebidas y la comida chatarra en México en efecto desde enero de 
2014.
  
   Additional information
   mex14_mendoza.pdf
 
          Generalized structural equation models: Fitting customized models without programming
 Isabel Canette
  StataCorp
Statisticians and economists often need to fit models that have not been 
implemented in statistical packages; for example, bivariate response
models where one variable is continuous and the other is discrete or
ordinal-response models with endogenous regressors. The usual way to
estimate the parameters for those models would be by writing customized
programs. Fortunately, generalized structural equation models, 
implemented in the Stata gsem command, allow us to build many customized
models without the need of programming. I will first introduce the
different aspects of generalized structural equation models: family and
link, latent variables, and random effects. Then I will demonstrate how
to use these building blocks to perform customized estimations.
  Modelos de ecuaciones estructurales generalizados: Una manera de ajustar modelos a la medida sin necesidad de programación
A menudo, los estadísticos y los economistas necesitan ajustar modelos
que no han sido implementados en los paquetes estadísticos; por ejemplo,
un modelo de respuesta bivariante donde una variable es continua y la
otra es discreta, o un modelo de respuesta ordinal con regresores
endógenos. La manera habitual de ajustar estos modelos consiste en
escribir programas especializados. Afortunadamente, los modelos de
ecuaciones estructurales, implementados en el comando gsem de Stata, nos
permiten ajustar una variedad de modelos a la medida sin necesidad de
programació. En primer lugar, presentaré los diferentes aspectos 
de lo
modelos de ecuaciones estructurales generalizados: familia y funció de
enlace, variables latentes, y efectos aleatorios. Luego, mostraré cómo usar estos bloques para llevar a cabo estimaciones a medida.
  
   Additional information
   mex14_canette.pdf
 
            Simpler standard errors for multistage regression-based estimators: Illustrations in health economics
 Joseph V. Terza
  Indiana University–Purdue University
With a view toward lessening the analytic and computational burden 
faced by researchers in empirical health economics who seek an
alternative to bootstrapping for the standard errors of two-stage
estimators, we offer currently unexploited simplifications of the
typical, but somewhat daunting, textbook approach. For the most commonly
encountered cases in empirical health economics — two-stage estimators
that, in either stage, involve maximum likelihood estimation or the
nonlinear least squares method — we show that 1) the usual textbook
formulation of the relevant asymptotic covariance can be substantially 
reduced in complexity; and 2) nearly all components of our simplified
formulation can be retrieved as outputs from packaged regression
routines (for example, in Stata). With the applied researcher in mind, we
illustrate these points with two examples in empirical health economics
that involve the estimation of causal effects in the presence of
endogeneity — a sampling problem that can often be solved via two-stage
estimation. As a by-product of this illustrative discussion, we detail
four very useful two-stage estimators (and their asymptotic standard
errors) that are consistent for the model parameters in such settings,
along with their corresponding multistage causal-effect estimators (and
their asymptotic standard errors).
  
   Additional information
   mex14_terza.pdf
 Mixed-effects logistic regression model for cross-sectional binary response data: Seropositivity and risk factors associated with within-flock transmission of Leptospira interrogans on transhumant farming systems in Mexico
 G. Arteaga-Troncoso
  National Institute of Perinatology
Some reports emphasize the risk of zoonotic diseases and the high degree 
of prevalence of asymptomatic animals with Leptospira interrogans.
This report sought to evaluate the prevalence of antibodies to certain
serovars of L. interrogans and to describe the association between
seropositivity and risk factors associated with within-flock
transmission in a mountainous region of Mexico. The study was conducted
in a 845.2 km2 area in the southern region of the Estado de Mexico, 
Mexico, which was composed of three geographical regions: valley, 
inter-mountain, and mountain 
(19°05'-19°15' N, 99°20´- 99°35´ W). A
cross-sectional study was carried out to enroll a random sample of
unvaccinated ewes from November 2008 until March 2010, and flocks of sheep
were the primary sampling unit (PSU). Stratified random sampling with
proportional allocation was the sampling scheme utilized. Flock size was
the variable upon which stratification was based, and the flock-size
strata were (A) to be <50 animals; (B) to be 51-140 animals; and (C) to be
>141 animals. Thirty-five flocks included in the sample were distributed
uniformly throughout the area being studied, and blood samples were
collected from 367 animals in selected flocks. Mixed-effects logistic
regression is used to analyze the data.
  
   Additional information
   mex14_arteaga.pdf
            Stata module for decomposition of progressivity measurements
 E. Abdelkrim Araar
  Université Laval & CIRPÉE
 Luis Huesca
  CIAD & CIRPÉE
 Arturo Robles Valencia
  CIAD
We introduce a new command called 
dprogress. Our goal with this 
ado.file is to analyze the progressivity for any source of tax or
transfer in the fiscal system and demonstrate how the different sources
contribute to the total effect in redistribution using Stata. We propose
an analytical method to decompose the total progressivity measured by
the contributions of different taxes or benefits. Kakwani (1977) and
Reynolds-Smolensky (1977) indices are used to decompose progressivity by
sources. Our Stata module can be applied to compute the effects, so it
can be demonstrated how these fiscal figures contribute to the total 
redistribution effect. The proposed Stata command will be applied in a
practical way and carry out an empirical exercise using the tax-benefit
system in Mexico with the most current available microdata of income and
expenditure household survey (ENIGH 2012) by means of personal income
tax, indirect taxes paid, social security contributions, pensions, and
social benefits at the household level. 
  
   
Additional information
   mex14_huesca.pdf
Wishes and grumbles
 StataCorp staff
  
   StataCorp staff will be happy to receive wishes for developments in Stata and almost as happy to receive grumbles about the software.  
  
 
Scientific organizers
Alfonso Miranda, Centro de Investigación Docencia Económicas A.C.
Armando Sanchez Vargas, Universidad Nacional Autónoma de México and Virginia Tech
Logistics organizers
  MultiON Consulting, the official distributor
  of Stata in Mexico.