Last updated: 16 June 2014
2007 Italian Users Group meeting
Monday, 24 September 2007
Hotel Artemide
Via Nazionale 23
Rome, Italy
Proceedings
Analysis of multiple source/multiple informant data
in Stata (in English)
Nick Horton
Department of Statistics, Smith College, USA
We describe regression-based methods for analyzing multiple-source
data arising from complex sample survey designs in Stata. We use the
term multiple-source data to encompass all cases where data are
simultaneously obtained from multiple informants, or raters (e.g.,
self-reports, family members, health care providers, administrators)
or via different/parallel instruments, indicators or methods (e.g.,
symptom rating scales, standardized diagnostic interviews, or clinical
diagnoses). This is an important problem in many social science and
medical research areas. We review regression models for analyzing
multiple source risk factors and multiple source outcomes and show
that they can be considered special cases of generalized linear
models, albeit with correlated outcomes. We show how these principled
data combination methods can be extended to handle the common survey
features of stratification, clustering, and sampling weights as well
as missing reports, and how they can be fit within Stata. The methods
are illustrated using data from health services research.
La determinazione delle dimensioni campionarie negli studi di “non
inferiorità”: una possibile implementazione per Stata
(in Italian)
Giovanni Capelli
Università degli Studi di Cassino
In considerazione dell’aumento del numero di farmaci dei quali è
provata l’efficacia tramite Trial Clinici Randomizzati, è sempre
meno eticamente accettabile che un nuovo farmaco possa essere
confrontato con un placebo: in generale, quasi tutti i Trial Clinici
Randomizzati oggi condotti prevedono un confronto del nuovo farmaco
con un farmaco di riferimento, che abbia mostrato provata efficacia
rispetto al placebo in precedenti studi. Tuttavia, l’effect size
di un nuovo farmaco rispetto ad un farmaco attivo di riferimento sar�
sempre ridotto rispetto all’effect size che è possibile
attendersi in un confronto rispetto al placebo. Ciò rende necessarie
numerosità campionarie sempre maggiori per i Trial Clinici
Randomizzati. Inoltre, nella valutazione di applicabilità clinica di
un trattamento, anche un farmaco di efficacia “pari” o
“non inferiore”, potrebbe, in ragione di considerazioni
legate alla riduzione di costi o effetti collaterali, avere tutti i
requisiti per essere immesso sul mercato. E’ sulla base di
queste considerazioni che si sono andati diffondendo negli ultimi 10
anni, e tendono oggi ad essere sempre più in aumento gli studi di
“non inferiorità”, proposti da case farmaceutiche o da
ricercatori indipendenti. Tuttavia, laddove i metodi per il calcolo
delle dimensioni campionarie per gli studi di
“superiorità” è sostanzialmente consolidato e presente in
tutti i pacchetti di statistica, il calcolo delle dimensioni
campionarie e la valutazione di “non inferioritè” vedono
ancora, nella letteratura scientifica e nelle linee guida di
riferimento anche più recenti, un dibattito sui metodi e sugli
algoritmi utilizzabili. Nel presente lavoro sarà discussa la possibile
implementazione in Stata 9.0 di alcune strategie per il calcolo della
numerosità campionaria o la valutazione di non inferiorit� al termine
di uno studio.
Arjas plot con Stata
(in Italian)
Unità di Statistica ed Epidemiologia ASL BA/2, Giovinazzo
La proporzionalità degli hazard è un assunto
fondamentale alla base della validità delle stime ottenute con il
modello di Cox. La verifica di tale assunto avviene anche attraverso
molteplici metodi grafici, per alcuni dei quali esistono appositi
comandi nella dotazione ufficiale di Stata. Inoltre, altre verifiche
grafiche di questo assunto, come il cosiddetto Andersen plot, pur non
immediatamente disponibili, possono essere facilmente ottenute con
poche istruzioni a partire dalla stima dell’azzardo cumulativo.
Un altro strumento utile a questo scopo è l’Arjas plot. In questo
grafico si mettono a confronto gli eventi osservati con gli eventi
attesi stimati a ogni tempo di failure per ogni livello della
variabile indagata in base a un modello di Cox. Oltre alla verifica
dell’assunto di proporzionalità degli hazard l’Arjas plot consente
anche di verificare se una particolare variabile deve o meno essere
inclusa nel modello dopo aggiustamento per altre covariate.
starjas
è un nuovo comando di Stata che consente di ottenere facilmente questo
grafico. Alcuni esempi saranno illustrati per commentarne le
applicazioni e il significato che si possono schematicamente
riassumere in:
- Se una variabile non deve essere inclusa nel modello, per
ciascun livello della variabile, viene tracciata una retta
passante per l’origine con un’angolazione
approssimativamente corrispondente a 45°. In caso contrario le
rette hanno pendenza diversa;
- Nel caso una variabile ha effetto non proporzionale sugli
hazard, le curve corrispondenti a livelli della covariata con
hazard ratio crescenti nel tempo si distanziano
progressivamente dalla linea dei 45° mentre si avvicinano a
questa in caso contrario;
- La stima dell’effetto di una variabile può subire
importanti variazioni in seguito all’inclusione di altre
covariate. Dopo aggiustamento per altre covariate si può
osservare nel plot di Arjas una variazione
dell’inclinazione delle curve rispetto a quelle ottenute
dal modello non aggiustato. Queste risulteranno più prossime
alla linea dei 45° in caso di confondimento negativo o più
lontane nell’altro caso.
Alcune opzioni consentono di modulare l’espressione del grafico per
renderlo più efficace.
Il comando è corredato da un help dove l’esempio riportato nel
libro di Klein e Moeschberger (368–374) può essere fatto scorrere
cliccando sulla finestra del viewer. E’ disponibile per il
download presso l’archivio SSC-IDEAS.
Probabilistic bias analysis of epidemiological results
Nicola Orsini
Karolinska Institutet
Gli errori sistematici dovuti al non controllo degli effetti di
confondimento ed errori di misurazione sono presenti nella maggior
parte degli studi epidemiologici. L’incertezza prodotta da
questi tipi di errori sistematici viene quantificata solo raramente.
Gli autori illustrano un metodo semplice da usare per aggiustare le
stime puntuali ed intervallo del rischio relativo in studi di coorte e
caso-controllo. Il comando di Stata episens implementa sia un
analisi di sensitività ordinaria che probabilistica. Il comando
consente la specifica di una varietà di distribuzioni di probabilità
per i parametri di errore sistematico, ed usa queste distribuzioni per
ottenere intervalli di confidenza simulati per il rischio relativo.
Gli autori illustrano il metodo applicandolo ad associazioni
epidemiologiche pubblicate in letteratura.
Assumendo distribuzioni verosimili per gli errori sistematici, i
ricercatori possono riportare i risultati che incorporano le loro
incertezze provenienti dagli errori sistematici, ed evitare di
sopravvalutare la certezza riguardo la misura di effetto stimata nel
loro studio. Questo metodo puó essere utile in aggiunta ai metodi
convenzionali di analisi.
Modello tobit a effetti casuali: metodi di stima basati su simulazione
(in Italian)
Università degli Studi di Verona
Giorgio Calzolari
Università degli Studi di Firenze
I metodi di stima basati su simulazione si sono dimostrati utili nel
processo di inferenza, applicati in anni recenti per la stima di
modelli in cui la funzione obiettivo contiene integrali che non
ammettono forma chiusa. Detti integrali possono apparire, ad esempio,
a causa della trasformazione di un modello latente in un modello per
la descrizione delle osservazioni, oppure a causa di dati mancanti o
in modelli in cui sono presenti coefficienti casuali o fattori di
eterogeneità.
Particolarmente nell’ambito di insiemi panel di dati, ovvero
osservazioni ripetute nel tempo su una stessa unità, qualora la
variabile dipendente sia osservata con censura, un problema molto
comune nel caso di dati microeconomici, la funzione di verosimiglianza
coinvolge integrali non esprimibili in forma chiusa, a meno che non si
impongano ipotesi restrittive sulla struttura del modello.
In questo lavoro si concentra l’attenzione sulla stima del modello
tobit per dati panel a effetti casuali. La distribuzione dei dati
risulta essere una mistura di distribuzioni discrete e continue, non
facilmente calcolabili perchè coinvolgono integrali multipli che non
hanno forma chiusa, approssimazioni accurate o soluzione numerica
rapida (Hajassiviliou e Ruud, 1994). La performance dei metodi di
stima basati su simulazione è valutata prendendo come benchmark di
riferimento l’approssimazione basata su quadratura gaussiana,
attualmente implementata in Stata.
Saranno implementate le procedure per la stima del modello attraverso
il metodo dell’inferenza indiretta (Gouri�eroux, Monfort, Renault,
1993; Smith, 1993; Gallant, Tauchen, 1996) e della massima
verosimiglianza simulata (Lerman, Manski, 1981; Pakes, 1986).
Il metodo della massima verosimiglianza simulata risolve il problema
della non trattabilità dell’integrale, sostituendo la funzione di
verosimiglianza con una sua approssimazione ottenuta attraverso l’uso
di simulazioni: si ottengono così funzioni obiettivo trattabili
da un punto di vista computazionale, che possono essere utilizzate per
la stima dei parametri.
L’idea alla base del metodo dell’inferenza indiretta è invece quella
di “correggere” il parametro di interesse allo scopo di ottenere
proprietà simili per le variabili endogene osservate e per i valori
ottenuti simulando il processo generatore dei dati in corrispondenza
di diversi valori del parametro.
In un lavoro precedente (Calzolari, Magazzini, Mealli, 2001), si sono
evidenziate le performance dei metodi di stima basati su simulazione
applicati a modelli tobit per dati panel, ma la performance dei metodi
rispetto al metodo basato su quadratura gaussiana non è stata
valutata.
L’analisi dei fattori dinamici in Stata
(in Italian)
Alessandro Federici
Università di Roma “La Sapienza”
Analisi di uno studio case-crossover sugli effetti dell'inquinamento atmosferico
(in Italian)
Massimo Stafoggia et al.
Dipartimento di Epidemiologia, ASL RM/E, Roma
Introduzione: Numerose evidenze epidemiologiche hanno mostrato
una associazione tra l’inquinamento atmosferico e la salute, sia in
termini di mortalità generale e causa-specifica, sia in termini di
ricoveri ospedalieri. Diverse modalità di analisi sono state adottate
in passato, in particolare modelli additivi generalizzati (GAM) di
Poisson in un’ottica di serie temporali, Equazioni di stima
generalizzate (GEE) che estendono la logica delle analisi
longitudinali in campo ambientale, ed analisi case-crossover che si
focalizzano sul soggetto anziché sul giorno, ed adottano una strategia
caso-controllo per l’aggiustamento dei trend temporali e per
l’individuazione di caratteristiche individuali di suscettibilit� agli
effetti dell’inquinamento atmosferico.
Obiettivi: Il presente progetto si propone di:
- analizzare l’effetto del particolato atmosferico con
diametro inferiore ai 10 micron (PM10) sulla mortalità per
cause naturali in 9 città Italiane, utilizzando il disegno
case-crossover;
- estrapolare una stima di associazione congiunta, adottando una
meta-analisi ad effetti casuali;
- identificare le caratteristiche di suscettibilità individuale
agli effetti dell’inquinamento, utilizzando informazioni
socio-demografiche e condizioni cliniche pregresse del
soggetto.
Metodi: La popolazione di studio è costituita da 321,024
soggetti di età 35+ anni residenti in 9 città Italiane e deceduti
nelle città per cause naturali (Classificazione Internazionale delle
Malattie — 9° revisione [ICD-9]: 1–799), nel periodo 1997–2004.
Per ogni soggetto sono state raccolte informazioni relative a
caratteristiche socio-demografiche (età, genere, reddito mediano della
sezione di censimento di appartenenza, stato civile), e condizioni
cliniche pregresse (presenza/assenza di specifici gruppi di patologie
in diagnosi principale o secondaria in ricoveri avvenuti nei due anni
precedenti il decesso).
Il disegno case-crossover è stato adottato per stimare
l’associazione tra PM10 e mortalità: si tratta di un disegno
particolare caso-controllo, in cui ogni soggetto deceduto (caso) è
“matchato” con se stesso, dove i controlli sono giorni in
cui l’evento di interesse non si è verificato. La selezione di
tali giorni è stata effettuata utilizzando l’approccio
“stratificato per tempo”, ovvero suddividendo il periodo
di studio in finestre mensili e scegliendo all’interno di ogni
mese gli stessi giorni della settimana del caso come giorni di
controllo (ad esempio, se un soggetto è deceduto il 28 maggio 2001,
lunedì, sono scelti come giorni di controllo tutti gli altri lunedì
del maggio 2001). Tale approccio consente di controllare per disegno i
trend temporali di medio2 lungo periodo, l’effetto “giorno
della settimana”, e tutte le caratteristiche individuali
costanti nel tempo, o variabili su una scala maggiore del mese. Altre
variabili possono essere aggiustate in fase di modellizzazione, dove
il modello usato è la regressione logistica condizionata, stratificata
sul soggetto.
Il software Stata 8.0 è stato utilizzato per le analisi. In
particolare esso è stato usato per:
- espandere il dataset individuale secondo la logica case-crossover;
- selezionare il modello di regressione logistica condizionata
più appropriato per il controllo del confondimento;
- stimare l’effetto città-specifico del PM10 nella
popolazione generale, e per classi di età;
- stimare l’effetto città-specifico del PM10 per
sottogruppi di popolazione, standardizzando al tempo stesso per
la struttura per età delle 9 città cumulate;
- ottenere una stima meta-analitica utilizzando un approccio ad
effetti casuali, utilizzando il metodo della massima
verosimiglianza.
Conclusioni: Il software Stata si è rivelato fondamentale per
la costruzione del dataset e l’analisi dei dati. Sebbene le
stesse procedure potessero essere svolte con altri software statistici
(SAS, R, S-Plus), la versatilità ed immediatezza di Stata hanno
notevolmente ridotto i tempi di programmazione. I principali punti di
forza riscontrati in Stata rispetto ad altri software sono stai i
seguenti:
- Il linguaggio matriciale di Stata ha consentito di ottenere
stime standardizzate per età in modo estremamente efficiente;
- l’uso di macro e cicli hanno permesso di analizzare
numerosi fattori di suscettibilità riducendo i tempi di
computazione;
- i comandi predisposti alla meta-analisi hanno agevolato
l’estrapolazione di stime congiunte di associazione
PM10-mortalità, testando l’eventuale presenza di
eterogeneità residua e fornendo output grafici chiari ed
esaustivi.
Uso di Stata per l’analisi del database SDO: ricoveri ripetuti,
inappropriati, non accreditati, ed indicatori di performance.
L’esperienza della Regione Abruzzo.
(in Italian)
Lamberto Manzoli
Università “G. d’Annunzio” di Chieti;
Tiziana Di Corcia
Agenzia Sanitaria Regionale, Regione Abruzzo
Manuaella Di Virgilio
Agenzia Sanitaria Regionale, Regione Abruzzo
Matteo Montesi
Agenzia Sanitaria Regionale, Regione Abruzzo
Francesco Di Stanislao
Agenzia Sanitaria Regionale, Regione Abruzzo; Università Politecnica delle Marche;
Giovanni Capelli
Università di Cassino.
Introduzione: Nell’ambito del sistema di finanziamento
ospedaliero basato sul sistema DRG, in vigore dal 1995, gli ospedali
italiani devono inviare alla Regione, perlomeno annualmente, un
riassunto dei dati relativi ad ogni ricovero effettuato (denominato
Scheda di Dimissione Ospedaliera — SDO). Diversi provvedimenti
legislativi richiedono al Sistema Sanitario Regionale lo svolgimento
di analisi del database SDO al fine di identificare gli errori ed i
ricoveri non accreditati; di calcolare il tasso di ricoveri ripetuti e
potenzialmente inappropriati (in base al DPCM 29/11/2001); infine di
ottenere i tradizionali indicatori di performance (durata di degenza,
tasso di occupazione posti letto, etc.). Nonostante questo tipo di
analisi sia relativamente semplice, diverse Regioni incontrano
notevoli difficoltà e ritardi nel condurre le analisi di routine a
causa della scarsità di operatori qualificati (la maggioranza dei
quali utilizza i software SAS© e Access©) e risorse economiche per
l’acquisto delle licenze e di computer sufficientemente potenti
per l’elaborazione di database di notevoli dimensioni (.1 GB).
Obiettivi: Da circa due anni, l’Agenzia Sanitaria Regionale
della Regione Abruzzo ha iniziato ad utilizzare il software Stata,
versione 9.0 © per l’analisi del database SDO, al fine di
semplificare e velocizzare il processo di analisi, come pure di
diffondere questo strumento agli operatori informatici locali, per
facilitare il loro lavoro di analisi preliminare o confermativa.
Metodi: Sono stati utilizzati i comandi tradizionali di Stata per lo
sviluppo di do-file, che possono essere utilizzati di routine per
ciascuna tipologia di analisi tra quelle indicate, e per
l’identificazione degli errori. I dofile sono stati resi
disponibili per gli operatori locali (al sito dell’ Agenzia
Sanitaria Regionale della Regione Abruzzo — www.asrabruzzo.it),
al fine di semplificare le loro attività e permettere un immediato
confronto dei risultati.
Conclusioni: Come atteso, le complessità legate alla sostituzione
dello strumento di analisi del database SDO, dai software attuali a
Stata, sono state notevoli, con la massima opposizione proprio da
parte degli operatori che dovrebbero svolgere le analisi. Tuttavia,
dopo le iniziali difficoltà, il rilevante miglioramento in termini di
efficacia ed efficienza del sistema di analisi sta producendo una
crescita continua del consenso tra gli operatori.
Scientific organizers
Una-Louise Bell, TStat S.r.l.
[email protected]
Rino Bellocco, Karolinska Institutet
[email protected]
Giovanni Capelli, Università degli Studi di Cassino
[email protected]
Marcello Pagano, Harvard School of Public Health
[email protected]
Logistics organizers
TStat S.r.l, the official distributor
of Stata in Italy.