Home  /  Resources & support  /  Users Group meetings  /  2007 Italian Users Group meeting

Last updated: 16 June 2014

2007 Italian Users Group meeting

Monday, 24 September 2007

Rome

Hotel Artemide
Via Nazionale 23
Rome, Italy

Proceedings


Analysis of multiple source/multiple informant data in Stata (in English)


Nick Horton
Department of Statistics, Smith College, USA
We describe regression-based methods for analyzing multiple-source data arising from complex sample survey designs in Stata. We use the term multiple-source data to encompass all cases where data are simultaneously obtained from multiple informants, or raters (e.g., self-reports, family members, health care providers, administrators) or via different/parallel instruments, indicators or methods (e.g., symptom rating scales, standardized diagnostic interviews, or clinical diagnoses). This is an important problem in many social science and medical research areas. We review regression models for analyzing multiple source risk factors and multiple source outcomes and show that they can be considered special cases of generalized linear models, albeit with correlated outcomes. We show how these principled data combination methods can be extended to handle the common survey features of stratification, clustering, and sampling weights as well as missing reports, and how they can be fit within Stata. The methods are illustrated using data from health services research.

La determinazione delle dimensioni campionarie negli studi di “non inferiorità”: una possibile implementazione per Stata (in Italian)


Giovanni Capelli
Università degli Studi di Cassino
In considerazione dell’aumento del numero di farmaci dei quali è provata l’efficacia tramite Trial Clinici Randomizzati, è sempre meno eticamente accettabile che un nuovo farmaco possa essere confrontato con un placebo: in generale, quasi tutti i Trial Clinici Randomizzati oggi condotti prevedono un confronto del nuovo farmaco con un farmaco di riferimento, che abbia mostrato provata efficacia rispetto al placebo in precedenti studi. Tuttavia, l’effect size di un nuovo farmaco rispetto ad un farmaco attivo di riferimento sar� sempre ridotto rispetto all’effect size che è possibile attendersi in un confronto rispetto al placebo. Ciò rende necessarie numerosità campionarie sempre maggiori per i Trial Clinici Randomizzati. Inoltre, nella valutazione di applicabilità clinica di un trattamento, anche un farmaco di efficacia “pari” o “non inferiore”, potrebbe, in ragione di considerazioni legate alla riduzione di costi o effetti collaterali, avere tutti i requisiti per essere immesso sul mercato. E’ sulla base di queste considerazioni che si sono andati diffondendo negli ultimi 10 anni, e tendono oggi ad essere sempre più in aumento gli studi di “non inferiorità”, proposti da case farmaceutiche o da ricercatori indipendenti. Tuttavia, laddove i metodi per il calcolo delle dimensioni campionarie per gli studi di “superiorità” è sostanzialmente consolidato e presente in tutti i pacchetti di statistica, il calcolo delle dimensioni campionarie e la valutazione di “non inferioritè” vedono ancora, nella letteratura scientifica e nelle linee guida di riferimento anche più recenti, un dibattito sui metodi e sugli algoritmi utilizzabili. Nel presente lavoro sarà discussa la possibile implementazione in Stata 9.0 di alcune strategie per il calcolo della numerosità campionaria o la valutazione di non inferiorit� al termine di uno studio.

Arjas plot con Stata (in Italian)


Enzo Coviello, [email protected]
Unità di Statistica ed Epidemiologia ASL BA/2, Giovinazzo
La proporzionalità degli hazard è un assunto fondamentale alla base della validità delle stime ottenute con il modello di Cox. La verifica di tale assunto avviene anche attraverso molteplici metodi grafici, per alcuni dei quali esistono appositi comandi nella dotazione ufficiale di Stata. Inoltre, altre verifiche grafiche di questo assunto, come il cosiddetto Andersen plot, pur non immediatamente disponibili, possono essere facilmente ottenute con poche istruzioni a partire dalla stima dell’azzardo cumulativo.

Un altro strumento utile a questo scopo è l’Arjas plot. In questo grafico si mettono a confronto gli eventi osservati con gli eventi attesi stimati a ogni tempo di failure per ogni livello della variabile indagata in base a un modello di Cox. Oltre alla verifica dell’assunto di proporzionalità degli hazard l’Arjas plot consente anche di verificare se una particolare variabile deve o meno essere inclusa nel modello dopo aggiustamento per altre covariate.

starjas è un nuovo comando di Stata che consente di ottenere facilmente questo grafico. Alcuni esempi saranno illustrati per commentarne le applicazioni e il significato che si possono schematicamente riassumere in:
  1. Se una variabile non deve essere inclusa nel modello, per ciascun livello della variabile, viene tracciata una retta passante per l’origine con un’angolazione approssimativamente corrispondente a 45°. In caso contrario le rette hanno pendenza diversa;
  2. Nel caso una variabile ha effetto non proporzionale sugli hazard, le curve corrispondenti a livelli della covariata con hazard ratio crescenti nel tempo si distanziano progressivamente dalla linea dei 45° mentre si avvicinano a questa in caso contrario;
  3. La stima dell’effetto di una variabile può subire importanti variazioni in seguito all’inclusione di altre covariate. Dopo aggiustamento per altre covariate si può osservare nel plot di Arjas una variazione dell’inclinazione delle curve rispetto a quelle ottenute dal modello non aggiustato. Queste risulteranno più prossime alla linea dei 45° in caso di confondimento negativo o più lontane nell’altro caso.
Alcune opzioni consentono di modulare l’espressione del grafico per renderlo più efficace.

Il comando è corredato da un help dove l’esempio riportato nel libro di Klein e Moeschberger (368–374) può essere fatto scorrere cliccando sulla finestra del viewer. E’ disponibile per il download presso l’archivio SSC-IDEAS.

Probabilistic bias analysis of epidemiological results


Nicola Orsini
Karolinska Institutet
Gli errori sistematici dovuti al non controllo degli effetti di confondimento ed errori di misurazione sono presenti nella maggior parte degli studi epidemiologici. L’incertezza prodotta da questi tipi di errori sistematici viene quantificata solo raramente.

Gli autori illustrano un metodo semplice da usare per aggiustare le stime puntuali ed intervallo del rischio relativo in studi di coorte e caso-controllo. Il comando di Stata episens implementa sia un analisi di sensitività ordinaria che probabilistica. Il comando consente la specifica di una varietà di distribuzioni di probabilità per i parametri di errore sistematico, ed usa queste distribuzioni per ottenere intervalli di confidenza simulati per il rischio relativo. Gli autori illustrano il metodo applicandolo ad associazioni epidemiologiche pubblicate in letteratura.

Assumendo distribuzioni verosimili per gli errori sistematici, i ricercatori possono riportare i risultati che incorporano le loro incertezze provenienti dagli errori sistematici, ed evitare di sopravvalutare la certezza riguardo la misura di effetto stimata nel loro studio. Questo metodo puó essere utile in aggiunta ai metodi convenzionali di analisi.

Modello tobit a effetti casuali: metodi di stima basati su simulazione (in Italian)


Laura Magazzini, [email protected]
Università degli Studi di Verona
Giorgio Calzolari
Università degli Studi di Firenze
I metodi di stima basati su simulazione si sono dimostrati utili nel processo di inferenza, applicati in anni recenti per la stima di modelli in cui la funzione obiettivo contiene integrali che non ammettono forma chiusa. Detti integrali possono apparire, ad esempio, a causa della trasformazione di un modello latente in un modello per la descrizione delle osservazioni, oppure a causa di dati mancanti o in modelli in cui sono presenti coefficienti casuali o fattori di eterogeneità.

Particolarmente nell’ambito di insiemi panel di dati, ovvero osservazioni ripetute nel tempo su una stessa unità, qualora la variabile dipendente sia osservata con censura, un problema molto comune nel caso di dati microeconomici, la funzione di verosimiglianza coinvolge integrali non esprimibili in forma chiusa, a meno che non si impongano ipotesi restrittive sulla struttura del modello.

In questo lavoro si concentra l’attenzione sulla stima del modello tobit per dati panel a effetti casuali. La distribuzione dei dati risulta essere una mistura di distribuzioni discrete e continue, non facilmente calcolabili perchè coinvolgono integrali multipli che non hanno forma chiusa, approssimazioni accurate o soluzione numerica rapida (Hajassiviliou e Ruud, 1994). La performance dei metodi di stima basati su simulazione è valutata prendendo come benchmark di riferimento l’approssimazione basata su quadratura gaussiana, attualmente implementata in Stata.

Saranno implementate le procedure per la stima del modello attraverso il metodo dell’inferenza indiretta (Gouri�eroux, Monfort, Renault, 1993; Smith, 1993; Gallant, Tauchen, 1996) e della massima verosimiglianza simulata (Lerman, Manski, 1981; Pakes, 1986).

Il metodo della massima verosimiglianza simulata risolve il problema della non trattabilità dell’integrale, sostituendo la funzione di verosimiglianza con una sua approssimazione ottenuta attraverso l’uso di simulazioni: si ottengono così funzioni obiettivo trattabili da un punto di vista computazionale, che possono essere utilizzate per la stima dei parametri.

L’idea alla base del metodo dell’inferenza indiretta è invece quella di “correggere” il parametro di interesse allo scopo di ottenere proprietà simili per le variabili endogene osservate e per i valori ottenuti simulando il processo generatore dei dati in corrispondenza di diversi valori del parametro.

In un lavoro precedente (Calzolari, Magazzini, Mealli, 2001), si sono evidenziate le performance dei metodi di stima basati su simulazione applicati a modelli tobit per dati panel, ma la performance dei metodi rispetto al metodo basato su quadratura gaussiana non è stata valutata.

L’analisi dei fattori dinamici in Stata (in Italian)


Alessandro Federici
Università di Roma “La Sapienza”

Analisi di uno studio case-crossover sugli effetti dell'inquinamento atmosferico (in Italian)


Massimo Stafoggia et al.
Dipartimento di Epidemiologia, ASL RM/E, Roma
Introduzione: Numerose evidenze epidemiologiche hanno mostrato una associazione tra l’inquinamento atmosferico e la salute, sia in termini di mortalità generale e causa-specifica, sia in termini di ricoveri ospedalieri. Diverse modalità di analisi sono state adottate in passato, in particolare modelli additivi generalizzati (GAM) di Poisson in un’ottica di serie temporali, Equazioni di stima generalizzate (GEE) che estendono la logica delle analisi longitudinali in campo ambientale, ed analisi case-crossover che si focalizzano sul soggetto anziché sul giorno, ed adottano una strategia caso-controllo per l’aggiustamento dei trend temporali e per l’individuazione di caratteristiche individuali di suscettibilit� agli effetti dell’inquinamento atmosferico.

Obiettivi: Il presente progetto si propone di:
  • analizzare l’effetto del particolato atmosferico con diametro inferiore ai 10 micron (PM10) sulla mortalità per cause naturali in 9 città Italiane, utilizzando il disegno case-crossover;
  • estrapolare una stima di associazione congiunta, adottando una meta-analisi ad effetti casuali;
  • identificare le caratteristiche di suscettibilità individuale agli effetti dell’inquinamento, utilizzando informazioni socio-demografiche e condizioni cliniche pregresse del soggetto.
Metodi: La popolazione di studio è costituita da 321,024 soggetti di età 35+ anni residenti in 9 città Italiane e deceduti nelle città per cause naturali (Classificazione Internazionale delle Malattie — 9° revisione [ICD-9]: 1–799), nel periodo 1997–2004.

Per ogni soggetto sono state raccolte informazioni relative a caratteristiche socio-demografiche (età, genere, reddito mediano della sezione di censimento di appartenenza, stato civile), e condizioni cliniche pregresse (presenza/assenza di specifici gruppi di patologie in diagnosi principale o secondaria in ricoveri avvenuti nei due anni precedenti il decesso).

Il disegno case-crossover è stato adottato per stimare l’associazione tra PM10 e mortalità: si tratta di un disegno particolare caso-controllo, in cui ogni soggetto deceduto (caso) è “matchato” con se stesso, dove i controlli sono giorni in cui l’evento di interesse non si è verificato. La selezione di tali giorni è stata effettuata utilizzando l’approccio “stratificato per tempo”, ovvero suddividendo il periodo di studio in finestre mensili e scegliendo all’interno di ogni mese gli stessi giorni della settimana del caso come giorni di controllo (ad esempio, se un soggetto è deceduto il 28 maggio 2001, lunedì, sono scelti come giorni di controllo tutti gli altri lunedì del maggio 2001). Tale approccio consente di controllare per disegno i trend temporali di medio2 lungo periodo, l’effetto “giorno della settimana”, e tutte le caratteristiche individuali costanti nel tempo, o variabili su una scala maggiore del mese. Altre variabili possono essere aggiustate in fase di modellizzazione, dove il modello usato è la regressione logistica condizionata, stratificata sul soggetto.

Il software Stata 8.0 è stato utilizzato per le analisi. In particolare esso è stato usato per:
  • espandere il dataset individuale secondo la logica case-crossover;
  • selezionare il modello di regressione logistica condizionata più appropriato per il controllo del confondimento;
  • stimare l’effetto città-specifico del PM10 nella popolazione generale, e per classi di età;
  • stimare l’effetto città-specifico del PM10 per sottogruppi di popolazione, standardizzando al tempo stesso per la struttura per età delle 9 città cumulate;
  • ottenere una stima meta-analitica utilizzando un approccio ad effetti casuali, utilizzando il metodo della massima verosimiglianza.
Conclusioni: Il software Stata si è rivelato fondamentale per la costruzione del dataset e l’analisi dei dati. Sebbene le stesse procedure potessero essere svolte con altri software statistici (SAS, R, S-Plus), la versatilità ed immediatezza di Stata hanno notevolmente ridotto i tempi di programmazione. I principali punti di forza riscontrati in Stata rispetto ad altri software sono stai i seguenti:
  • Il linguaggio matriciale di Stata ha consentito di ottenere stime standardizzate per età in modo estremamente efficiente;
  • l’uso di macro e cicli hanno permesso di analizzare numerosi fattori di suscettibilità riducendo i tempi di computazione;
  • i comandi predisposti alla meta-analisi hanno agevolato l’estrapolazione di stime congiunte di associazione PM10-mortalità, testando l’eventuale presenza di eterogeneità residua e fornendo output grafici chiari ed esaustivi.

Uso di Stata per l’analisi del database SDO: ricoveri ripetuti, inappropriati, non accreditati, ed indicatori di performance. L’esperienza della Regione Abruzzo. (in Italian)


Lamberto Manzoli
Università “G. d’Annunzio” di Chieti;
Tiziana Di Corcia
Agenzia Sanitaria Regionale, Regione Abruzzo
Manuaella Di Virgilio
Agenzia Sanitaria Regionale, Regione Abruzzo
Matteo Montesi
Agenzia Sanitaria Regionale, Regione Abruzzo
Francesco Di Stanislao
Agenzia Sanitaria Regionale, Regione Abruzzo; Università Politecnica delle Marche;
Giovanni Capelli
Università di Cassino.
Introduzione: Nell’ambito del sistema di finanziamento ospedaliero basato sul sistema DRG, in vigore dal 1995, gli ospedali italiani devono inviare alla Regione, perlomeno annualmente, un riassunto dei dati relativi ad ogni ricovero effettuato (denominato Scheda di Dimissione Ospedaliera — SDO). Diversi provvedimenti legislativi richiedono al Sistema Sanitario Regionale lo svolgimento di analisi del database SDO al fine di identificare gli errori ed i ricoveri non accreditati; di calcolare il tasso di ricoveri ripetuti e potenzialmente inappropriati (in base al DPCM 29/11/2001); infine di ottenere i tradizionali indicatori di performance (durata di degenza, tasso di occupazione posti letto, etc.). Nonostante questo tipo di analisi sia relativamente semplice, diverse Regioni incontrano notevoli difficoltà e ritardi nel condurre le analisi di routine a causa della scarsità di operatori qualificati (la maggioranza dei quali utilizza i software SAS© e Access©) e risorse economiche per l’acquisto delle licenze e di computer sufficientemente potenti per l’elaborazione di database di notevoli dimensioni (.1 GB).

Obiettivi: Da circa due anni, l’Agenzia Sanitaria Regionale della Regione Abruzzo ha iniziato ad utilizzare il software Stata, versione 9.0 © per l’analisi del database SDO, al fine di semplificare e velocizzare il processo di analisi, come pure di diffondere questo strumento agli operatori informatici locali, per facilitare il loro lavoro di analisi preliminare o confermativa.

Metodi: Sono stati utilizzati i comandi tradizionali di Stata per lo sviluppo di do-file, che possono essere utilizzati di routine per ciascuna tipologia di analisi tra quelle indicate, e per l’identificazione degli errori. I dofile sono stati resi disponibili per gli operatori locali (al sito dell’ Agenzia Sanitaria Regionale della Regione Abruzzo — www.asrabruzzo.it), al fine di semplificare le loro attività e permettere un immediato confronto dei risultati.

Conclusioni: Come atteso, le complessità legate alla sostituzione dello strumento di analisi del database SDO, dai software attuali a Stata, sono state notevoli, con la massima opposizione proprio da parte degli operatori che dovrebbero svolgere le analisi. Tuttavia, dopo le iniziali difficoltà, il rilevante miglioramento in termini di efficacia ed efficienza del sistema di analisi sta producendo una crescita continua del consenso tra gli operatori.

Scientific organizers

Una-Louise Bell, TStat S.r.l.
[email protected]

Rino Bellocco, Karolinska Institutet
[email protected]

Giovanni Capelli, Università degli Studi di Cassino
[email protected]

Marcello Pagano, Harvard School of Public Health
[email protected]

Logistics organizers

TStat S.r.l, the official distributor of Stata in Italy.