Intro Forskningsassistent Stata Guide

User Manual:

Open the PDF directly: View PDF .
Page Count: 32

Intro - Forskningsassistent

Jakob Jul Elben

22/02/2017

Contents

1 SAS 1

2 Stata 2

2.1 Batchﬁl ................................................ 2

2.2 Grundlæggende............................................ 2

2.3 Databehandling............................................ 3

2.3.1 Variable............................................ 3

2.3.2 Sortering og gruppering af data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3.3 Labels............................................. 5

2.4 Analyse ................................................ 6

2.4.1 Dataoverblik ......................................... 6

2.4.2 Exportaftabstat....................................... 8

2.4.3 Regressioner ......................................... 8

2.5 Smarttricks.............................................. 9

2.6 Figurer ................................................ 10

2.7 Locals,globalsogloops ....................................... 11

2.8 Postﬁle ................................................ 13

2.9 Esttab................................................. 14

2.10Frmtable................................................ 15

2.11Programmering............................................ 19

2.12Dato,tidogformattering ...................................... 20

2.12.1 Datoogtid .......................................... 20

2.12.2 Formattering ......................................... 22

2.13Merge ................................................. 23

1 SAS

Min erfaring er, at i de ﬂeste tilfælde kan det bedst betale sig at udføre databehandlingen i SAS, og selve

analysen og datamipulationen i Stata. Grundet at 99 % af arbejdet foregår i Stata, så er der ikke vedlagt

andet end et cheat sheet til SAS. Dette kan bruges til at merge data i SAS, hvorefte Stattransfer kan benyttes

til at omdanne SAS-ﬁlen til Stata-format.

Der er lavet et SAS-program til at trække og merge data for personer, som ikke kan ﬁnde ud af SAS.

2 Stata

Stata er formentligt den mest udbredte software på ØI.

Denne guide bygger på Benjamin Ly Serena1do-ﬁles til Stata.

Husk altid at arbejde med DO-ﬁles, og aldrig i kommandolinjen.

2.1 Batchﬁl

Det er vigtigt, at man lader Stata opbevare sine midlertidige ﬁler på et drev med forholdsvis meget plads,

når der arbejdes med registerdata. Dette skyldes, at når der f.eks. skal køres regressioner, så Stata pladsen

til at opbevare sine midlertidige ﬁler. Hvis dette ikke er tilfældet, så vil Stata stoppe med at køre. Dette

løses ved den guide der er vedlagt bagerst i dette dokument.

2.2 Grundlæggende

set more oﬀ, cd, clear all

Den sti Stata skal benytte deﬁneres vha. cd. Herved vil Stata benytte den sti til at gemme ﬁgurerer og

tabeller, samt indlæse datasæt, hvis en sti ikke er deﬁneret, når disse gemmes eller indlæses. Stier skal altid

være omgivet af “” i Stata. clear all fjerner alt der gemt i Stata. Vi begynder med clear all for at sikre, at

der ikke er gamle globals mv. gemt i Stata. Herefter deﬁneres stien og datasættet. Kommandoen set more

oﬀ sikrer, at Stata udskriver altid udskriver hele output umiddelbart. set autotabgraphs medfører, at grafer

vil blive åbnet i samme vindue som tabs.

clear all

set more oﬀ, perm

set autotabgraphs oﬀ, perm

cd "C:\Users\vzx151\Dropbox\Research Assistant\IntroForskningsassistent"

use

I Stata indlæses datasæt vha. af kommandoen use hvis man har speciﬁceret en sti, kan der blot skrives

navnet på det datasæt der ønskes loaded i den respektive sti. I dette tilfælde ligger auto8 i vores hovedsti.

Derfor kan vi enten loade datasættet ved blot at skrive navnet på dette, eller speciﬁcere hele stien. Begge

fremgangsmåder er vist herunder.

// Dataset from main directory

use auto8.dta

// Dataset by deﬁning directory

use "C:\Users\vzx151\Dropbox\Research Assistant\IntroForskningsassistent\auto8.dta"

browse, if

1Tidligere forskningsassistent, og nuværende på ph.d. på ØI. Benjamin.Ly.Serena@econ.ku.dk

For at vise datasættet, så benyttes kommandoen browse i Stata. Det er også muligt, at betinge på hvilke

observationer der skal vises. Dette gøres ved if, og det er ligeledes muligt at vælge bestemte variable der skal

vises.

// Browse is used to view the dataset

// Browse if the car length exceed 180 inches.

br if length>180

// Browse price and miles per gallon

br price mpg

Af koden fremgår det, at jeg benytter kommandoen br i stedet for browse. Dette skyldes, at Stata tillader at

forkorte alle variable og kommandoer mv. til det kortest mulige, hvor Stata stadig entydigt kan bestemme

objektet. Det vil sige, at vi ikke ville kunne skrive br, hvis vi havde en variabel bro, da Stata ikke kan skelne

mellem om vi henviser til variablen eller kommandoen.

Den logiske syntaks i Stata følger nedenstående tabel. Den logiske syntaks benyttes, når der skal skrives

betingelser.

Betydning Stata

A lig B A == B

A ikke lig B A != B

A større end B A > B

A mindre end B A > B

A større end eller lig B A >= B

A større end B og B større end C A > B & B > C

A større end B eller B større end C A > B | B > C

help

Endeligt, så er det muligt at tilgå hjælp til alle kommandoer og funktioner i Stata ved at skrive help-

kommandoen f.eks.

// help with the use command

help use

2.3 Databehandling

Stata har sin styrke i sin nemme syntaks, og eﬀektive databehandlingen. Der ﬁndes en del andre programmer,

der er væsentligt bedre til at fremstille analysedatasæt. Altså det datasæt man udfører sin analyse på

baggrund. Af software kan f.eks. SAS og R nævnes selvom der selvsagt ﬁndes ﬂere.

2.3.1 Variable

generate, drop, drop if, replace, replace if, keep, keep if

En variabel konstrueres i Stata ved kommandoen generate. Det er muligt, at benytte de simple matematiske

operatorer, samt at benytte disse på andre variable. F.eks. ﬁnder vi bilernes vægt på længde i nedenstående

stykke kode.

// Generate variable, which contains the weight/inch ratio

gen weight_inch = weight / length

En dummy variabel er et andet ord for indikator variabel. En dummy kan konstrueres i Stata på nedenstående

måde. Hvis betingelse omringet af parenteserne er opfyldt, så vil variable antage værdien 1, hvis betingelsen

ikke er opfyldt vil variablen antage værdien 0. Det vil sige, hvis vi ønsker at vide, hvorvidt miles per gallon

er større eller mindre end 20 kan dette gøres ved nedenstående stykke kode.

// Generate a dummy for whether mpg exceeds 20.

gen mpg20_dummy = (mpg > 20)

Hvis vi ønsker at erstatte værdier i en variabel benyttes kommandoen replace. I nedenstående eksempel

erstatter vi vores dummy’s 0-værdier med skalaren 2. Hvis en variabel ønskes slettet kan vi benytte

kommandoen drop. Herunder fjerne vi vores dummy. Det er naturligvis muligt som i langt de ﬂeste tilfælde

i Stata, at betinge på hvilke værdier der skal erstattes eller hvilke værdier skal slettes. For at gøre dette

benyttes if blot. Dette er vist for replace-kommandoen, men ikke for drop-kommandoen.

// Replaces all values, which equals zero with the value 2

replace mpg20_dummy = 2 if mpg20_dummy == 0

// we drop variable weight_inch

drop weight_inch

I visse tilfælde, så er vi ikke interesserede i at droppe variable (observationer), men derimod beholde nogle

bestemte variabel (observationer). Til dette ﬁndes der en kommando, som kan ses som den inverse til drop

(drop if ). Nemlig kommandoen keep (keep if ). Denne kommando har samme fremgangsmåde som drop

(drop if ), men istedet for at slette de speciﬁcerede variable (observationer) beholder Stata udelukkende de

speciﬁcerede observationer.

(COND1 & COND2 | COND3)

I nogle situationer kan det være meget smart at opdele betingelser. Forestil dig et scenarie, hvor vi ønsker at

ﬁnde alle biler, der har en bestemt miles per gallon statistik, men vi ønsker at diﬀerentiere intervallet for

dem. F.eks. kunne det være, at vi ønsker at markere alle biler der har en salgspris på 4000 og 10,000 dollars

og som kører mere end 15 miles per gallon, og så ønsker vi at alle biler der har en salgspris større end 10,000

dollars som kører mere end 20 miles. Dette ville tage ﬂere linjer kode, hvis ikke vi opdelte vores betingelser.

//Find speciﬁc cars

gen MpgPricedummy = ( (4000 < price & price < 10000 & 15 < mpg) | (10000 < price & 20 < mpg) )

egen

Generate tillader kun forholdsvis enkle dannelser af variable, men kommandoen egen fungerer i stor grad på

samme måde som gen, men tillader mange ﬂere funktioner. Så som gennemsnit, max, min osv. For at se alle

egens funktioner så skriv help egen.

// generates max, mean, and min price

egen pricemean = mean(price)

egen pricemin = min(price)

egen pricemax = max(price)

2.3.2 Sortering og gruppering af data

sort, by, bysort

Det er sjældent særligt overskueligt, at arbejde med registerdata, da der er så ufatteligt mange observationer.

Det er dog muligt, at gørre det lidt mere overskueligt. Det er muligt at sortere data vha. sort-kommandoen.

Dette er også vigtigt, når man sikrer sig, at de variable man har dannet rent faktisk gør, hvad de bør gøre.

Kommandoen sort sorterer data efter opadgående rækkefølge for de valgte variable. F.eks. hvis vi ønsker at

sortere bilerne efter om de kommer fra ind- eller udland kan sort-kommandoen benyttes.

// sorting cars after price and miles per gallon

sort foreign

Det er også muligt, at danne variable efter grupperinger. Dette gøres ved, at danne en variabel, der

angiver det respektive tilhørsforhold, hvorefter kommandoen by returnerer et resultat for hvert outcome

af tilhørsforholdsvariablen. Hvis vi ønsker, at ﬁnde gennemsnitsprisen for henholdsvis indenlandske og

udenlandske biler kan by-kommandoen benyttes.

// generates mean price by foreign

by foreign: egen pricemean2 = mean(price)

Disse kommandoer kan også samles i en, hvilket kommandoen bysort gør. Hvis vi ønsker gennemsnitsprisen

givet x miles per gallon kan vi benyttes bysort-kommandoen. Det er en god vane at benytte bysort

kommandoen altid, da dette sikrer at Stata ikke går i stå. Dette skyldes, at når visse kommandoer benyttes,

så skal data være sorteret, hvilket sker, når bysort benyttes frem for by.

// generates and sorts price by miles per gallon

bysort mpg: egen pricemean3 = mean(price)

2.3.3 Labels

label data, variables, value

En virkelig nyttig funktion ved Stata er dens label-kommandoer. Labels bliver benyttet til at beskrive

datasæt, variable og variablers værdier. Dette har den smarte funktion, at når der dannes grafer, så vil Stata

automatisk benytte disse labels til grafernes akser, og danne overskrifter, når grafer laves på baggrund af

gruppering.

I mange tilfælde er det væsentligt, at have nogle centrale informationer om et datasæt. Det er muligt at

vedhæfte op til 80 tegn til et datasæt i Stata. Når et datasæt har vedhæftet en data label, så vil denne label

blive vist, når datasættet indlæses. F.eks. fremgik “(1978 Automobile Data)”, da vi indlæste datasættet

auto8.dta. Dette skyldes, at denne label var vedhæftet datasættet.

Det er ligeledes muligt, at vedhæfte labels til variable. Det smarte ved at gøre dette er, at når der dannes

grafer og benyttes kommandoer i Stata, så vil stata benytte labelnavnet i stedet for variabelnavnet. Dette

gør det væsentligt hurtigere og mere sikkert at arbejde i Stata.

Endeligt er der en sidste type af labels, value labels. Value labels benyttes til at vedhæfte en label til forskellige

udfald i en variabel. Dette betyder f.eks. at man kan vedhæfte om det er mand eller kvinde der har værdien

1 eller 0, og der lignende fordele i forbindelse med grafer som beskrevet herover.

I nedenstående kode er der eksempler på alle tre typer labels.

// Data and variable labels

label data "This is my ﬁrst data label"

label variable price "This is my ﬁrst variable label"

// Deﬁning value labels and attaching those

label deﬁne ﬁrstlabel 1 "Miles per gallon exceeds 20" 2 "Miles per gallon does not exceed 20"

label values mpg20_dummy ﬁrstlabel

2.4 Analyse

Inden man går igang med sin analyse er det vigtigt, at gøre sig nogle tanker om, hvilket data man har med

at gøre.

2.4.1 Dataoverblik

describe

Stata har ﬂere funktioner til at beskrive data. f.eks. kommer vi ikek til at gennemgå codebook og inspect, men

derimod describe og summarize.describe benyttes til at beskrive formatteringen af data. Kommandoen siger

intet om outcomes, fordelingen mv., men angiver hvordan disse observationer er opbevaret i Stata. En anden

smart funktion ved describe er, at det angiver data og variable labels, samt angiver navnet på value labels

der eventuelt er vedhæftet variable. For at se de respektive value labels kan nedenstående kode benyttes.

//describes data

desc

// Shows value labels

label list ﬁrstlabel

Det er endvidere muligt, at benytte kommandoen for udelukkende et udpluk af variable, og ligeledes for andre

datasæt, hvilke ikke er indlæst i Stata. Dette gøres ved nedenstående stykke kode.

// describes the speciﬁed variables in the loaded dataset

desc price mpg

// describes the speciﬁed dataset

desc using "C:\Users\vzx151\Dropbox\Research Assistant\IntroForskningsassistent\auto8.dta"

// describes the speciﬁed variables in the speciﬁed dataset

desc price mpg using "C:\Users\vzx151\Dropbox\Research Assistant\IntroForskningsassistent\auto8.dta"

summarize

Efter at have fået et overblik over, hvordan datasættet og dets variable er bygget op, så vil det næste naturlige

skridt være, at få et overblik over den grundlæggende fordeling af variablene i datasættet. Til dette benyttes

kommandoen summarize. Summarize returnerer ﬁve-number summary for alle variable i det respektive

datasæt. Det er dog også muligt, at speciﬁcere hvilke variable der ønskes en ﬁve-number summary.

// ﬁve−number summary for all variables

sum

// ﬁve−number summary for price and mpg

summ price mpg

Det er også muligt, at få Stata til at returnere et mere detaljeret overblik over fordelingen af data. Dette

gøres ved, at benytte nedenstående kommando. Hvis detail betingelse benyttes, så vil Stata også returnere

skewness og kurtosis, samt en del percentiler. Det er endvidere også muligt, at benytte bysort-kommandoen.

Hvis dette gøres, så vil Stata returnere et styk output for hvert unikt outcome i identiﬁkationsvariablen

(foreign i nedenstående tilfælde).

// detailed summary for price and mpg

summ price mpg, detail

// summary for price and mpg by foreign

bysort foreign: summ price mpg

Efter summarize-kommandoen er udført, så vil Stata lagre nogle resultater internt. Disse kan bruges til

at danne variable med. Det er muligt at tilgå en liste med hvilke resultater Stata lagrer ved nedenstående

kommando, dog skal summarize-kommandoen først være kørt.

return list

Disse resultater kan nemt gemmes i variable, hvilket kan gøres ved:

gen num=r(N)

gen sum=r(sum)

tabulate, tabstat

Den sidste vigtige kommando til at danne sig et overblik over data er tab, hvilken danner en frekvenstabel

over de speciﬁcerede variable. Det er naturligvis også muligt at kombinere tab med if og bysort. Desuden er

det muligt, at få tab-kommandoen til at danne en dummy for hvert niveau tabellen. Det vil sige, at hvis vi

danner en dummy for hvert niveau af trunk, så vil der blive dannet 18 dummy-variable for hvert niveau.

// tabulate trunk

tab trunk

// tabulate trunk by foreign

bysort foreign: tab trunk

//tabulate trunk, and create dummies

tab trunk , gen(var9)

tabstat er en af de vigtigste kommandoer, der er i Stata. Kommandoen danner en tabel over de speciﬁcerede

variable og de speciﬁcerede statistikker. F.eks. hvis vi ønsker en tabel, hvor vi ﬁnder standardafvigelsen,

variance, middelværdi og skævhed, så kan tabstat benyttes.

tabstat price mpg weight, stat(mean variance sd skew)

Det er også muligt, at få variablene vist som rækker, og statistikkerne vist som søjler, samt at danne

statistikken på baggrund af tilhørsforhold.

tabstat price mpg weight, by(foreign) stat(mean variance sd skew) columns(stat)

2.4.2 Export af tabstat

Der er nogle forholdsvis gode pakker til at eksportere tabstat i forskellige formater. latabstat eksporterer

tabstat-outputtet til L

X-format. Syntaksen er fuldstændig den samme som for tabstat. Herefter bliver

outputtet vist i evalueringsområdet i Stata. Hvis man blot skal bruge et hurtigt output kan man blot benytte

log-ﬁlen. mht. logﬁlen, så gøres det på følgende måde

cap log close

log using logﬁl, replace text

tabstat price

log close

Endeligt, hvis outputtet ønskes i Stata, så anbefales det, at man enten benytter collapse eller laver en postﬁle

(bliver gennemgået længere fremme), hvorefter kommandoen xmlsave benyttes.

2.4.2.1 dubletter

dublicates

I forbindelse med registerdata kan der opstå dubletter. Det vil sige, at der er fejl i enten kodningen eller

fremstillingen af data. Dubletter kan have betydning for estimering med videre. Stata har forskellige

kommandoer til dette. Kommandoen duplicates giver blandt andet mulighed for at slette dubletter, rapportere

dubletter og generere en variabel, der angiver antallet af dubletter for den respektive observation. Hvis der

ikke er nogle dubletter vil denne variabel naturligvis udelukkende antage værdien 1.

// drop duplicates

duplicates drop

// report on duplicates

duplicates report

// generates a varible, which tells how many duplicates

duplicates tag, gen(indikationsvar)

2.4.3 Regressioner

regress

OLS-regressionen udføres i Stata ved regress-kommandoen. Først angives afhængige variabel, hvorefter de

uafhængige variable angives. Når en regression i Stata er udført gemmes relevante resultater fra regressionen

internt i Stata (på samme måde som ved summarize). Disse kan naturligvis benyttes på samme måde som i

summarize. De internt gemte resultater kan ses ved nedenstående stykke kode.

// Regress price on trunk

reg price trunk

// return results

ereturn list

Nedenstående kode er nyttig at forstå. Det vil sige, at vi danner en tabstat på baggrund af de observationer,

der er blevet brugt i den regression, der blev kørt sidst.

tab price if e(sample)==1

Det er også muligt at gemme regressionerne permanent i Stata, således at disse kan tilgås ved et senere

tidspunkt. Dette gøres ved kommandoen eststo2.

eststo, esttab

// Stores the following linear regressions

eststo reg1: reg price trunk

eststo reg2: reg price mpg

// returns the most important results from regression reg1 and reg2

esttab reg1 reg2

2.5 Smart tricks

Stata har nogle smarte kommandoer, der gør arbejdsprocesserne væsentligt nemmere. Disse kommandoer vil

blive gennemgået nærværende afsnit.

**quietly, capture, inrange, missing, _n, _N**

I situationer, hvor man f.eks. kun benytter en enkelt statistik fra summarize-kommandoen kan det være

fordelagtigt, at tilgå informationen, men undertrykke outputtet. Dette kan gøres ved kommandoen quietly.

Denne kommando gør, at Stata kører koden internt, hvilket gør, at man kan tilgå resultaterne. Resultaterne

bliver dog ikke outputtet. F.eks. kunne vi ønske os, at vide, hvor mange biler kører mere end 20 miles per

gallon. Dette er den eneste information vi er ude efter. Dette kan gøres ved nedenstående kode.

// summarize quietly

qui: sum price if mpg > 20

// display number of observations

disp r(N)

Kommandoen capture kan benyttes til at sikre at koden bliver kørt. Denne kommando skal man være forsigtig

med, da den kan ødelægge analysen, hvis kommandoen bliver misbrugt. Det kommandoen gør er, at den

undertrykker alt output, herunder fejlmeddelelser. Det vil sige, at hvis f.eks. en variabel ønskes genereret,

men denne allerede eksisterer, så vil Stata blot køre over denne linje kode.

gen j = 1

//supresses error

cap gen j = 2

Kommandoen inrange sikrer blot, at en given variabel ligger i det speciﬁcerede interval. Dette kan lette

læsningen af betingelser, og gør kodningen mere sikker.

The package estout has to be installed. To install estout write the following in Stata command terminal ssc install estout,

replace

// The following to lines of code do the same

sum price if trunk<=21 & trunk>=10

sum price if inrange(trunk,10,21)

I forbindelse med registerdata oplever man ofte, at der er missing values. Dette skal man huske at tage højde

for, da missing values opfører sig som uendelig store væredier. Dette vil sige, at hvis man f.eks. ønsker sig alle

personer, der ældre en 50 år, og der eksisterer personer med en missing values i alders variablen vil disse også

blive talt med. Kommandoen missing er en logisk kommando, hvilken angiver 1, hvis missing, og 0 ellers.

// summarize if mpg is missing

sum price if mi(mpg)

// summarize if mpg is not missing

sum price if !mi(mpg)

Udtrykket *_N* angiver det samlede antal observationer, og udtrykket [_n+1] angiver observation nummer

n+1. Dette kan vi f.eks. bruge i nedenstående stykke kode, hvor vi beholder den første observationer af hver

værdi af trunk.

// keep only the ﬁrst observations by trunk

bysort trunk: keep if _n == 1

2.6 Figurer

I dette afsnit vil der udelukkende blive gennemgået tre forskellige typer ﬁgurer, histograms, bar plots og

scatter plots. For mere avancerede ﬁgurer og formatteringen af ﬁgurerne anbefales det, at benyttes sig af det

vedlagte cheat sheet for data visualisering bagerst i nærværende dokument.

histograms

Histogrammer dannes blot ved nedenstående kode. Bin-option angiver antallet af søjler.

// histogram over price

hist price, bin(10)

barplot

Barplot er et søjlediagram. Dette er også forholdsvis enkelt at danne. Dette gøres normalt over grupperinger,

da outputter ellers blot bliver en enkelt søjle.

// barplot over price

graph bar (median) price, over(trunk)

scatter plot

Et scatter plot dannes ved twoway scatter-kommandoen. Først angives den afhængige variabel

og derefter den uafhængige variabel. Det vil sige, at ved nedenstående kode plotter vi price mod mpg.

// we plot price against miles per gallon

twoway scatter price mpg

Hvis vi benytter kommandoen describe, så kan vi se, at både price og mpg har tilknyttet labels. Havde dette

ikke været tilfældet, så ville akserne blot have de respektive variable som navne. Lad os illustrere dette med

et tilfælde. Vi danner en dummy for, hvorvidt trunk er større end 15. Vi benytter by kommandoen i twoway,

hvilket resulterer i to seperate grafer placeret ved siden af hinanden.

// dummy. Is trunk larger than 15

gen trunk_dummy = (trunk > 15)

// we plot price against miles per gallon by trunk_dummy

twoway scatter price mpg, by(trunk_dummy)

Hvis vi giver trunk_dummy en label, og dens værdier en label, så bliver grafen meget mere forståelig.

// variable label

label variable trunk_dummy "Turn cicle larger than 15"

// value label

label deﬁne label_trunk_dummy 0 "Turn cicle is not larger than 15 feet" 1 "Turn cicle is larger than 15

feet"

label values trunk_dummy label_trunk_dummy

// new plot

twoway scatter price mpg, by(trunk_dummy)

graph save, graph combine, graph export

Det er muligt at gemme grafer internt i Stata, således at disse kan tilgås på et senere tidspunkt. Dette gøres

ved at benytte graph save ligesom i nedenstående kode. Herved vil Stata vide, at dette navn henviser til

følgende graf. Replace-option tilføres for at overskrive eventuelle gemte grafer.

// the plot from before

twoway scatter price mpg, by(trunk_dummy)

// The plot is saved

graph save "plot1.gph", replace

// a histogram

hist price, bin(5)

// The plot is saved

graph save "plot2.gph", replace

Vi har nu gemt de to plots i Stata. Det er muligt at kombinere de to plots med graph combine, og ligeledes er

det muligt at eksportere grafer til en sti eller til den deﬁnerede sti. Begge dele er vist i nedenstående stykke

kode.

// We combine the two graphs

graph combine plot1.gph plot2.gph

// we export the graph to our speciﬁed directory

graph export Plot.pdf, replace

2.7 Locals, globals og loops

use auto8.dta, clear

local, global

Locals kan betragtes som en slags midlertidige variable, der slettes, når koden er kørt. Det er normalt at

locals indeholder skalarer og strenge, tekstykker. Vi kan f.eks. lade nedenstående local indeholde skalaren 1.

Locals og globals kan vises ved kommandoen display. For at Stata kan forstå, at der er tale om en local skal

denne omgives af ‘local’.

local tal = 1

disp `tal'

Vi kunne også have ladet ovenstående local indeholde en tekststring.

local string = "Dette er en local"

disp "`string'"

Globals bliver modsat locals ikke slettet, når et stykke kode er kørt, men slettes når programmet bliver

lukket. Globals kan indeholde mere information end locals, men de har nogenlunde samme funktion på nær,

at globals som sagt ikke bliver slettet. For at Stata kan forstå, at der er tale om en global skal denne omgives

af ${globalnavn}

global tal = 1

disp ${tal}

global string = "Dette er en global"

disp "${string}"

loops

Locals og globals er særdeles nyttige, når man bruger loops. Loops er meget nemme at lave i STATA, og der

ﬁndes mange forskellige slags. For at lave et simpelt loop, kan ‘forvalues’ bruges.

forvalues 'iterationsvariabel'=1/10 {

'kommando'

}

Hvor ‘iterationsvariabel’ er en local, der skiftevis er lig 1,2,3,4,5,6,7,8,9 og 10. Imellem de to ‘tuborgklammer’

{}, skrives den kommando man ønsker at udføre for hver iteration. Hvis jeg for eksempel gerne vil lave en

‘summarize’ af variablen ‘mpg’ (miles per gallon) for hver niveau af ‘rep78’ (Repair record 1978), der antager

værdierne 1-5, kan dette udføres ved at skrive:

forvalues rep=1/5 {

sum mpg if rep78==`rep'

}

Alternativt kan ‘rep=1/5’ skrives som ‘rep=1(1)5’, hvor ‘(1)’ angiver at rep skal stige med 1 for hver iteration.

Loops kan også laves med funktionen ‘foreach’. ‘foreach’ tillader blandt andet at bruge en strengvariabel,

som iterationsvariabel. For eksempel, hvis jeg ønsker at lave en ‘summarize’ for hver af variablene ‘trunk’,

‘mpg’, ‘length’ og ‘weight’. Her skrives:

foreach var in trunk mpg length weight {

sum `var'

}

En meget smart funktion som kan bruges i forbindelse med ‘foreach’ er ‘levelsof’. ‘levelsof’ tæller antallet

af unikke værdier i en given variabel, og gemmer denne information i en local. Dette gøres ved at skrive:

levelsof ‘variabel’ , local(‘localnavn’).

Derefter kan man bruge ‘foreach’ til at lave et loop for alle disse værdier ved at skrive:

forvalues 'iterationsvariabel'of local 'localnavn'{

'kommando'

}

Hvis man ønsker at lave ovenstående loop med ‘summarize’ af ‘mpg’ for hver niveau af ‘rep78’, kan der f.eks.

skrives:

l e v e l s o f r ep78 , l o c a l ( r e p n i v e a u e r )

f o r e a c h re p o f l o c a l r e p n i v e a u e r {

sum mpg i f rep78==`rep '

}

Globals kan bruges på samme vis som locals blev brugt i eksemplet foroven. Derudover ﬁndes der et hav af

forskellige muligheder med ‘foreach’. Tjek STATA’s hjælpeside for mere info.

2.8 Postﬁle

Postﬁle er meget brugbar når der skal laves ﬁgurer i STATA. Det giver mulighed for hurtigt at lave nogle

forholdsvis advancerede ﬁgurer, samt resultatdatasæt, hvis man skulle have behov det. Ideen er at gemme

resultater fra for eksempel regressioner i et nyt datasæt. Derefter åbnes dette datasæt og resultaterne kan

nemt tegnes som en ﬁgur.

Syntaksen er som følger:

postﬁle 'postﬁlenavn' 'var1'var2' 'var3'... using 'datasetnavn', replace

'kommando'

post 'postﬁlenavn'('input til var1') ('input til var2') ('input til var3') ...

postclose 'postﬁlenavn'

Her kunne jeg for eksempel være interesseret i at plotte OLS-koeﬃcienten og konﬁdensbånd fra en regression

af ‘mpg’ på ‘trunk’ - for hver niveau af ‘rep78’. I dette tilfælde ønsker jeg derfor at gemme ﬁre variable;

rep78-niveauet, koeﬃcienten, nedre konﬁdensbånd og øvre konﬁdensbånd. For at udføre selve estimationen

kan jeg bruge et loop. Koden ser ud som følger:

postﬁle fedﬁgur rep koef nedre oevre using "C:\Users\vzx151\Dropbox\Research Assistant\

IntroForskningsassistent\ﬁgurdata", replace

forvalues rep=1/5 {

reg mpg trunk if rep78==`rep'

post fedﬁgur (`rep') (_b[trunk]) (_b[trunk]−_se[trunk]∗1.96) (_b[trunk]+_se[trunk]∗1.96)

}

postclose fedﬁgur

For at tegne ﬁguren åbnes det nye datasæt

clear all

use "C:\Users\vzx151\Dropbox\Research Assistant\IntroForskningsassistent\ﬁgurdata", clear

twoway (line nedre oevre rep, lpattern(dash dash)) (line koef rep), ///

scheme(s2mono) graphregion(color(white)) title("Postﬁle ﬁgur") ///

legend(order(3 1) label(1 "Konﬁdensbaand") label(3 "Koeﬃcient: Milage paa trunk size")) xtitle("Repair

record 1978, hvad end det betyder") ytitle("Miles per gallon")

graph export fedpostﬁleﬁgur.pdf, replace

Hovedfordelen ved postﬁle er helt klart ﬂeksibiliteten. Derudover er det markant hurtigere, hvis man arbejder

med store datasæt. I så fald ville jeg benytte et STATA-program til at generere ﬁgurdataen og et til at tegne

ﬁgurerne, så data ikke skal indlæses på ny.

2.9 Esttab

Vi indlæseser data igen.

use auto8.dta, clear

Esttab er en nem og overskuelig måde at lave ﬂotte regressionstabeller i STATA. Ideen er at man gemmer

resultaterne af en række regressioner og derefter input’er dem i en tabel. Hvis jeg for eksempel ønsker at at

smide resultaterne af ovenstående regressioner af ‘mpg’ på ‘trunk’ for niveau af rep78 i en tabel, kan det

gøres på følgende måde:

eststo reg1: reg mpg trunk if rep78==1

eststo reg2: reg mpg trunk if rep78==2

eststo reg3: reg mpg trunk if rep78==3

eststo reg4: reg mpg trunk if rep78==4

eststo reg5: reg mpg trunk if rep78==5

Resultaterne gemmes som vist ved at skrive: eststo ‘regnavn’: ‘regressionskommando’. I dette tilfælde er det

oplagt at bruge et loop.

forvalues i=1/5 {

eststo reg`i': reg mpg trunk if rep78==`i'

}

Herefter omdannes regressionsoutputtet til en tabel ved at bruge esttab

esttab reg1 reg2 reg3 reg4 reg5 using "C:\Users\vzx151\Dropbox\Research Assistant\

IntroForskningsassistent\ﬂotesttabtabel1.rtf", replace ///

title("Awesome Esttab Tabel")

Hvis man ønsker at teste om trunk size har selvstændig betydning for milage kunne man for eksempel lave

følgende tabel:

eststo reg1: reg mpg trunk

eststo reg2: reg mpg trunk weight

eststo reg3: reg mpg trunk length

eststo reg4: reg mpg trunk weight length

esttab reg1 reg2 reg3 reg4 using "C:\Users\vzx151\Dropbox\Research Assistant\IntroForskningsassistent\

ﬂotesttabtabel2.rtf", replace ///

title("Awesome Esttab Tabel: Har bagagerumsstoerrelse betydning for hvor langt en bil koerer paa literen?

") label ///

scalars("r2 R−squared" "r2_a Adjusted R−squared" )

Estout muliggør også output i L

X. Ovenstående regressionsoutput ville i L

X-format blive dannet ved

nedenstående kode.

eststo reg1: reg mpg trunk

eststo reg2: reg mpg trunk weight

eststo reg3: reg mpg trunk length

eststo reg4: reg mpg trunk weight length

esttab reg1 reg2 reg3 reg4 using "C:\Users\vzx151\Dropbox\Research Assistant\IntroForskningsassistent\

ﬂotesttabtabel2.tex", replace ///

title("Awesome Esttab Tabel: Har bagagerumsstoerrelse betydning for hvor langt en bil koerer paa literen?

") label ///

scalars("r2 R−squared" "r2_a Adjusted R−squared" )

Dette danner følgende tabel

Det er utroligt nyttigt at kigge nærmere ind i denne pakke.

2.10 Frmtable

Frmttable er en til tider upraktisk, men utrolig ﬂeksibel måde at tabeller i STATA. Ideen er at gemme

resultater fra diverse funktioner i STATA i en matrix. Derefter konverterer frmttable denne til en ﬂot

regressionstabel. Fremgangsmåden er som følger. Først genereres en matrix med det ønskede antal rækker og

kolonner. Hvis man ønsker standardfejl eller andre under-resultater, er det en god ide at fordoble (tredoble,

hvis man har to under-resultater) antallet af kolonner, og lade være med at tælle disse med i antallet af rækker.

Ved at inputte disse resultater i kolonnen ved siden af hovedresultatet, kan man ved hjælp af ‘sub’-funktionen

Table 2: Awesome Esttab Tabel: Har bagagerumsstoerrelse betydning for hvor langt en bil koerer paa literen?

(1) (2) (3) (4)

Mileage (mpg) Mileage (mpg) Mileage (mpg) Mileage (mpg)

Trunk space (cu. ft.) -0.787∗∗∗ -0.0962 -0.00967 -0.0323

(-6.07) (-0.75) (-0.07) (-0.24)

Weight (lbs.) -0.00565∗∗∗ -0.00388∗

(-8.06) (-2.42)

Length (in.) -0.205∗∗∗ -0.0742

(-7.56) (-1.23)

Constant 32.12∗∗∗ 39.69∗∗∗ 60.04∗∗∗ 47.40∗∗∗

(17.20) (24.02) (15.20) (7.33)

Observations 74 74 74 74

R-squared 0.338 0.654 0.633 0.662

Adjusted R-squared 0.329 0.645 0.623 0.647

tstatistics in parentheses

∗p < 0.05,∗∗ p < 0.01,∗∗∗ p < 0.001

i frmttable få STATA til at smide standardfejlene under resultaterne og pakke dem ind i parenteser eller

andre ‘brackets’. Når man har kørt de regressioner, summary statistics osv. som man ønsker, og gemt de

resultater som man skal bruge, kan man benytte frmttable til at konstruere en ﬂot tabel med aksetitler, noter

og meget mere. For at illustrere fremgangsmåden, vil jeg nu genskabe ovenstående tabel.

Jeg skal bruge 7 rækker (for trunk, weight, length, konstantleddet, observationer, R-i-anden og justeret

R-i-anden) og 4*2=8 kolonner (da jeg gerne vil inkludere standardfejl). Resultatmatricen ‘X’ laves således:

Koden er lidt rodet i dette dokument. Det anbefales, at kigge i do-ﬁlen for dette eksempel.

mat X=J(7,8,.) /∗Laver en tom matrix med 7 raekker og 8 kolonner. ∗/

∗Herefter laver jeg hver af regressionerne og inputter resultaterne loebende i matricen∗

∗Reg 1 ∗

reg mpg trunk

mat X[1,1]=_b[trunk] // Smider regressionskoeﬃcienten for 'trunk'i cellen i raekke 1, kolonne 1.

mat X[1,2]=_se[trunk] // Smider standardfejlen for 'trunk'i cellen i raekke 1, kolonne 2.

mat X[4,1]=_b[_cons] // Smider regressionskoeﬃcienten for konstantleddet i cellen i raekke 4, kolonne 1.

mat X[4,2]=_se[_cons] // Smider standardfejlen for konstantleddet i cellen i raekke 4, kolonne 2.

mat X[5,1]=e(N) // Smider antal observationer i cellen i raekke 5, kolonne 1.

mat X[6,1]=e(r2) // Smider r−i−anden i cellen i raekke 6, kolonne 1.

mat X[7,1]=e(r2_a) // Smider justeret r−i−anden i cellen i raekke 7, kolonne 1.

∗Reg 2 ∗

reg mpg trunk weight

mat X[1,3]=_b[trunk] // Smider regressionskoeﬃcienten for 'trunk'i cellen i raekke 1, kolonne 3.

mat X[1,4]=_se[trunk] // Smider standardfejlen for 'trunk'i cellen i raekke 1, kolonne 4.

mat X[2,3]=_b[weight] // Smider regressionskoeﬃcienten for 'weight'i cellen i raekke 2, kolonne 3.

mat X[2,4]=_se[weight] // Smider standardfejlen for 'weight'i cellen i raekke 2, kolonne 4.

mat X[4,3]=_b[_cons] // Smider regressionskoeﬃcienten for konstantleddet i cellen i raekke 4, kolonne 3.

mat X[4,4]=_se[_cons] // Smider standardfejlen for konstantleddet i cellen i raekke 4, kolonne 4.

mat X[5,3]=e(N) // Smider antal observationer i cellen i raekke 5, kolonne 3.

mat X[6,3]=e(r2) // Smider r−i−anden i cellen i raekke 6, kolonne 3.

mat X[7,3]=e(r2_a) // Smider justeret r−i−anden i cellen i raekke 7, kolonne 3.

∗Reg 3 ∗

reg mpg trunk length

mat X[1,5]=_b[trunk] // Smider regressionskoeﬃcienten for 'trunk'i cellen i raekke 1, kolonne 5.

mat X[1,6]=_se[trunk] // Smider standardfejlen for 'trunk'i cellen i raekke 1, kolonne 6.

mat X[3,5]=_b[length] // Smider regressionskoeﬃcienten for 'length'i cellen i raekke 3, kolonne 5.

mat X[3,6]=_se[length] // Smider standardfejlen for 'length'i cellen i raekke 3, kolonne 6.

mat X[4,5]=_b[_cons] // Smider regressionskoeﬃcienten for konstantleddet i cellen i raee 4, kolonne 5.

mat X[4,6]=_se[_cons] // Smider standardfejlen for konstantleddet i cellen i raekke 4, kolonne 6.

mat X[5,5]=e(N) // Smider antal observationer i cellen i raekke 5, kolonne 5.

mat X[6,5]=e(r2) // Smider r−i−anden i cellen i raekke 6, kolonne 5.

mat X[7,5]=e(r2_a) // Smider justeret r−i−anden i cellen i raekke 7, kolonne 5.

∗Reg 4 ∗

reg mpg trunk weight length

mat X[1,7]=_b[trunk] // Smider regressionskoeﬃcienten for 'trunk'i cellen i raekke 1, kolonne 7.

mat X[1,8]=_se[trunk] // Smider standardfejlen for 'trunk'i cellen i raekke 1, kolonne 8.

mat X[2,7]=_b[weight] // Smider regressionskoeﬃcienten for 'weight'i cellen i raekke 2, kolonne 7.

mat X[2,8]=_se[weight] // Smider standardfejlen for 'weight'i cellen i raekke 2, kolonne 8.

mat X[3,7]=_b[length] // Smider regressionskoeﬃcienten for 'length'i cellen i raekke 3, kolonne 7.

mat X[3,8]=_se[length] // Smider standardfejlen for 'length'i cellen i raekke 3, kolonne 8.

mat X[4,7]=_b[_cons] // Smider regressionskoeﬃcienten for konstantleddet i cellen i raekke 4, kolonne 7.

mat X[4,8]=_se[_cons] // Smider standardfejlen for konstantleddet i cellen i raekke 4, kolonne 8.

mat X[5,7]=e(N) // Smider antal observationer i cellen i raekke 5, kolonne 7.

mat X[6,7]=e(r2) // Smider r−i−anden i cellen i raekke 6, kolonne 7.

mat X[7,7]=e(r2_a) // Smider justeret r−i−anden i cellen i rae 7, kolonne 7.

∗Tabel ∗

frmttable using "C:\Users\vzx151\Dropbox\Research Assistant\IntroForskningsassistent\ﬂotesttabtabel1.

rtf", replace ///

title("Awesome Frmttable Tabel: Har bagagerumsstoerrelse betydning for hvor langt en bil koerer paa

literen?") ///

/∗Vigtige options ∗/ ///

/∗1∗/ statmat(X) /// /∗Siger hvilken matrix resultaterne skal komme fra. ∗/

/∗2∗/ sub(1) /// /∗Angiver antallet af underresultater −her 1 fordi jeg oensker standardfejl. ∗/

/∗3∗/ ctitle("", "(1)", "(2)", "(3)" , "(4)" \ "", "Milage(mpg)", "Milage(mpg)", "Milage(mpg)", "Milage(mpg)

") /// /∗Speciﬁcerer kolonnetitler, bemaerk at det er muligt at lave ﬂere linjer/raekker med tekst ved

brug af '\'.∗/

/∗4∗/ rtitle("Trunk space (cu ft.)" \ " " \ "Weight (lbs.)" \ " " \ "Length (in.)" \ " " \ "Constant" \ " " \ "

Observations" \ "" \ "R−squared" \ "" \ "Adjusted R−Squared" \ "" ) /// /∗Speciﬁcerer raekketitler

∗/

/∗6∗/ sdec(5 \ 5 \ 5 \ 5 \ 5 \ 5 \ 5 \ 5 \ 0 \ 2 \ 2) /// /∗Speciﬁcerer antal decimaler −kan speciﬁceres

for hver enkel celle ved at bruge ','som kolonne−adskiller og '\'som raekke−adskiller." ∗/

/∗7∗/ hlines( 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1) /∗Speciﬁcerer hvor der skal vaere horisontale linjer.

Default er bund og top. Der ﬁndes en tilsvarende funktion til vertikale linjer kaldet 'vlines'.∗/

Givet de mange linjer kode og de besværlige options er det selvfølgelig fuldstændig tåbeligt at bruge frmttable

til denne tabel. Den kan som vist laves noget nemmere i Esttab. Der er dog tabeller, der ikke kan laves

i Esttab, hvor kendskab til frmttable derfor er en nødvendighed. En sådan tabel er præsenteret nedenfor.

Denne viser summary statistics for en række variable for hver niveau af rep78. Her kan der også bruges loops,

hvilket gør arbejdet med matricen nemmere.

global varliste "mpg trunk weight length price" /∗Vaelg variable ∗/

mat Y=J(5,20,.) /∗Jeg oensker at lave en tabel med 5 raekker og 5 kolonner, men med tre under−

resultater −standard afvigelsen, minimum og maksimum. ∗/

local i=1 /∗Angiver raekkenummer, startende paa 1. ∗/

foreach var of global varliste {

local j=1 /∗Angiver kolonnenummer, startende paa 1. ∗/

forvalues rep=1/5 {

sum `var'if rep78==`rep'

mat Y[`i',`j']=r(mean)

mat Y[`i',`j'+1]=r(sd)

mat Y[`i',`j'+2]=r(min)

mat Y[`i',`j'+3]=r(max)

local j=`j'+4 /∗Spring ﬁre kolonner over i naeste iteration ∗/

}

local i= `i'+1 /∗Gaa til naeste raekke i naeste iteration ∗/

}

frmttable using "C:\Users\okoBS\Documents\Intro Forskningsassistenter\ﬂotfrmttableTabel2_ny.rtf",

replace ///

title("Table: Summary statistics") statmat(Y) sub(3) brackets("" \ (,) \ [,] \ [,]) nocenter a4 ///

coljust(l c) addfont(Times New Roman) basefont(fnew1 fs12) statfont(fs12) sdec(2 \ 2 \ 2 \ 2 \ 2 \ 2 \ 2 \

2\0\0\0\0\2\2\2\2\0\0\0\0)///

ctitle("", "Repair Record 1978" "" "" "" "" \ "", "1", "2", "3" , "4" , "5") multicol(1,2,5) ///

rtitle("Milage(mpg)" \ " " \ " " \ " " \ "Trunk space (cu ft.)" \ " " \ " " \ " " \ "Weight (lbs.)" \ " " \ " " \ "

" \ "Length (in.)" \ " " \ " " \ " " \ "Price" \ " " \ " " \ " " ) ///

2.11 Programmering

Det kan være super smart at lave sine egne funktioner i STATA. Især hvis man skal udføre den samme

kommando mange gange. Som med så mange andre ting i STATA, er der rigtig mange muligheder. Jeg viser

kun hvad jeg ved om programmering i STATA.

Først og fremmest er det smart at sikre, at der ikke allerede er deﬁneret et program med det navn ønsker

at kalde sit. Det kan gøre ved simpelthen at skrive navnet i browseren og se om STATA kan genkende

det. Man starter deﬁnitionen af et program ved at skrive: program ‘programnavn’. For deﬁnere et program

skal man vælge syntaxen af det man ønsker at inputte. Hvis det f.eks. er en variabelliste skrives: syntax

varlist. Herunder kan der speciﬁceres hvor mange variable der højest må angives ved at skrive: syntax

varlist(max=‘maxtal’).

Herefter kan der skrives: [if]. på denne måde understøtter dit program STATA’s ‘if’-funktion. Når der skrives

‘if’ gemmes en local med betingelsen, hvor denne afhænger af hvad brugeren skriver. Alle kommando’er indeni

programmet skal derfor slutte med ‘if’.

Hvis også ønsker at deﬁnere en række options for programmet kan dette gøres ved at skrive [, ‘option-

navn1’(‘option1’) ‘optionnavn2’(‘option2’) ]. ‘option’ er et tal, navn eller en variabel som brugeren skriver.

Resultatet heraf gemmes i en local ‘optionnavn’, som man kan referere til i programmet. I programmet skrives

om ‘option’ er et navn (name), et tal (numlist(max=‘maxnum’)) eller en variabel (varlist(max=‘maxnum’))

Nedenfor gives et simpelt eksempel:

Programmet laver for hver angivet variabel, en variabel indeholdende gennemsnittet.

cap program drop ben1

program ben1

syntax varlist(max=20) [if] [, preﬁx(name) replace] /∗Deﬁnerer syntax. Tillad tyve inputvariable, tillad at

brugeren selv kan deﬁnere navnet og tillad at erstatte eksisterende variable med samme navn. ∗/

foreach var of local varlist {

qui sum `var' `if'/∗Lav 'summarize'for hver variabel i variabellisten ∗/

if "`preﬁx'" =="" { /∗Lav default navn, hvis 'preﬁx'ikke er speciﬁceret ∗/

local preﬁx "mean"

di as txt "Default preﬁx 'mean'chosen."

}

if "`replace'" !="" {

cap drop `preﬁx'`var'/∗Drop den eksisterende variabel, hvis der er skrevet 'replace'som option. ∗/

}

qui gen `preﬁx'`var'=r(mean) `if'/∗Gem resultat i nyvariabel ∗/

la var `preﬁx'`var'"Mean of `:variable label `var''" /∗Giv ny variabel label'en 'Mean of 'variablens label''

∗/

}

end

Benyt programmet

ben1 price mpg trunk weight length, replace

Normalt ville jeg gemme koden, der deﬁnerer programmet i en særskilt do-ﬁl, så jeg kan køre denne i

programmet, men et simpelt kodestykke. For eksempel har jeg et program kaldet program1, som jeg ofte

bruger. Når jeg starter STATA skriver jeg derfor altid følgende:

qui do "C:\Users\vzx151\Dropbox\Research Assistant\IntroForskningsassistent\program.do"

program1 price mpg trunk weight length, replace

2.12 Dato, tid og formattering

2.12.1 Dato og tid

En ting man lige så godt kan venne sig til, er at statistikprogrammer generelt er utrolig uﬂeksible, når det

kommer til datoer. Generelt, så er kommandoen describe ens ven, når man har med datoer at gøre. Her er

det muligt, at se hvilket datoformat en variable er kodet. Dette gøre behandlingen lidt nemmere. Der er 8

datoformater i Stata.

stata almindelig stata format

datetime/c millisekunder siden 01jan1960 00:00:00:000 %tc

dato dage siden 01jan1960 (01jan1960=0) %td

uge uger siden 1960w1 %tw

måned måneder siden 1960m1 %tm

kvartal kvartaler siden 1960q1 %tq

halvår halvår siden 1960h1 %th

år pr siden 0000 %ty

Fordi Stata betragter datoer som numeriske, så bliver man også nødt til at betragte dem som numeriske.

Imidlertid, så kan det være svært at holde styr på, hvor mange dage er det siden, at det var 25. november

1972. For at løse dette problem er der følgende funktioner.

stata funktion stata format

datetime/c tc = ndyhms(M,D,Y,h,m,s) %tc

datetime/c tc = dhms(td, h,m,s) %tc

datetime/c tc = hms(h,m,s) %tc

dato td = mdy(M,D,Y) %td

uge tw = yw(Y,W) %tw

måned tm = ym(Y,M) %tm

kvartal tq = yq(Y,Q) %tq

halvår th = yh(Y,H) %th

Endeligt er der også følgende måde, at konvertere datoer på. Det er utroligt vigtigt, at dette bliver gjort

rigtigt. Hvis ikke dette gøres rigtigt, så får man helt forkerte datoer. F.eks. hvis man benytter en funktion der

konverterer datoer om til måneder, men variablen er kodet som måneder, så bliver det selvsagt helt forkert.

From datetime date

datetime/c td = dofc(tc)

date tc = cofd(td)

week td = dofw(tw)

month td = dofm(tm)

quarter td = dofq(tq)

half-year td = dofh(th)

year td = dofy(ty)

From week month quarter

date tw = wofd(td) tm = mofd(td) tq = qofd(td)

From half-year year

date th = hofd(td) ty = yofd(td)

Endeligt er det nyttigt

at kende til, hvordan man udtrækker år, måned og dag fra en datovariabel (dvs. et

format hvor man har år, måned og dato). Her ﬁndes følgende kommandoer, som er nyttige at kende til

Komponent function eksempel

år year(td) 2013

måned month(td) 5

Det er naturligvis også nyttigt at kunne danne datoer fra stringe, men dette bliver ikke gennemgået i denne note, da alle

Komponent function eksempel

dag day(td) 37

dage i året doy(td) 187

uger i året weel(td) 43

kvartaler i året quarter(td) 3

halfår i året halfyear(td) 2

2.12.2 Formattering

For at formattere en variabel i Stata er det første man skal vide, hvilken type variabel man har at gøre med.

I stata ﬁndes der 6 typer af variable. De 5 af typerne er til at håndtere tal med, og den sidste type er til at

håndtere strenge(tekstvariable). Det eneste man bør vide er, at byte,int og long kun kan opbevare heltal,

hvorimod ﬂoat og double kan opbevare decimaltal ligeledes. Strenge opbevares i den type variabel der kaldes

str“længde”. Det vil sige, at variabel der indeholder udtrykket “jeg” som den længste string vil have formatet

str3, og en variabel der har “hvis” som længste string vil have variabeltypen str4 osv. Stata kan håndtere

string-observationer op til ufatteligt mange tegn. Det vil sige op til et par milliarder. Stata kalder dog stringe

på mere end 2045 tegn strL

I stata formatteres variable ved at angive variabel navn, og hvilken formattering der ønskes. Det er ligemeget,

hvilken rækkefølge format og variabel kommer i koden. Nedenstående er altså evaluerer altså det samme.

format varlist %fmt

format %fmt varlist

Standard indstillingerne i Stata er som følger

variabel-type format

byte %8.0g

int %8.0g

long %12.0g

ﬂoat %9.0g

double %10.0g

str# %#s

strL %9s

De vigtigste formater er følgende

numerisk

variabel-type format

%#.#g generel

%#.#f ﬁxed

%#.#gc generel, med komma

%#.#fc ﬁxed med komma

double %10.0g

str# %#s

variabel-type format

strL %9s

strenge

variabel-type format

%#s højrejusteret

%-#s center

%~#s venstrejusteret

2.13 Merge

Selvom, at Stata ikke er særligt godt at forberede datasæt i, så kan det være nødvendigt, at kunne udføre

simple merging-procedurer i Stata. Der er grundlæggende ﬁre typer af merging i Stata, men det er kun de tre

af dem, som er brugbare i forbindelse med registerdata. Grundlæggende er merging, at man samler to datasæt

på baggrund af en identiﬁkationsvariabel der er unik, eller en kombination af variable. Dette medfører, at vi

er sikre på, at det er de rigtige observationer, der bliver sat sammen. F.eks. i en situation, hvor vi har to

datasæt på årsniveau, så vil PNR alene ikke være nok til at kunne identiﬁcere de rigtige observationer. Det

vil dog være muligt, at merge de to datasæt sammen, hvis vi både har PNR og år (der må altså kun være en

observation pr pnr pr år). I stata merger man 1:1 på følgende måde.

Til følgende eksempel danner jeg to relevante datasæt. Til at begynde med, så danner vi et identiﬁkationsnum-

mer til hver observation, hvilket vi skal bruge til at merge. Det vil sige, at vi har to forskellige datasæt, hvor

identiﬁkationsnummeret er unikt for hver observation. Altså, det er udelukkende den respektive observation,

der har dette identiﬁkationsnummer.

use auto8.dta, clear

gen iden = [_n]

keep make price mpg rep78 iden

save merge1.dta, replace

use auto8.dta, clear

gen iden = [_n]

drop make price mpg rep78

save merge2.dta, replace

Efter vi har forberedt datasættet, så vil vi gerne danne datasættet auto8.dta. Dette kan vi gøre ved følgende

kode. Vi merger datasæt merge2 på datasættet vi har loaded merge1 på baggrund af variablen iden.

use merge1.dta, clear

merge 1:1 iden using merge2.dta

Udover 1:1 merge ﬁndes der også 1:m og m:1 merge. m:1 merge vil vi gennemgå til at begynde med. Her vil

identiﬁkationsvariablen unikt identiﬁcere observationer i using-datasættet. Det vil sige, at det er det datasæt

der IKKE er loaded. Det vil sige, at for hver observation, i master-datasættet (altså det datasæt vi har

Figure 1: 1:1 merge

loaded) vil der blive merget oplysninger fra den unikke observation i using-datasættet. Et godt eksempel på,

hvornår dette bliver brugt er f.eks. hvis vi ønsker at merge noget regionalt data på individ observationer.

Figure 2: m:1 merge

Figure 3: 1:m merge

1:m er det modsatte. Det vil sige, at i master-datasættet vil der være en unik observation, som bliver merget

på hver observation i using datasættet, når der er et match.

Version June 28, 2016

Simon Halphen Boserup

How to move the location of Stata temporary data ﬁles

At startup, Stata creates a temporary ﬁle on the hard drive, which it uses for some of its procedures,

e.g., merging datasets. This may ﬁll up the C-drive, the default location of the temporary ﬁle. To

avoid this, you have to tell Stata to place it somewhere more suitable. This guide instructs you

how to do this.

•Open Explorer and navigate to X:\StataWork (CAM1 doesn’t have an X-drive, use F: here

instead)

•Create a subfolder using you DST ident and 4-digit project number, e.g., YYXX9999

•In that folder, right-click and create a new text document – rename it (and thereby change

ﬁle type) to runstata.bat

•Right-click the ﬁle and choose ‘Edit’

•The content of the ﬁle should be the following lines

set STATATMP="X:\StataWork\YYXX999"

cd "X:\StataWork\YYXX999"

"C:\Program Files (x86)\Stata14\StataMP-64.exe"

•Save the ﬁle and exit the editor

•Double-click the bat-ﬁle. Stata 14 should open. To check that your hard labor panned out,

do the following two checks

1. In Stata’s command line, type ‘‘pwd’’. You should get an answer saying that the new

folder on the X-drive is your present working directory

2. Also in Stata’s command line, ﬁrst execute the line ‘‘tempfile f’’, and then the line

‘‘di "‘f’"’’. Again, you should see the new folder on the X-drive as a result.

You have now succeeded in moving the location of the temp ﬁle. Each time you run Stata, you

should do it by clicking the runstata.bat ﬁle. To make it easier on you, do the following.

•Right-click and drag runstata.bat to the start menu in the lower left corner of your screen

and release.

•Open the start menu – you should see a shortcut to the runstata.bat ﬁle at the top of the

list somewhere.

NOTE! If you want to open an existing do-ﬁle, you’ll need to click runstata.bat ﬁrst and

open that ﬁle via the do-ﬁle editor. If you just click the do-ﬁle directly in Explorer/Stiﬁnder, you’ll

open Stata with a temporary ﬁle on the C-drive.

frequently used

commands are

highlighted in yellow

use "yourStataFile.dta", clear

load a dataset from the current directory

import delimited"yourFile.csv", /*

*/ rowrange(2:11) colrange(1:8) varnames(2)

import a .csv file

webuse set "https://github.com/GeoCenter/StataTraining/raw/master/Day2/Data"

webuse "wb_indicators_long"

set web-based directory and load data from the web

import excel "yourSpreadsheet.xlsx", /*

*/ sheet("Sheet1") cellrange(A2:H11) firstrow

import an Excel spreadsheet

Import Data

sysuse auto, clear

load system data (Auto data) for many examples, we

use the auto dataset.

display price[4]

display the 4th observation in price; only works on single values

levelsof rep78

display the unique values for rep78

Explore Data

duplicates report

finds all duplicate values in each variable

describe make price

display variable type, format,

and any value/variable labels

ds, has(type string)

lookfor "in."

search for variable types,

variable name, or variable label

isid mpg

check if mpg uniquely

identifies the data plot a histogram of the

distribution of a variable

count if price > 5000

count

number of rows (observations)

Can be combined with logic



inspect mpg

show histogram of data,

number of missing or zero

observations

summarize make price mpg

print summary statistics

(mean, stdev, min, max)

for variables

codebook make price

overview of variable type, stats,

number of missing/unique values





gsort price mpg gsort –price –mpg

sort in order, first by price then miles per gallon

(descending)(ascending)

list make price if price > 10000 & !missing(price) clist ...

list the make and price for observations with price > $10,000

(compact form)

open the data editor

browse Ctrl 8+

or Missing values are treated as the largest

positive number. To exclude missing

values, use the !missing(varname) syntax

histogram mpg, frequency

assert price!=.

verify truth of claim

Summarize Data

bysort rep78: tabulate foreign

for each value of rep78, apply the command tabulate foreign

collapse (mean) price (max) mpg, by(foreign)

calculate mean price & max mpg by car type (foreign)

replaces data

tabstat price weight mpg, by(foreign) stat(mean sd n)

create compact table of summary statistics

table foreign, contents(mean price sd price) f(%9.2fc) row

create a flexible table of summary statistics

displays stats

for all data

formats numbers

tabulate rep78, mi gen(repairRecord)

one-way table: number of rows with each value of rep78

create binary variable for every rep78

value in a new variable, repairRecord

include missing values

tabulate rep78 foreign, mi

two-way table: cross-tabulate number of observations

for each combination of rep78 and foreign

Create New Variables

see help egen

for more options

egen meanPrice = mean(price), by(foreign)

calculate mean price for each group in foreign

pctile mpgQuartile = mpg, nq = 4

create quartiles of the mpg data

generate totRows = _N bysort rep78: gen repairTot = _N

_N creates a running count of the total observations per group

bysort rep78: gen repairIdx = _ngenerate id = _n

_n creates a running index of observations in a group

generate mpgSq = mpg^2 gen byte lowPr = price < 4000

create a new variable. Useful also for creating binary

variables based on a condition (generate byte)

Change Data Types

destring foreignString, gen(foreignNumeric)

gen foreignNumeric = real(foreignString)

1encode foreignString, gen(foreignNumeric)"foreign"

"1"

Stata has 6 data types, and data can also be missing:

byte

true/false

int long float double

numbers

string

words

missing

no data

To convert between numbers & strings:

1decode foreign , gen(foreignString)

tostring foreign, gen(foreignString)

gen foreignString = string(foreign)

"foreign"

"1"

recast double mpg

generic way to convert between types

if foreign != 1 & price >= 10000

make

Chevy Colt

Buick Riviera

Honda Civic

Volvo 260 1 11,995

1 4,499

0 10,372

0 3,984

foreign price

Arithmetic Logic

+add (numbers)

combine (strings)

−subtract

*multiply

/divide

^raise to a power

not

!or ~

and

Basic Data Operations

if foreign != 1 | price >= 10000

make

Chevy Colt

Buick Riviera

Honda Civic

Volvo 260 1 11,995

1 4,499

0 10,372

0 3,984

foreign price

>greater than

>= greater or equal to

<= less than or equal to

<less than

equal

== tests if something is equal

= assigns a value to a variable

not

equal

Basic Syntax

All Stata functions have the same format (syntax):

bysort rep78 : summarize price if foreign == 0 & price <= 9000, detail

[byvarlist1:] command [varlist2] [=exp] [ifexp] [inrange] [weight] [usingfilename] [,options]

function: what are

you going to do

to varlists?

condition: only

apply the function

if something is true

apply to

specific rows apply

weights

save output as

a new variable pull data from a file

(if not loaded) special options

for command

apply the

command across

each unique

combination of

variables in

varlist1

column to

apply

command to

In this example, we want a detailed summary

with stats like kurtosis, plus mean and median

To find out more about any command – like what options it takes – type helpcommand

pwd

print current (working) directory

cd "C:\Program Files (x86)\Stata13"

change working directory

dir

display filenames in working directory

fs *.dta

List all Stata data in working directory

capture log close

close the log on any existing do files

log using "myDoFile.txt", replace

create a new log file to record your work and results

Set up

search mdesc

find the package mdesc to install

ssc install mdesc

install the package mdesc; needs to be done once

packages contain

extra commands that

expand Stata’s toolkit

underlined parts

are shortcuts –

use "capture"

or "cap"

Ctrl D+

highlight text in .do file,

then ctrl + d executes it

in the command line

clear

delete data in memory

Useful Shortcuts

Ctrl 8

open the data editor

describe data

cls clear the console (where results are displayed)

PgUp PgDn scroll through previous commands

Tab autocompletes variable name after typing part



Ctrl 9

open a new .do file

keyboard buttons

Data Processing

Cheat Sheetwith Stata 14.1

For more info see Stata’s reference manual (stata.com)

Tim Essam (tessam@usaid.gov) • Laura Hughes (lhughes@usaid.gov)

inspired by RStudio’s awesome Cheat Sheets (rstudio.com/resources/cheatsheets) updated January 2016

CC BY 4.0

geocenter.github.io/StataTraining

Disclaimer: we are not affiliated with Stata. But we like it.

export delimited "myData.csv", delimiter(",") replace

export data as a comma-delimited file (.csv)

export excel "myData.xls", /*

*/ firstrow(variables) replace

export data as an Excel file (.xls) with the

variable names as the first row

Save & Export Data

save "myData.dta", replace

saveold "myData.dta", replace version(12)

save data in Stata format, replacing the data if

a file with same name exists

Stata 12-compatible file

compress

compress data in memory

Manipulate Strings

display trim(" leading / trailing spaces ")

remove extra spaces before and after a string

display regexr("My string", "My", "Your")

replace string1 ("My") with string2 ("Your")

display stritrim(" Too much Space")

replace consecutive spaces with a single space

display strtoname("1Var name")

convert string to Stata-compatible variable name



display strlower("STATA should not be ALL-CAPS")

change string case; see also strupper, strproper

display strmatch("123.89", "1??.?9")

return true (1) or false (0) if string matches pattern

list make if regexm(make, "[0-9]")

list observations where make matches the regular

expression (here, records that contain a number)





list if regexm(make, "(Cad.|Chev.|Datsun)")

return all observations where make contains

"Cad.", "Chev." or "Datsun"

list if inlist(word(make, 1), "Cad.", "Chev.", "Datsun")

return all observations where the first word of the

make variable contains the listed words

compare the given list against the first word in make

charlist make

display the set of unique characters within a string

* user-defined package

replace make = subinstr(make, "Cad.", "Cadillac", 1)

replace first occurrence of "Cad." with Cadillac

in the make variable

display length("This string has 29 characters")

return the length of the string

display substr("Stata", 3, 5)

return the string located between characters 3-5

display strpos("Stata", "a")

return the position in Stata where a is first found

display real("100")

convert string to a numeric or missing value

_merge code

row only

in ind2

row only

in hh2

row in

both

(master)

(using)

(match)

Combine Data







merge 1:1 id using "ind_age.dta"

one-to-one merge of "ind_age.dta"

into the loaded dataset and create

variable "_merge" to track the origin

webuse ind_age.dta, clear

save ind_age.dta, replace

webuse ind_ag.dta, clear

merge m:1 hid using "hh2.dta"

many-to-one merge of "hh2.dta"

into the loaded dataset and create

variable "_merge" to track the origin

webuse hh2.dta, clear

save hh2.dta, replace

webuse ind2.dta, clear

append using "coffeeMaize2.dta", gen(filenum)

add observations from "coffeeMaize2.dta" to

current data and create variable "filenum" to

track the origin of each observation

webuse coffeeMaize2.dta, clear

save coffeeMaize2.dta, replace

webuse coffeeMaize.dta, clear load demo data

id blue pink

should

contain

the same

variables

(columns)

MANY-TO-ONE

id blue pink id brown blue pink brown _merge

. .

ONE-TO-ONE

id blue pink id brown blue pink brownid _merge

must contain a

common variable

(id)

match records from different data sets using probabilistic matching

reclink

create distance measure for similarity between two strings

ssc install reclink

ssc install jarowinkler

jarowinkler

Reshape Data

webuse set https://github.com/GeoCenter/StataTraining/raw/master/Day2/Data

webuse "coffeeMaize.dta" load demo dataset

xpose, clear varname

transpose rows and columns of data, clearing the data and saving

old column names as a new variable called "_varname"



reshape long coffee@ maize@, i(country) j(year)

convert a wide dataset to long

reshape variables starting

with coffee and maize unique id

variable (key) create new variable which captures

the info in the column names



reshape wide coffee maize, i(country) j(year)

convert a long dataset to wide

create new variables named

coffee2011, maize2012...

what will be

unique id

variable (key)

create new variables

with the year added

to the column name

When datasets are

tidy, they have a

consistent,

standard format

that is easier to

manipulate and

analyze.

country coffee

2011



2012

maize

2011

maize

2012

Malawi

Rwanda

Uganda cast

melt

Rwanda

Uganda

Malawi

Rwanda

Uganda 2012

2011

2012

2011

2012

year coffee maizecountry

WIDE LONG (TIDY)TIDY DATASETS have

each observation

in its own row and

each variable in its

own column.

new variable

Label Data

label list

list all labels within the dataset

label define myLabel 0 "US" 1 "Not US"

label values foreign myLabel

define a label and apply it the values in foreign

Value labels map string descriptions to numbers. They allow the

underlying data to be numeric (making logical tests simpler)

while also connecting the values to human-understandable text.

note: data note here

place note in dataset

Replace Parts of Data

rename (rep78 foreign) (repairRecord carType)

rename one or multiple variables



recode price (0 / 5000 = 5000)

change all prices less than 5000 to be $5,000

recode foreign (0 = 2 "US")(1 = 1 "Not US"), gen(foreign2)

change the values and value labels then store in a new

variable, foreign2



useful for exporting data

mvencode _all, mv(9999)

replace missing values with the number 9999 for all variables

mvdecode _all, mv(9999)

replace the number 9999 with missing value in all variables

useful for cleaning survey datasets



replace price = 5000 if price < 5000

replace all values of price that are less than $5,000 with 5000

Select Parts of Data (Subsetting)



drop in 1/4 drop if mpg < 20

drop observations based on a condition (left)

or rows 1-4 (right)

keep in 1/30

opposite of drop; keep only rows 1-30

keep if inlist(make, "Honda Accord", "Honda Civic", "Subaru")

keep the specified values of make

keep if inrange(price, 5000, 10000)

keep values of price between $5,000 – $10,000 (inclusive)

sample 25

sample 25% of the observations in the dataset

(use set seed # command for reproducible sampling)



drop make

remove the 'make' variable

keep make price

opposite of drop; keep only variables 'make' and 'price'

Data Transformation

Cheat Sheetwith Stata 14.1

For more info see Stata’s reference manual (stata.com)

Tim Essam (tessam@usaid.gov) • Laura Hughes (lhughes@usaid.gov)

inspired by RStudio’s awesome Cheat Sheets (rstudio.com/resources/cheatsheets) updated March 2016

CC BY 4.0

geocenter.github.io/StataTraining

Disclaimer: we are not affiliated with Stata. But we like it.

Data Visualization

Cheat Sheetwith Stata 14.1

For more info see Stata’s reference manual (stata.com)

Laura Hughes (lhughes@usaid.gov) • Tim Essam (tessam@usaid.gov)

inspired by RStudio’s awesome Cheat Sheets (rstudio.com/resources/cheatsheets) updated February 2016

CC BY 4.0

geocenter.github.io/StataTraining

Disclaimer: we are not affiliated with Stata. But we like it.

graph <plot type> y1 y2 … yn x [in] [if], <plot options> by(var) xline(xint) yline(yint) text(y x "annotation")



plot size

custom appearance

save

variables: y first plot-specific options facet annotations

titles axes

title("title") subtitle("subtitle") xtitle("x-axis title") ytitle("y axis title") xscale(range(low high) log reverse off noline) yscale(<options>)

<marker, line, text, axis, legend, background options> scheme(s1mono) play(customTheme) xsize(5) ysize(4) saving("myPlot.gph", replace)





(asis) • (percent) • (count) • over(<variable>, <options: gap(*#) •

relabel • descending • reverse>) • cw •missing • nofill • allcategories •

percentages • stack • bargap(#) • intensity(*#) • yalternate • xalternate

graph hbar draws horizontal bar charts

bar plot

graph bar (count), over(foreign, gap(*0.5)) intensity(*0.5)

bin(#) • width(#) • density • fraction • frequency • percent • addlabels

addlabopts(<options>) • normal • normopts(<options>) • kdensity

kdenopts(<options>)

histogram

histogram mpg, width(5) freq kdensity kdenopts(bwidth(5))

main plot-specific options;

see help for complete set

bwidth • kernel(<options>

normal • normopts(<line options>)

smoothed histogram

kdensity mpg, bwidth(3)

(asis) • (percent) • (count) • (stat: mean median sum min max ...)

over(<variable>, <options: gap(*#) • relabel • descending • reverse

sort(<variable>)>) • cw •missing • nofill • allcategories • percentages

linegap(#) • marker(#, <options>) • linetype(dot | line | rectangle)

dots(<options>) • lines(<options>) • rectangles(<options>) • rwidth

dot plot

graph dot (mean) length headroom, over(foreign) m(1, ms(S))

ssc install vioplot

over(<variable>, <options: total • missing>)>) • nofill •

vertical • horizontal • obs • kernel(<options>) • bwidth(#) •

barwidth(#) • dscale(#) • ygap(#) • ogap(#) • density(<options>)

bar(<options>) • median(<options>) • obsopts(<options>)

violin plot

vioplot price, over(foreign)

over(<variable>, <options: total • gap(*#) • relabel • descending • reverse

sort(<variable>)>) • missing • allcategories • intensity(*#) • boxgap(#)

medtype(line | line | marker) • medline(<options>) • medmarker(<options>)

graph box draws vertical boxplots

box plot

graph hbox mpg, over(rep78, descending) by(foreign) missing

graph hbar ...

bar plot

graph bar (median) price, over(foreign)

(asis) • (percent) • (count) • (stat: mean median sum min max ...)

over(<variable>, <options: gap(*#) • relabel • descending • reverse

sort(<variable>)>) • cw • missing • nofill • allcategories • percentages

stack • bargap(#) • intensity(*#) • yalternate • xalternate

graph hbar ...

grouped bar plot

graph bar (percent), over(rep78) over(foreign)

(asis) • (percent) • (count) • over(<variable>, <options: gap(*#) •

relabel • descending • reverse>) • cw •missing • nofill • allcategories •

percentages • stack • bargap(#) • intensity(*#) • yalternate • xalternate

a b c

sort • cmissing(yes | no) • vertical, • horizontal

base(#)

line plot with area shading

twoway area mpg price, sort(price)

210

jitter(#) • jitterseed(#) • sort • cmissing(yes | no)

connect(<options>) • [aweight(<variable>)]

scatter plot with labelled values

twoway scatter mpg weight, mlabel(mpg)

jitter(#) • jitterseed(#) • sort

connect(<options>) • cmissing(yes | no)

scatter plot with connected lines and symbols

Intro Forskningsassistent Stata Guide

Navigation menu

Versions of this User Manual:

Views

Navigation