Find Ud Af Kompatibilitet Ved Hjælp Af Stjernetegn
10 værktøjer, der kan hjælpe datajournalister med at udføre bedre arbejde, være mere effektive
Nyhedsbreve

Det er svært at være lige god til alle de opgaver, der hører under datajournalistik. For at gøre tingene værre (eller bedre, egentlig), opdager og anvender datajournalister hele tiden nye metoder og værktøjer.
Som begyndende datajournalist vil du gerne udvikle en følelse af de værktøjer, andre bruger til at udføre det arbejde, du beundrer. Du vil ikke være i stand til at lære dem alle på én gang, og du bør ikke prøve. Du bør dog udvikle en slags omgivende bevidsthed om de værktøjer, der bruges (noget i stil med den viden, Facebook giver dig om livet for dine gymnasiekammerater). Hold en liste over værktøjer til at tjekke ud. Se demoerne og gennemse dokumentationen eller koden. Så, når dine projekter skaber behovet, vil du huske nok til at komme i gang.
Men mere umiddelbart skal du vælge et eller to værktøjer og gøre dem til en del af dit DNA. Vælg et værktøj og vrid alt, hvad du kan, fra det. Læs alt hvad du kan finde om det. Lær hver idiosynkrasi og optimering. Køb et kaffekrus med genvejstasterne på. Bare vær klar til at hente et nyt værktøj, når du mærker knibet, der siger, at der skal være en nemmere måde. Nedenfor er 10 værktøjer, der er en del af næsten enhver datajournalists værktøjsbælte.
1. Regnearket
Næsten enhver datajournalist begynder med regnearket. (Afsløring: Jeg er en undtagelse her, ligesom nogle andre programmør-journalister er. Jeg lærte at bruge regneark til at arbejde med mine kolleger, der stoler på dem.)
Regnearket er et næsten universelt dataformat, især hvis du gemmer dine data som en almindelig tekstafgrænset fil, såsom en kommasepareret værdifil. Alle har enten allerede et kommercielt regnearksprogram eller kan nemt downloade et ledig en, og moderne regnearksapplikationer er bemærkelsesværdigt alsidige.
Der er flere websteder og kurser tilgængelig for at hjælpe dig med at udvikle regnearksfærdigheder. Start med sortering, filtrering og subtotaler, og gå videre til mere avancerede formler. Mens du lærer at bruge formler, så prøv nogle gange at skrive dem direkte i stedet for at bruge guiderne. Denne praksis vil give dig mere intim viden om de formler, du bruger, og den vil også hjælpe dig med at begynde at udtrykke dine ideer i kode, hvilket vil være nyttigt, når du henter andre værktøjer.
2. SQL
Efter et stykke tid kan du begynde at mærke, at regnearkene er i klemme. Mange datajournalister bevæger sig i retning af en relationel databaseadministrator (f.eks. SQLite, MySQL, PostgreSQL, Access), når de har mere end to regneark til at slutte sig til eller meget store datasæt at forespørge på. SQL giver dig mulighed for at beskrive præcis den delmængde af data, du vil udtrække, eller de nøjagtige ændringer, du vil foretage, og det giver dig mulighed for at udføre disse forespørgsler på tværs af relaterede datasæt. Du kan også gemme dine kommandoer som et script, så du kan dokumentere alt, hvad du har gjort med dataene, og du kan automatisk gentage disse trin på et fremtidigt datasæt.
Stort set alle relationelle databaseprogrammer bruger en vis smag af SQL, så når du først har lært det grundlæggende (et par dusin nøgleord og nogle tegnsætning), kan du forespørge databaser i et vilkårligt antal systemer, både gratis og kommercielle. Relationsdatabaser bruges også ofte til at gemme data i webapplikationer, så din viden om SQL kan være direkte nyttig i webudvikling.
Her er en tutorial for at få dig i gang.
3. Datarensningsværktøjer
Alle datasæt er 'beskidte'. Gentag det for dig selv tre gange, hver gang du åbner din bærbare computer.
For at rense dataene og få dem til et nyttigt format, vil du sandsynligvis bruge en række forskellige værktøjer. Min favorit er Google Forfin , som ligner lidt et regneark, men er beregnet til ting som at standardisere navne, så du kan oprette pålidelige optællinger. (Du vil måske have, at 'John Smith', 'Smith, John' og 'John Q. Smith' skal tælles som én person, for eksempel i stedet for tre). Ved brug af Google Refine Expression Language , vil du være i stand til at lave sofistikerede datatransformationer, og du vil tage endnu et skridt i at udtrykke dig selv i kode. ( Data Wrangler er et nyt værktøj med en vis funktionalitet svarende til Refines, som også er værd at tjekke ud.)
Du bør også blive opmærksom på værktøjerne i dit operativsystem, der kan hjælpe med at administrere filer og dataene i dem. Hvis du er på OSX eller Linux, har du men ak, grep og finde . (Der er havne også til Windows.) Ved at bruge disse hjælpeprogrammer kan du begynde at udforske og massere dine data uden overhovedet at besvære at åbne et regneark eller et databaseprogram.
Og mens du ser på kommandolinjeværktøjer, så tjek ud CSVKit , en fantastisk pakke af værktøjer - udviklet af journalister - som vil hjælpe dig med at arbejde magi i det almindelige format.
4. Visualiseringsværktøjer
Visualisering er ikke dekoration. Det er ikke noget, der blot ledsager og illustrerer datajournalistik; det er centralt for opgaven. En god visualisering vil give dig mulighed for at se outliers og tendenser på måder, der dybt kan ændre din forståelse af dataene.
De fleste regnearksapplikationer har i det mindste grundlæggende diagrammer og grafer (og ofte mere sofistikerede visualiseringer tilgængelige via tilføjelser). Et par webbaserede visualiseringsværktøjer er ved at blive standardpris. Tjek ud Google Fusion Tables og Offentlig bestyrelse . Begge tilbyder brugervenlighed og nogle ret imponerende resultater.
Til sidst vil du måske have noget mere fleksibelt og kraftfuldt; eksperterne henvender sig ofte til noget som open source R statistikpakke, som kombinerer kraftfulde analyse- og visualiseringsværktøjer i et robust programmeringssprog.
5. Kortlægningssoftware
Google Fusion-tabeller og Tableau Public inkluderer begge hurtige og intuitive kortlægningsfunktioner. Når ingen af deres kort giver dig, hvad du ønsker, så tjek de gratis QGIS kortlægningspakke. (Eller hvis dit nyhedsredaktion har en ekstra licens, ArcView er en stærk kommerciel mulighed.) For en journalist-centreret introduktion til QGIS, tjek dette tutorial .
Der er også rumlige udvidelser til databaseadministratorer, der kan hjælpe med at stille geografiske spørgsmål om dine data. De udvider SQLs muligheder til at omfatte forespørgsler om geografi, såsom identifikation af lokationer inden for en grænse (f.eks. amt eller kongresdistrikt). PostGIS og SpatiaLite er gratis og populære løsninger.
6. Scriptsprog
Vælg et sprog, køb en bog, løs et problem. At lære at programmere vil hurtigt udvide din rækkevidde som datajournalist: Regeringen vil ikke give dig dataene bag et websted? Skrab det. Kan du ikke klare at få dataene i den form, du ønsker, ved hjælp af eksisterende værktøjer? Byg din egen. Der er en berusende kraft ved at blive ikke bare en bruger af software, men en producent af software.
Det betyder dog ikke så meget, hvilket sprog du vælger Python og Rubin synes at være de aktuelle favoritter blandt journalister. Hvis en du kender allerede arbejder med Perl eller PHP og er villig til at hjælpe dig i gang, kan du starte der. Som med naturlige sprog, når du først har lært et, er det nemmere at lære det næste, og at lære at tænke som en programmør er langt vigtigere end at lære en bestemt syntaks. (De seje børn kan også godt bruge noget helt andet, når du bliver dygtig til øjeblikkets sprog.)
Hvis du vil starte med web-skrabning, så tag et kig på ProPublicas fremragende skrabeguide . ScraperWiki er en anden måde at få fødderne våde på og lære ved eksempel. Lær at programmere er en fantastisk introduktion til programmeringskoncepter, der tilfældigvis bruger Ruby som målsprog.
7. Webramme
Uanset om du bygger værktøjer til dig selv eller skaber apps, der vender mod verden, har du brug for en webramme, hvis du bygger til internettet: django for Python, Skinner til Ruby , symfoni til PHP, Katalysator for Perl, vælg selv.
En ramme vil holde det kedelige, gentagne arbejde ude af din måde, hjælpe dig med at vedtage bedste praksis, holde dig organiseret og gøre det lettere at samarbejde med andre. Mange frameworks kommer med et et-klik-installationsprogram, der kan hjælpe med at lindre noget af smerten ved at komme i gang. Tag et kig på Bitnami django og Rubin stakke, for eksempel.
I løbet af opbygningen af et webværktøj vil du hente en rimelig mængde HTML og CSS. Men alle tegn peger på den stigende betydning af JavaScript i al webudvikling. Hvis du vil have din webapplikation til at føles mere som en desktopapplikation, skal du lære noget JavaScript at kende, især biblioteker som f.eks jQuery .
8. En fleksibel editor
For at skrive kode skal du bruge en kodeeditor. Det betyder en editor, der ikke slipper smarte, smarte tegn ind i din tekst (ser på dig, Microsoft Word) og forhåbentlig tilføjer nogle klokker og fløjter såsom sprogspecifik syntaksfarvning, som vil hjælpe dig med nemt at identificere nøgleord og andre sprog elementer, mens du skriver.
Der er ingen sikrere måde at starte et nørdeslagsmål på end at spørge, hvilken kodeeditor der er bedst. TextMate (til Mac) er en levedygtig kommerciel mulighed. Og Notesblok++ (til Windows) er en god gratis mulighed. Der er også de uendeligt tilpassede open source-muligheder JEG KOM og Emacs . Vær dog forberedt på en indlæringskurve med hver af dem. Til sidst vil en eller anden Java-programmør foreslå, at du har brug for en fuld Integreret udviklingsmiljø . Hvis nogen hjælper dig med at lære at kode, så adopter hans eller hendes editor og lær alle genveje og konfigurationstricks, du kan. En editor er det mest personlige af værktøjer, og du vil gerne få dit til at føles som hjemme.
9. Revisionskontrol
Du laver aldrig fejl? Vil du aldrig samarbejde med nogen? Så har du måske ikke brug for revisionskontrol . Men det er værd at bruge, hvis du vil have en elegant måde at gemme sikkerhedskopier, prøve ting på midlertidige versioner af filer og flette dit arbejde med andres. Måske er den nemmeste måde at lære revisionskontrol at bruge Github . Du kan også installere gå eller Subversion lokalt.
10. Dokumentanalyseværktøjer
Den måske mest spændende grænse inden for datajournalistik nu er forsøget på at behandle store dokumentsæt som data. DocumentCloud giver en praktisk grænseflade til at løsne bindingerne i PDF-formatet, hvilket giver mulighed for søgning på tværs af dokumenter og udtræk af interessepunkter.
Stiksav er desktop-software, der er nyttig til at navigere i et relativt stort dokumentsæt. Til sidst vil du måske se nærmere på det computersproglige potentiale i pakker som f.eks Pythons Natural Language Tool Kit eller den Stanford CoreNLP . Og fordi journalister lige har ridset overfladen af dette område, nyt værktøjer der behandler dokumenter som data, der hele tiden dukker op.
Dette er den anden historie i en todelt serie om datajournalistik. Du kan læse den første historie, '5 tips til at komme i gang med datajournalistik', her.
Denne historie er også en del af en Poynter Hacks/hackere serie med Sådan fokuserer du på, hvad journalister kan lære fra nye trends inden for teknologi og nye værktøjer.
Rettelse: En tidligere version af denne historie sagde, at brugere skal betale for Notepad++. Faktisk er det gratis.