Tredje delen i Scrapingskolan

Nu är tredje delen av Scrapingskolan klar. Den här gången tar vi steget från att ha plockat data från ordentligt formaterade xml-dokument till att inse att html – språket som bygger upp webben – faktiskt är en variant av xml och att vi därmed kan använda samma teknik för att strukturera upp data som förekommer på webbsidor.

Men den teoretiska insikten är en sak. Det luriga är förstås att hitta en sida, undersöka dess kod och förstå strukturen. Det är då man tagit sig igenom de((n tankeprocessen och funderingen på egen hand, utan receptlösningar och steg för steg-beskrivningar, som man kan skriva in rätt ”sökväg” och plocka ut det man är på jakt efter.

Så – trots den där nyhetsmentaliteten som många av oss har i oss – försök att öva upp ett tålamod. Det kan vara lite spännande att återupptäcka sitt eget intellekt och komma till insikten att det går att komma på lösningar på komplexa frågeställningar själv – i stället för att ringa en expert.

(Men sedan kommer förstås redaktören och vill ha en intervju med den där experten i alla fall… :-))

I dag fortsätter scrapingskolan

Nu är nästa del av Scrapingskolan färdig – varsågoda: 

I första delen använde vi funktionen ImportHTML() i kalkylarksdelen av Google Drive för att plocka hem färdiga tabeller och listor från webbplatser.

I den här delen förbereder vi nästa steg som är att samla in data som visserligen är strukturerad, men inte som en tabell eller lista i html, utan på något annat sätt. För att kunna göra det behöver vi veta hur man navigerar i xml-baserade dokument – och plockar hem data ur dem med hjälp av funktionen ImportXML().

En perfekt fredagssysselsättning! Ha så kul! Fortsättning följer…

Häng med då jag lär mig scraping

Jag är sjukt nyfiken på datajournalistik.

Nu har jag ingen erfarenhet, men jag är hyfsat bra på datorer och håller på att försöka lära mig programmera ordentligt. Genom åren har jag återkommit till det vid flera tillfällen, men nu börjar det faktiskt lossna allt mer.

Det känns som om de här två intresserna för journalistik och programmering skulle kunna mötas ganska bra i datajournalistiken.

För att motivera mig själv att ta mig igenom e-boken Scraping for journalists tänkte jag nu göra det inför öppen ridå. Och samtidigt dela med mig av det jag lär mig här på bloggen.

Så – ni som vill lära er något nytt och spännande: Häng med! Och ni som redan kan: Hjälp mig! Rätta mig! Förklara bättre! Bidra med egna praktiska övningsexempel!

Till att börja med är målet att publicera en instruktionsvideo i veckan – en per kapitel i boken. Den första finns längst upp i det här inlägget. Håll tummarna för att vi tar oss igenom hela boken. För visst verkar det spännande?

Det här måste du lära dig i år

Nu har ett nytt år börjat och det är dags att lära sig leva upp till alla nya krav som ställs på vår yrkesroll. På sajten Journalism.co.uk har man sammanställt ett antal branschexperters syn på framtiden och kommit fram till en lista över 10 saker som varje journalist måste kunna 2013.

Det viktigaste på listan är kunskaper, enligt listan. Och det verkar handla om bredd. Man behöver inte nödvändigtvis vara expert på allt, men det skadar inte om man kan filma lite och klippa lite. Ha lite koll på Excel. Kanske programmera lite… Multikompetens. Kanske multiinkompetens om det blir alltför splittrat…

Ytterligare något som tas upp som viktigt att datajournalistik. Redaktörerna måste fatta hur viktigt det är. Så här säger en expert:

”Many people in this industry think data journalism is about numbers, but data journalism is actually just the best way to find out what the story is. It’s not the figures you get out of it, it’s the information that you find within the figures – and I think that’s where I really need to concentrate in 2013.”

Då vi skapar onlinejournalistik så måste vi tänka på mobilen i första hand. Eftersom man sitter vid en dator med en webbläsare då man sitter och skapar onlinejournalistik, är det kanske lätt gjort att glömma den stora andel av onlinepubliken som följer redaktionen via mobilen eller plattan. Mobile first, alltså.

De sista punkten handlar om förändring. Eftersom journalistyrket förändras så snabbt och vi hela tiden måste lära oss nya saker, så är det viktigt att faktiskt älska förändring. Annars går vi under. För om ett år är det väl dags för en ny lista igen…

Bli ruskigt effektiv med ful gammal textredigerare

Av arbetskamrater har jag förstått hur sent datorerna kom in och ersatte Halda-maskinerna på redaktionerna. Och ny teknik brukar väl inte alltid hälsas med hurrarop. Därför känns det extra roligt att dagens journalisttips har snart 40 år på nacken och ser ut på det här viset:

Vim är en vidareutveckling har textredigeraren Vi som skapades 1976
Vim är en vidareutveckling har textredigeraren Vi som skapades 1976

Textredigeraren Vim är verkligen en raritet. Jämfört med dagens ordbehandlingsprogram ser den förstås ganska förfärlig ut, men då vi skriver texter är det ju just innehållet som är det viktiga. Och den som vill bli riktigt effektiv behöver ett lättanvänt men kraftfullt verktyg.

Jag är nykär i Vim. Och frågan är om jag inte är mer kär i själva idén än i programmet i sig. Men grundtanken har vi varit inne på tidigare. Man blir effektivare vid datorn om man kan använda tangentbordet mera. Och det är det som gäller här. Att ibland flytta en hand till musen går fetbort.

Men Vim går ett steg längre: Till och med att flytta händerna till piltangenterna då och då går bort. I stället flyttar man runt med olika kommandon. h, j, k och l flyttar runt i texten. Av de fyra är h längst till vänster och l längst till höger, så de flyttar åt respektive håll. j har en liten nedåtböj på sig, så det är lätt att minnas att den går nedåt, precis som att bokstaven k sticker upp lite (åtminstone om man jämför med j).

Men magin kommer då man vill flytta fem ord framåt, och därför ger kommandot ”5w”. Eller tre rader uppåt, och därför skriver ”3k”. Och så förstås de sjukt effektiva sök- och ersättfunktionerna som kan göra allt då du sitter där med ett enormt datamaterial som du behöver rensa och få lite ordning på.

Det där med att skriva in själva texten då? Då går man över i det speciella inskrivningsläget, med ”i”, insert. Och då man är klar, så hoppar man ut i kommandoläget med Esc igen. Just de tangenterna har nog en förmåga att bli lite extra utslitna i Vim-världen.

Det är ingen hemlighet att det är mest är programmerare som använder Vim – men det betyder ju inte att en reporter skulle kunna ha glädje av en kraftull och snabb textredigerare?

Att lära sig detta är förstås förknippat med en viss inlärningströskel. Men tanken är att man har igen den tiden mångfallt då man väl behärskar tekniken. Och vill man ha lite roligt under tiden har förstås entusiaster utvecklat ett Vim-spel:

Vim Adventures lär på ett lättsamt sätt ut den grundläggande kommandona i Vim
Vim Adventures lär på ett lättsamt sätt ut den grundläggande kommandona i Vim

Installerat och testat? (Har du en Mac? Testa att skriva Vim i kommandotolken!) Frustrationen kommer snabbt om man inte är van vid att lära sig saker som kräver tålamod. Men läs på skärmen – där finns informationen. Bland det första man kan läsa på startskärmen är att man kan skriva ett kolon följt av ”help” och därefter trycka på Enter för att få hjälp. Eller kolla på programmets hemsida – där finns gott om hjälpresurser.

Något som inte står någonstans är däremot följande: I hjälpen stöter du nästan omedelbart på informationen att du ska klicka Ctrl + ] för att följa en länk. På ett svenskt tangentbord hittar man hakparenteserna på tangenterna för 8 och 9, vilket inte fungerar här. I stället behöver man veta att de på ett engelskt tangentbord sitter där vi har å, och knappen till höger om å.

På ett engelskt (skitigt) tangentbord hittar man [ och ] på de här tangenterna, vilket kan vara bra att veta för den som vill trycka kombinationen Ctrl + ]
På ett engelskt (skitigt) tangentbord hittar man [ och ] på de här tangenterna, vilket kan vara bra att veta för den som vill trycka kombinationen Ctrl + ]

Juldagsmys: Vann krig – åt dödsäpple

Idén med Journalisttips är att vi ska finnas i gränslandet mellan tekniken och journalistiken – ”Spräck och tech” är ju vårt valspråk. Men i dag är det juldagen och vi fuskar lite.

Vi flyttar oss lite i det där gränslandet mot tekniken, men åt historiehållet. För vetenskapshistorien kan bli mycket Newton och Einstein ibland, men på den här bloggen ligger intresset mer åt IT-hållet. Och där finns en spännande figur som Alan Turing – en av de viktigaste personerna i datorhistorien.

Lyssna: Vetandets värld : Alan Turing ville bygga en hjärna 20121204 12:10

Han utvecklade bland annat Turingmaskinen, som är en teoretisk modell för att utföra beräkningar. Man brukar tänka sig en oändligt lång remsa med rutor som ett skriv- och läshuvud kan flytta sig längs med. Det är en idé som ingen som läst på en datavetenskaplig utbildning kan missa.

Det gör däremot många andra. Men som journalist är det ju aldrig fel att vidga vyerna lite. Det har Vetenskapsradion redan gjort i fallet Turing – så ta 20 minuter och lär dig lite mer om ett annat område.

Och du som fortfarande tvekar och kräver lite sex och våld för att bli intresserad ska veta att killen dog bara 41 år gammal med ett förgiftat äpple intill sig – och att han var öppet homosexuell i en tid då det fortfarande var olagligt. Och så avgjorde han förstås andra världskriget också med hjälp av lite kryptoklurande.

Vi ses!

I morgon kväll anordnar föreningen Fajk meetupen Hacks & Hackers i centrala Stockholm. Rubriken är ”Journalisten möter teknikninjan” och tanken verkar vara att de två yrkesgrupperna ska lära känna varandra lite bättre, vilket låter klokt.

Förutom två intressanta programpunkter om kulturkrockar mellan tekniker och journalister samt tillgängligheten på öppna data, så ska också jag och Micke fylla en programpunkt! 😀 Superkul!

Pitchen var att vi skulle prata ”om att vilja, men inte kunna – och vägen därifrån. Tips, erfarenheter och frågor från gränslandet mellan spräck och tech”.

Efter ett antal möten med allvarliga män med slipsar, kvalomgångar, ambitiösa powerpoints, förnedrande förhandlingar om ersättning och timmar av säljsnack så fick vi till slut vår halvtimme. (Nåväl…)

Tycker du egentligen att vår blogg är rätt trist, och läser den mest för att hänga med i det senaste mediesnacket i Stockholms innerstad? Kom efter 20 i så fall – då utlovas ”Öl, snacks och världsförbättring”. 😉

Ägna söndagen åt scraping

Lär dig en mängd olika metoder för att samla ihop data från webben
Lär dig en mängd olika metoder för att samla ihop data från webben

I dag tipsar jag om några intressanta resurser för oss som är nyfikna på datajournalistik och webscraping.

Webscraping handlar om att samla ihop data som presenteras på webbsidor, och se till att få den samlad i ett vettigt format så att vända kan vända och vrida på den, för att hitta mönster och kanske nyheter. Jag har tidigare skrivit om hur jag bar mig åt för att samla ihop ett stort antal e-postadresser till presskontakter från en sida där adresserna bara var länkade, inte stod utskrivna. Efter ett tips kunde jag senare visa ett ännu enklare sätt med hjälp av Chrome-tillägget Scraper.

Mannen som ledde in mig på rätt står, frilansjournalisten Jens Finnäs, har nu skrivit en mycket pedagogisk genomgång av Scraper som jag varmt kan rekommendera för den som är nyfiken på ämnet. Han utgår från en lista på webben över ledamöterna i Sveriges riksdag, och får med enkla medel in ledamöter med partibeteckning och kontaktuppgifter i ett kalkylark.

Att samla in data från nätet med hjälp av Googles kalkyblad har Leo Wallentin skrivit om i en ganska omfattande bloggpost på svenska. Han undersöker med hjälp av scraping vilka historiska personer som får äran att bli hedrade på Googles förstasida med jämna mellanrum. Jag gjorde något likande häromveckan i då jag postade Organisera webbdata i ett kalkylark.

Visst blir man inspirerad? Den lilla ansträngningen man behöver göra för att förstå koncepten betalar sig mångfalt i det repetitiva apgöra man slipper göra med de här metoderna.

Den som vill snöa in ordentligt kan ta sig en titt på e-boken Scraping for Journalists. Författaren Paul Bradshaw har givit boken den snärtiga undertiteln ”How to grab data from hundreds of sources, put it in a form you can interrogate – and still hit deadlines”, vilket borde ge en vink om vad det handlar om. Jag har börjat med den och tycker att det känns som om författaren träffat helt rätt.

Får du inte in de där personerna i Excel?

Fick du ut alla de där namnen på skummisar till slut? Rad för rad, ett namn, en adress, ett telefonnummer – och beloppet de har förskingrat?

Du har fått mejlet och är ivrig att sätta dig och gå igenom alla 10.000 i Excel… då det visar sig att alla är inklistrade i ditt mejl som ren text och Excel inte vill veta av dem?

Möjligen kan i så fall det här vara handledningen du alltid drömt om! Tillsammans med textredigeraren Sublime Text 2. (Ja, den finns i en portabel version om du vill kunna köra den på jobbet utan att IT-säkerhetsmänniskorna lägger sig i…)

Lördagsmys: Jobba med data

I dag tipsar Journalisttips om lite skön lördagsunderhållning. Vi som sitter och undrar om inte datajournalistik skulle kunna vara något för oss – har en, vad det verkar, outsinlig källa till information på webben.

Ett gäng datajournalister har skrivit ihop en bok i ämnet – som ligger ute till fri läsning för alla som vill! The Data Journalism Handbook finns också i tryckt betalversion för den som föredrar det.

The Data Journalism Handbook finns gratis på nätet
The Data Journalism Handbook finns gratis på nätet

Boken innehåller avsnitt med rubriker som ”What Is Data Journalism?”, ”Why Journalists Should Use Data”, ”Why Is Data Journalism Important?” – och ”How to Hire a Hacker”. Boken innehåller också ett helt kapitel med fältstudier.

Och på slutet kommer det roliga då datan väl är insamlad och sammanställd – nämligen att presentera den på ett tilltalande sätt för publiken så att budskapet når fram. Ungefär som Hans Rosling gör: