Ägna söndagen åt scraping

Lär dig en mängd olika metoder för att samla ihop data från webben
Lär dig en mängd olika metoder för att samla ihop data från webben

I dag tipsar jag om några intressanta resurser för oss som är nyfikna på datajournalistik och webscraping.

Webscraping handlar om att samla ihop data som presenteras på webbsidor, och se till att få den samlad i ett vettigt format så att vända kan vända och vrida på den, för att hitta mönster och kanske nyheter. Jag har tidigare skrivit om hur jag bar mig åt för att samla ihop ett stort antal e-postadresser till presskontakter från en sida där adresserna bara var länkade, inte stod utskrivna. Efter ett tips kunde jag senare visa ett ännu enklare sätt med hjälp av Chrome-tillägget Scraper.

Mannen som ledde in mig på rätt står, frilansjournalisten Jens Finnäs, har nu skrivit en mycket pedagogisk genomgång av Scraper som jag varmt kan rekommendera för den som är nyfiken på ämnet. Han utgår från en lista på webben över ledamöterna i Sveriges riksdag, och får med enkla medel in ledamöter med partibeteckning och kontaktuppgifter i ett kalkylark.

Att samla in data från nätet med hjälp av Googles kalkyblad har Leo Wallentin skrivit om i en ganska omfattande bloggpost på svenska. Han undersöker med hjälp av scraping vilka historiska personer som får äran att bli hedrade på Googles förstasida med jämna mellanrum. Jag gjorde något likande häromveckan i då jag postade Organisera webbdata i ett kalkylark.

Visst blir man inspirerad? Den lilla ansträngningen man behöver göra för att förstå koncepten betalar sig mångfalt i det repetitiva apgöra man slipper göra med de här metoderna.

Den som vill snöa in ordentligt kan ta sig en titt på e-boken Scraping for Journalists. Författaren Paul Bradshaw har givit boken den snärtiga undertiteln ”How to grab data from hundreds of sources, put it in a form you can interrogate – and still hit deadlines”, vilket borde ge en vink om vad det handlar om. Jag har börjat med den och tycker att det känns som om författaren träffat helt rätt.