Ägna söndagen åt scraping

Lär dig en mängd olika metoder för att samla ihop data från webben
Lär dig en mängd olika metoder för att samla ihop data från webben

I dag tipsar jag om några intressanta resurser för oss som är nyfikna på datajournalistik och webscraping.

Webscraping handlar om att samla ihop data som presenteras på webbsidor, och se till att få den samlad i ett vettigt format så att vända kan vända och vrida på den, för att hitta mönster och kanske nyheter. Jag har tidigare skrivit om hur jag bar mig åt för att samla ihop ett stort antal e-postadresser till presskontakter från en sida där adresserna bara var länkade, inte stod utskrivna. Efter ett tips kunde jag senare visa ett ännu enklare sätt med hjälp av Chrome-tillägget Scraper.

Mannen som ledde in mig på rätt står, frilansjournalisten Jens Finnäs, har nu skrivit en mycket pedagogisk genomgång av Scraper som jag varmt kan rekommendera för den som är nyfiken på ämnet. Han utgår från en lista på webben över ledamöterna i Sveriges riksdag, och får med enkla medel in ledamöter med partibeteckning och kontaktuppgifter i ett kalkylark.

Att samla in data från nätet med hjälp av Googles kalkyblad har Leo Wallentin skrivit om i en ganska omfattande bloggpost på svenska. Han undersöker med hjälp av scraping vilka historiska personer som får äran att bli hedrade på Googles förstasida med jämna mellanrum. Jag gjorde något likande häromveckan i då jag postade Organisera webbdata i ett kalkylark.

Visst blir man inspirerad? Den lilla ansträngningen man behöver göra för att förstå koncepten betalar sig mångfalt i det repetitiva apgöra man slipper göra med de här metoderna.

Den som vill snöa in ordentligt kan ta sig en titt på e-boken Scraping for Journalists. Författaren Paul Bradshaw har givit boken den snärtiga undertiteln ”How to grab data from hundreds of sources, put it in a form you can interrogate – and still hit deadlines”, vilket borde ge en vink om vad det handlar om. Jag har börjat med den och tycker att det känns som om författaren träffat helt rätt.

Så såg sidan ut – förut

Inför valet 2010 gjorde jag en granskning av en Centerpartistisk riksdagskandidat med en märklig hemsida.

Det var en helt öppen hemsida med mängder av konspirationsteorier, bland annat om att judar skulle ligga bakom 11 september-attackerna och Förintelsen.

Eftersom han fått plats på Stockholmscenterns riksdagslista två val i rad – alltså även 2006 – så ville jag förstås veta hur länge sidan funnits och hur den sett ut, i synnerhet som han själv marknadsfört den i Centerns interna informationsmaterial.

Kandidaten själv berättade att han hållit på sedan 2002 men jag ville inte bara ha hans utsaga. Och jag ville veta hur den sett ut.

Här kom tjänsten Wayback Machine väl till pass. Den sparar ”ögonblicksbilder” av webbsidor från hela världen, och har man tur har den råkat fånga just den sida man i dag är intresserad av.

I detta fall hade den det. Kandidatens sajt var uppsnappad många gånger, ända tillbaks till startåret 2002, och det visade sig också att den hade sett i stort sett likadan ut under alla dessa år. Formuleringarna om de judiska konspirationerna hade t ex funnits med från start.

Wayback Machine sparar inte alla sajter, och det kan gå lång tid mellan nedslagen på de den följer. Men exemplet med Centerkandidaten visar att det kan vara väl värt att göra ett försök även med små och till synes obskyra sidor.

Det som sparas är inte en ren bildfil utan ofta kan man följa länkar åtminstone ett steg från huvudsidan. Samtidigt som bilder och videofiler ofta saknas, av utrymmesskäl.
(Andra kul exempel kan vara t ex svt:s webb från 1996 eller Föreningen grävande journalister från 2002 – med reklam för att nästa års grävseminarium hålls i Göteborg…)

Från svt.se anno 1996

Wayback Machine är för övrigt bara en del av jätteprojektet archive.org som även samlar andra mediatyper t ex texter, video och livekonserter (!). Ett paradis för arkivnörden således.

Har du gjort fynd på den historiska webben? Dela med dig i kommentarsfältet!

Hitta tillbaka till platser du besökt

Jag fortsätter här på temat från i förrgår, som handlade om att hitta tillbaka till sidor vi besökt tidigare. Då var problemet att vi hade råkat stänga en flik av misstag – och enkelt kunde öppna den igen.

Då påminde jag också om webbläsarhistoriken som det är lätt att glömma bort att den finns. Problemet med den är att man kanske rensat den – eller att man helt enkelt sitter på en annan dator då man vill komma åt den där sidan. Den där sidan som hade med något visst att göra – och som man är säker på att man sett förut. 

Med SeenBefore kan man begränsa sina sökresultat i Google till sådana man besökt tidigare
Med SeenBefore kan man begränsa sina sökresultat i Google till sådana man besökt tidigare

Det ska erkännas att jag inte själv prövat tjänsten i dagens tips. Och då jag skulle testa inför författandet av det här blogginlägget – så visade det sig att tjänsten blivit så populär att man inte längre kan registrera sig. Men de bygger ut för fullt, och tar emot nya medlemmar endara dagen. Jag hörde om tjänsten i poddcasten Webbradion där man vittnar om dess förträfflighet.

Hur som helst – surfa in på SeenBefore och bekanta dig med tjänsten som gör att de sökresultat du får upp är sådana du besökt tidigare.

Scenariot är alltså att du sitter och gör research, googlar och hittar något som verkar lite halvintressant, men det var ett stickspår, så du fortsätter med det du egentligen höll på med. Vis av erfarenhet en vecka senare inser du att det var det där som du tidigare trodde var ett stickspår – som är grejen! Men du har din vana trogen raderat historiken i din webbläsare (alternativt sitter du vid en annan dator). Det är då SeenBefore gör nytta. Den kommer nämligen ihåg vilka sidor du besökt tidigare, och väljer bland dem då du googlar.

Tanken är alltså att du kommer ihåg ungefär vad du sökte på, eller någon formulering från den där sidan som kommit tillbaka till ditt minne – och att du googlar efter det, men i stället för att få de sedvanliga tio tusen träffarna, så får du i stället ett urval som baserar sig på det du redan besökt. Om du vill alltså – annars fungerar det som vanligt.

På sin sida förklarar utvecklarna hur tjänsten ska användas. Enligt utvecklarna själva älskar de min integritet över allt annat etc etc, men surfar du efter något du skäms över eller bedriver riktigt känslig research ska du kanske fundera en vända extra. Förstås.

Låt telefonen sköta sig själv

Om du äger en Android-mobil så finns det flera möjligheter att låta telefonen själv lösa en del av vardagens små irritationsmoment.

  • Använder du wifi hemma men inte ute på stan? Stänger du av och slår på då – eller låter du den alltid vara på men har lite ont i magen över att det drar batteri?
  • Irriteras du av att skärmsläckaren går igång alldeles för snabbt när du läser en e-bok eller plöjer intressanta artiklar i Pocket eller på webben? Går du in och ändrar avstängningstiden för skärmsläckaren eller sitter du och duttar på skärmen för att den inte ska slockna?
  • Glömmer du att sänka volymen på telefonen när familjen gått och lagt sig – så en käck trudelutt väcker alla bara för att du fått ett meddelande på Facebook? Försöker du skaffa dig en rutin för att stänga av ljudet eller håller du bara tummarna för att det aldrig ska hända igen?
  • Det där är tre exempel på grejer som man kan be telefonen att sköta själv.
Automatisering pågår.

Lösningen ligger i något av de program som fungerar enligt principen ”Om X så Y”.

  • ”Om telefonen lämnar hemmet…så stäng av wifi!” (”…och slå igång det när jag kommer hem igen.”)
  • ”Om e-boksprogrammet går igång…så förläng skärmsläckarens timeout-tid!” (”…och korta den igen när jag stänger programmet.”)
  • ”När klockan passerat 22…stäng av ringsignalen!” (”…men slå igång den igen i morgon bitti.”)

Ett av programmen heter rentav on{X} och överraskade många när det kom eftersom utvecklaren heter Microsoft (som har ett eget operativsystem för mobiler men valde att släppa on{X} till Android först).

Ett annat heter AutomateIt och har ett mycket enkelt och lättjobbat gränssnitt. Precis som on{X} har det ett slags bibliotek med redan färdiga kommandon, som gör det mycket lätt att komma igång.

En klassiker i sammanhanget heter Tasker. Det har en lite högre inlärningströskel men å andra sidan – såvitt jag förstår – fler möjligheter. Tasker har till skillnad från övriga ingen gratisversion, men kan vara värt att gå vidare till om man testat t ex AutomateIt och vill göra ännu mer.

Mobiltillverkaren Motorola har ett eget program som heter Smart Actions, som följer med många av deras lurar. Det finns i Google Play men verkar bara gå att ladda hem till just Motorola-telefoner. Det är ett mycket enkelt program – i både positiv och negativ bemärkelse – men kan vara ett första steg för den som råkar äga en M-telefon.

Det finns också appar som primärt riktar in sig på att minska dataförbrukningen och/eller batterianvändningen, men som i detta syfte automatiserar en del åtgärder på ett liknande sätt. En batterihjälp-app som jag själv använt heter Juice Defender.

Det gemensamma för samtliga dessa appar är att man bara behöver göra inställningen en gång, sedan sköter programmet resten. Och själv kan man ägna sin telefontid åt viktigare saker.

(Och nej, du behöver inte ha GPS:en igång för att telefonen ska känna av att den lämnat hemmet. Den informationen kan programmet hämta med hjälp av telefonmasternas placering – mindre noggrant men tillräckligt för en sån här funktion.)

Gillar du Journalisttips? Prenumerera gärna, via mejl eller via RSS.

Slant du? Så får du tillbaka sidan

Var du lite för snabb då du stängde dina flikar? Inga problem!
Var du lite för snabb då du stängde dina flikar? Inga problem!

Gick det lite för fort då du städade upp bland alla flikarna i webbläsaren? Ibland går ju rens-ivern lite överstyr, och den där viktiga webbsidan med den där intressanta artikeln eller den där statistiken du hade letat så länge efter är plötsligt försvunnen.

Det här är ingen hemlighet, eller mystisk funktion. Men vet man inte, så vet man inte. De allra flesta gångerna går det ju bra att söka efter samma sajt igen på Google. Och har man en lösning – även om den är lite omständlig – bryr man sig kanske inte om att hitta ett smidigare sätt.

I Chromes högerklicksmeny hittar du räddningen
I Chromes högerklicksmeny hittar du räddningen

I Google Chrome är det Ctrl + Skift + T som du ska lägga på minnet. Och vill du inte lägga något på minnet, så högerklicka bara på flikarna (det var ju en flik du ville få fram igen!) och välj ”Öppna en stängd flik igen”. Det här går att upprepa flera gånger, om du hann med ett helt gäng innan du hejdade dig själv.

Använd historiken i stället för att googla igen
Använd historiken i stället för att googla igen

Och är du helt säker på att du surfade på någon viktig sida alldeles innan du gick hem i fredags… så kanske inte det här är rätt funktion. Men då finns historiken, en ofta bortglömd funktion. Ofta nämns den i samband med integritetsdebatten, och då brukar det handla om att man ska rensa den. Men om du inte gör det – så ligger den intressanta läsningen från i fredags eftermiddag där – bara en knapptryckning bort. I Google Chrome hittar du den genom att trycka Ctrl + H.

Sajten How-To Geek har gjort en sammanställning över hur man öppnar stängda flikar i Chrome, Firefox, Opera, Internet Explorer 9 och Safari.

Vill du ha fler tips om kortkommandon, kolla denna listan och den här.

Bibliotekarien med röntgenblick

– Det är som att komma in i världens största bibliotek, och få hjälp av en bibliotekarie med röntgenblick som blixtsnabbt scannar igenom alla böcker för att se vilka som har de och de orden i den och den följden.

Beskrivningen kommer från en god vän som för första gången testat Google Books. Han skulle på kort tid skriva en bok om ett land han visste mycket om, men där de personliga erfarenheterna måste kompletteras med uppgifter från referenslitteratur.

Böcker och uppgifter han till stor del kom att hitta via Google Books.

Googles bokprojekt är känt för många som ”jättescanningen Google håller på med där dom inte kommit överens med förlagen om publiceringen”. Och det är en korrekt sammanfattning: Google har gett sig på att scanna all världens böcker men hittills inte kommit överens med all världens förlag om villkoren för en eventuell publicering. Därför är bara en del av böckerna i Google Books läsbara i sin helhet.

Men många, många är ändå helt sökbara! Och i många fall får man dessutom upp ett avsnitt från texten som visar sammanhanget runt sökträffen. Och även om det inte finns något textavsnitt så får du alltid upp information som gör att du kan köpa boken, eller beställa den på ett (vanligt) bibliotek.

(Här Googles egen ”Om”-sida, och här Wikipedias beskrivning av projektet.)

Och om du tror att det bara handlar om engelskspråkiga böcker: börja söka! Av de miljoner som hittills scannats in är en inte oansenlig del svenska. Till och med inom det relativt smala ämnet journalistik.

Vi kan t ex pröva att söka begreppet ”God journalistik”…

…som ger 279 träffar, bland annat i Nils Hansons bok Grävande journalistik:

Den intresserade kan även söka exakta begrepp i skönlitteraturen:

Och här kan man se sammanhanget kring just denna formulering i en av Sjöwall/Wahlöös böcker:

Testa dina favoritämnen på svenska: företaget du följer, politiken du bevakar, kommunen du bor i…

Typiska användningsområden kan också vara:

  • Att hitta exakta litterära citat.
  • Att hitta böcker där personen NN, popgruppen XX eller begreppet YY varit omskrivna.
  • Att lokalisera ursprunget till ett uttryck som inte har någon trovärdig källhänvisning på nätet.
  • Söka böcker på engelska där Carl Bildt nämns.
  • Över huvud taget hitta info om sånt som kan tänkas finnas omskrivet i böcker och inte (bara) på nätet. (Dvs ganska mycket om man tänker efter.)

Vad hittar du när du testar bibliotekarien med röntgenblicken? Dela med dig i kommentarsfältet!

Får du inte in de där personerna i Excel?

Fick du ut alla de där namnen på skummisar till slut? Rad för rad, ett namn, en adress, ett telefonnummer – och beloppet de har förskingrat?

Du har fått mejlet och är ivrig att sätta dig och gå igenom alla 10.000 i Excel… då det visar sig att alla är inklistrade i ditt mejl som ren text och Excel inte vill veta av dem?

Möjligen kan i så fall det här vara handledningen du alltid drömt om! Tillsammans med textredigeraren Sublime Text 2. (Ja, den finns i en portabel version om du vill kunna köra den på jobbet utan att IT-säkerhetsmänniskorna lägger sig i…)

Stories never die

Vi har tipsat om den på vår Facebook-sida (efter att Jan Gradvall rekommenderat den på Twitter) men den är värd att tipsas om många gånger till.

The New Yorkers video om den journalisten Gay Taleses arbetsrum.

Eller rum förresten…det är en källarvåning, som han gjort till sitt arbetsrum, arkiv och – tankesmedja (”subterranean think tank”). Inga fönster, ingen telefon. (Dator dock!) Väggarna fyllda av papper han sparat från alla sina reporterår, organiserade i kartonger.

Jag fascineras av samlandet i kombination med systematiken. Själv har jag bitvis varit duktig på att samla grejer – fråga min omgivning! – men betydligt sämre på att organisera dem. Sedan ett antal år försöker jag hålla det mesta digitalt, och verktyg som Evernote kan hjälpa till med organiserandet, men jag känner mig ändå lätt matt av respekt (och avund) inför gigantens gigantiska samling.

Sen blir jag lycklig över en av hans formuleringar i reportaget, som på ett fantastiskt enkelt sätt summerar något jag själv försökt sammanfatta i många olika sammanhang:

– This stuff is never dead, because stories never die.

Så är det ju. Stories never die. Våra historier tar aldrig slut. Det kan bara ta kortare eller längre tid tills någon upptäcker nästa steg. Det kan vara ett lättfunnet nästa steg – av det slag jag försökt beskriva här – men det kan också vara något helt oväntat, helt nytt som kastar gamla föreställningar på ända.

Nyheter om Olof Palmes eller Dag Hammarskjölds död (1986 respektive 1961), om Sveriges agerande under andra världskriget eller om människors villkor under medeltiden…historier lever vidare och nytt ljus på gammal nyhet fortsätter intressera och fascinera. Ja, med jämna mellanrum går vi ju alla igång på vetenskapsnyheter om de allra första människorna – eller om universums ursprung!

Stories never die. Finns det något vi kan lära oss av en 80-årig legend med en minnesspäckad tankekällare i New York så är det just det.

(Och vill du följa våra fortsatta tips om hur vi håller koll på de odöda historierna – så kan du prenumerera på oss, antingen via mejl eller via RSS.)

Publiken rasar mot analfabeter och dyslektiker

Som journalister har vi stor makt då det gäller vilka ämnen vi väljer, vilka personer som får komma till tals och vilka fakta vi väljer att lyfta fram. Men den som svarat i telefonen på en nyhetsredaktion vet att publikens reaktioner ofta handlar om hur vi klär nyheterna: om reportrarnas dialekter, programledarnas uppenbarelser (ringar i öronen, dåliga hy, hästsvansar – jag har diskuterat alla) – eller den språkliga dräkten.

Språket är viktigt för publiken
Språket är viktigt för publiken

Det är klart att det är lätt att sucka om man presenterat en viktig nyhet och reaktionerna handlar om att hon som uttalade sig faktiskt är tillförordnad och inte ställföreträdande. Eller att Jozefson stavar just så. Men avsändaren ovan har ju rätt i att trovärdigheten påverkas starkt negativt – och det är förstås något som är extra viktigt att undvika för den som inte i övrigt producerar högkvalitativ journalistik. 😉

Jag bad Språkrådet lista vanliga fel som journalister gör, men det visade sig vara en komplicerad historia, speciellt då det gäller etermedier. Stavning är det som verkar lättast att ta på, och där finns det en lista med ord som ofta blir tokiga, enligt språkvårdaren Lena Lind Palicki:

  • abborre
  • abonnera
  • adress
  • affisch
  • aggressiv
  • bedöma
  • bransch
  • bröllop
  • choklad
  • cykel
  • diskussion
  • genre
  • kassett
  • kollision
  • kolossal
  • kommitté
  • lugna
  • låtsas
  • majonnäs
  • museet
  • museer
  • noggrant
  • ouppnåelig
  • parallell
  • pistasch
  • programmera
  • sant
  • terrass
  • tillfredsställande
  • tunt
  • tvungna

Experterna på intervjuteknik hävdar ju att man ska undvika värdeladdade ord. Så det är klart att jag nu ångrar att jag mejlade Språkrådet och frågade vad de upplever är ”de vanligaste felen” som journalister gör.

Din fråga är svår att svara på, eftersom det beror alldeles på vad man menar med ”fel”. Det som många uppfattar som fel, kan vara helt acceptabelt för andra. När uppfattningen om vad som är acceptabelt eller inte vacklar handlar det antagligen om ett språkbruk i förändring, där förändringen har accepterats av vissa men inte av andra. Så vad som är ”rätt” eller ”fel” i språket beror alldeles på vems eller vilken norm man förhåller sig till.

Det gäller alltså att hitta den där balansen mellan att rapportera om ett samhälle eller en värld i förändring, och att undvika ett språkbruk i förändring – för det verkar vara där fällorna finns. Och för den som rapporterar med hjälp av det talade ordet verkar det vara både lättare och svårare – så tolkar i alla fall jag språkvårdaren Lena Lind Palicki:

Att svara på vad vanliga ”fel” är inom etermedierna är ännu svårare, eftersom vi har en helt annan acceptans för variationer i talat språk än i skrivet. Det är också i det talade språket som språkförändringar ofta kommer först, och då får man en större spridning i vad som är accepterat och inte hos språkbrukarna.

Oavsett publikens reaktioner så måste man förstås först prioritera rätt och fel då det gäller fakta. Språket är viktigt, men slås ut av faktakollen. Fast den som kan sitt språk vet förstås att det är stor skillnad mellan att inte vara viktigast och att vara oviktig.

Läs på i TT-Språket eller i Språkrådets frågelåda.

Vad man vill höra och inte

Jag såg en intervju med en person som varit med om att bygga en stor bro.

Han fick frågan vad han tänkte när han åkte över bron.

Han svarade ungefär att ”Jo, det är ju många minnen som dyker upp… Man kommer ihåg vad som hände när vi gjorde det där och det där…”

Sen var inslaget slut.

Jag har ingen aning om omständigheterna kring just detta reportage, men det är inte första gången man får höra intervjupersoner berätta att det finns mycket att berätta – i stället för att höra dem berätta det som finns att berätta!

När vi pratar om intervjuteknik handlar det oftast om tillsvars-intervjuer. Och inget konstigt med det – det är i de ansvarsutkrävande makthavarintervjuerna som frågorna om frågorna och svaren ställs på sin spets; det är intervjuer som görs i den kanske svåraste men också viktigaste änden av journalistiken, och under förutsättningar som kan vara åtminstone psykologiskt rätt ansträngande; det är jobbigt att vara den som ställer till svars i ett läge där man kanske är helt oense med intervjupersonen om allt från frågeställning till detaljformuleringar till om ämnet över huvud taget bör tas upp.

Nå. Nu handlar detta inte om den sortens intervjuer. Utan om folk som vill berätta.

Folk som varit med och byggt broar, eller råkat bli vittnen till rån eller olyckor, eller kört racerbil eller åkt båt jorden runt.

Berättande intervjuer.

Precis som tillsvars-intervjuerna kräver de en genomtänkt frågekedja. Därtill ett engagerat lyssnande och – om nödvändigt – intelligent improviserade följdfrågor.

Kommer man inte på någon intelligent improvisation ska man tillämpa den fråga som intervjugurun Björn Häger utnämnt till världens bästa:

”Hur då?”

Om en brobyggare säger att han får många minnen, eller om en världsomseglare säger att hon fått många tankar med sig från resan, eller om en racerförare hävdar att hen haft fler spännande upplevelser än man kunnat drömma om…

Då säger man ”Hur då?”

Möjligen med preciseringen: ”Vad då för minnen?” Och kanske till och med ett ytterligare: ”Hur då till exempel?”

Om intervjupersonen säger sig inte kunna komma på något konkret minne är det dags att börja jobba hårdare. (Nej, inte genom att i ett argt tonfall pressa personen: Men vad är det då för minnen??!! utan:) Kanske titta tillsammans på bilderna som ligger där på bordet, kanske fånga upp en tråd från något personen sagt tidigare, kanske ta med personen ut på en promenad (med tillhörande fortsatt intervjuande). Allt i syfte att återkalla de minnen ni båda vet finns där.

Att höra spännande minnen är intressant.

Att höra att en person har spännande minnen är inte intressant.