I dag fortsätter scrapingskolan

Nu är nästa del av Scrapingskolan färdig – varsågoda: 

I första delen använde vi funktionen ImportHTML() i kalkylarksdelen av Google Drive för att plocka hem färdiga tabeller och listor från webbplatser.

I den här delen förbereder vi nästa steg som är att samla in data som visserligen är strukturerad, men inte som en tabell eller lista i html, utan på något annat sätt. För att kunna göra det behöver vi veta hur man navigerar i xml-baserade dokument – och plockar hem data ur dem med hjälp av funktionen ImportXML().

En perfekt fredagssysselsättning! Ha så kul! Fortsättning följer…

Häng med då jag lär mig scraping

Jag är sjukt nyfiken på datajournalistik.

Nu har jag ingen erfarenhet, men jag är hyfsat bra på datorer och håller på att försöka lära mig programmera ordentligt. Genom åren har jag återkommit till det vid flera tillfällen, men nu börjar det faktiskt lossna allt mer.

Det känns som om de här två intresserna för journalistik och programmering skulle kunna mötas ganska bra i datajournalistiken.

För att motivera mig själv att ta mig igenom e-boken Scraping for journalists tänkte jag nu göra det inför öppen ridå. Och samtidigt dela med mig av det jag lär mig här på bloggen.

Så – ni som vill lära er något nytt och spännande: Häng med! Och ni som redan kan: Hjälp mig! Rätta mig! Förklara bättre! Bidra med egna praktiska övningsexempel!

Till att börja med är målet att publicera en instruktionsvideo i veckan – en per kapitel i boken. Den första finns längst upp i det här inlägget. Håll tummarna för att vi tar oss igenom hela boken. För visst verkar det spännande?

”I couldn’t possibly comment.”

”You may very well think that. I couldn’t possibly comment.”

Citatet kommer från huvudpersonen i House of Cards, en hyllad brittisk miniserie som nu moderniserats och amerikaniserats av Kevin Spacey, David Fincher m fl för Netflix.

(Serien går alltså inte i en traditionell tv-kanal först för att sedan nå streamingtjänsterna flera år senare, utan här är det premiär hos nätjätten, och den som vill kan se flera avsnitt på rad redan från premiären. Ett för många kanske drastiskt uttryck för förändringarna inom tv-världen.)

Huvudpersonen är en trotjänare i det regerande partiet, som förbigås av en tillträdande regeringschef och reagerar på detta genom att…

Ja, detta är inte en blogg som ägnar sig åt spoilers. Däremot åt rekommendationer. Och denna berättelse kan rekommenderas.

Jag har sett hela den brittiska serien, både när den gick i svt på 90-talet och härom året då den repriserades av någon av de mindre reklamkanalerna.

Av den amerikanska nyinspelningen har jag hittills bara sett första delen och det har rests frågetecken kring om Spacey och kompani ska lyckas fylla kostymen de tagit på sig – och om berättelsen klarar transformationen från det brittiska politiska systemet till det amerikanska.

Den som inte vill chansa bör kanske överväga en dvd-beställning av originalet innan man kastar dig över Netflix-eposet.

Men varför tar vi nu över huvud taget upp detta på en journalistblogg?

Därför att en icke oansenlig del av detta politiska drama handlar om journalistik. Om maktspel och källor och konsekvenser.

Och mer precist: om fördelar och nackdelar med att skaffa sig en lysande läcka som man sätter sig i beroendeförhållande till – ett ständigt aktuellt ämne inte minst i dagar av nya journalistroller och debatter om nära politikerumgänge.

House of Cards fyller sin plats på vilken journalistikutbildning som helst. Eller redaktionskonferens. (Okej, en lång konferens.)

Dessutom är det en spännande, rolig och fascinerande saga. Definitivt i den brittiska och förhoppningsvis också i den amerikanska versionen.

Och citatet då, dagens rubrik?

Det är formuleringen som huvudpersonen använder för att bekräfta uppgifter.

”You may very well think that. I couldn’t possibly comment.”

Tro det eller inte – i serien känns det fullständigt logiskt.

Uppdaterat 140407: Nu finns det brittiska originalet också på Netflix. Så nu är alla ursäkter borta.

Skapa dina egna floskler

Ibland stöter man på de där intervjupersonerna som kan prata hur länge som helst utan att egentligen säga någonting. Ofta säger de ingenting på ett slagkraftigt sätt, i saftiga munsbitar på 15-20 sekunder som passar bra att klippa ut som en synkbit i ett inslag.

Aptitligt i redigeringen – men lömskt, förstås.

Plugga på här för att genomskåda mumbo-jumbot i ekonomijobben
Plugga på här för att genomskåda mumbo-jumbot i ekonomijobben

För att lära sig genomskåda corporate bullshit – eller åtminstone för att få sig ett gott skratt – rekommenderar jag Avigsidans Floskelgenerator. Man kan ändra de tre delarna av floskeln individuellt, för att kunna skapa en enorm mängd företagsfloskler. Det går också att ändra alla slumpmässigt, översätta mellan svenska och engelska – och framförallt göra en snabb Powerpoint av sitt mästerverk.

Vi har en stabil grundplattform för flexibla lösningar och prioriterar engagemang och kompetens för att optimera resursanvändningen och effektiviteten.

Visst är det vackert? Det kan väl vara något att ha med sig nästa gång man gör en delårsrapport?

Så drar du nytta av agenter och larm

Nej, det handlar varken om säkerhetstjänster eller blåljusnyheter.

Det handlar om den typ av tjänster som gör det möjligt för oss att följa ett ämne, en person eller ett begrepp utan att själva göra aktiva sökningar varje dag.

Ett bas-exempel är Google Alerts, som vi skrivit om tidigare. Men även sökords-kolumner i Tweetdeck är ju ett slags alerts – man blir uppmärksammad varje gång ett visst begrepp dyker upp på Twitter.

Och ganska många nättjänster som riktar sig till journalister erbjuder också olika typer av agentverksamhet, exempelvis nyhetsbyrån Siren och bevakningsföretaget Retriever.

Envar kan nog förstå poängen med att snabbt få kännedom om ifall en tung politiker dömts för brott – eller om ett skumt företag uppmärksammas av en lokaltidning i en helt annan del av landet.

Samtidigt vet jag att många drar sig för att börja använda larmverktygen, av rädsla för att drunka i information – eller åt andra hållet: för att man inte tror att de ska ge någonting.

Jag har själv upplevt både överflödsproblemet och tomhetsfrustrationen, och har därför mejslat fram några grundregler för mig själv kring detta med larm och agenter. Håll till godo – och testa gärna och hör av er med egna erfarenheter:

1) Tänk framåt! Vilka stories vill jag ha koll på nästa nyhetsutveckling av? Vilka personer är så intressanta för vår redaktion att vi vill veta varje gång de omnämns? Försök få in en rutin av att ”fiska i framtiden”. Det kan antingen formaliseras till en redaktionell rutin – planeraren går igenom redaktionens larmbehov en gång i månaden – eller göras ad hoc när någon kommer att tänka på det. Bäst är kanske att kombinera metoderna: försöka att få till en redaktionell rutin men också lämna dörren öppen för den reporter som vill köra själv.

2) Tänk på begreppen! Det fanns en gång ett företag som hette Alphacash som var inblandat i en bedrägerihärva kring kontokort. Alphacash var ett fantastiskt sökord – eftersom det (då) inte fanns nånting alls annat på nätet som hette så.

Ni har hört det förut: ”Backa Elias Bondpä” är ett bättre sökbegrepp än ”Mikael Pettersson” – och det gäller förstås i framtidsfisket precis som i vanliga bakåt-sökningar. Men tänk på att det allmänna kan kompletteras till något mer specifikt. ”Mikael Pettersson” + reporter + svt kan vara en sökning som ger träffarna man är intresserad av. (Tänk på att olika larmtjänster kan ha olika regler för hur man kompletterar begrepp: den enes ”+” kan vara den andres ”AND” – och hos den tredje behövs kanske bara ett mellanslag.)

3) Välj intensitet! Handlar det om en nyhetsutveckling där du vill veta nästa steg minuten efter att det inträffat? Då kan det vara en poäng att be om larm i realtid, ”när-det-händer”. Men handlar det om att hålla koll på ett bolag som du gjorde ett gräv om för ett år sen, eller planerar att göra något på om ett halvår, då kan du nog nöja dig med att få ett mejl om dagen. Hos till exempel Google Alerts kan man också ställa in nivån för vilken typ av träffar man vill ha; ”allt” eller bara sånt som Google betecknar som ”bästa”-träffarna.

4) Justera! De allra flesta tjänsterna erbjuder en möjlighet till redigering av larm. Det vill säga det är enkelt att gå in och göra en sökning mer allmän eller mer exakt, beroende på vad man får för typer av träffar. Känner du dig spammad av agenterna? Kväv reflexen att bara svära åt eländet och gå i stället in på sajten och gör något åt saken!

5) Fler OR = färre larm! Du behöver inte skapa en separat agent för varje ord eller begrepp du är intresserad av. Du kan använda OR-begreppet (eller motsvarande) för att lägga in flera begrepp i samma sökning. ”Askersund OR Nora OR Örebro OR Kumla” för den lokalreporter som ska bevaka dessa kommuner t ex. (Handlar det just om kommunerna är kanske ”Askersunds kommun” att föredra.)

6) Testa! Det här är egentligen det enda tips du behöver 🙂 Det är bättre att göra fel och korrigera än att aldrig komma igång. Ett larm som översköljer dig med meningslösa träffar kan du lätt radera eller korrigera. Det larm du aldrig startat kommer aldrig att berätta för dig vad du missar.

Eller förresten: du kan kolla in konkurrentens nyheter dan därpå.

Det brukar vara en motivation så god som någon.

Spara programmen till senare

Äntligen lyckades min högsta chef ta sig igenom nyhetsbruset med budskapet att alla våra kanaler ska sändas live på nätet. Det var välkommet. Jag har ingen aning om vad det är för rättighetsförhandlingar som gått i lås, men vet ju att tjänstemän som vandrar i korridorer och 34-åriga ynglingar i blåljussken uppnår verkshöjd i den här delen av världen.

Ännu verkar det finnas knutar att lösa. På radiosidan kan vi ju sedan länge ladda hem poddprogram till mobilen, så att vi kan höra programmen också då vi saknar bra uppkoppling. Dit har våra chefer och jurister på TV-sidan nog en bit kvar.

Med hjälp av Pirateplayer har en tv-reporter möjlighet att enkelt spara sina egna inslag
Med hjälp av Pirateplayer har en tv-reporter möjlighet att enkelt spara sina egna inslag

Tills vidare får man försöka klara sig själv. Sajten Pirateplay utvecklar verktyg för att kunna spela in sådant som streamas från de svenska Play-tjänsterna, bland annat SVT Play. Med hjälp av deras program Pirateplayer kan man enkelt bläddra igenom innehållet och sedan strömma det till sin egen dator, eller spela in strömmen.

Enstaka nyhetsinslag som vi producerar på mitt jobb lyckades jag inte hitta då jag snabbkollade, men en hel sändning går fint att ladda hem till sin egen dator. På så sätt kan man till exempel ladda hem gårdagens sändning medan man duschar, föra över den till plattan medan man borstar tänderna och därefter kolla på den på bussen på väg in till jobbet i lugn och ro – även om täckningen på vägen är usel.

Tidnignen Datormagazin som i sitt senaste nummer tipsar om programmet (under den vitsiga rubriken ”Spara på strömmen”), hade inte lyckats nå SVT för en kommentar – men skriver i en faktaruta att ”branschens parter [tycks] vara överens om att privatkopiering är lagligt” – till skillnad från piratkopiering. Då handlar det alltså om att vi ”spelar in” för eget bruk och inte sprider vidare materialet till andra.

Tillägg: Då jag påbörjade det här blogginlägget, så gick det utmärkt att nå Pirateplay. Då jag färdigställe det verkar sidan inte fungera. Jag vet just nu inte vad det beror på – om det är temporärt eller permanent – men väljer ändå att publicera tipset.

Så rensar du bort skräpet i svensk politik

(Ja, med en sån rubrik kan man inte låta bli att läsa, eller hur?!)

Twitters hashtaggar (#ord #med #fyrkanter #framför) är utmärkta verktyg för den som vill följa nyheter och diskussioner kring ett visst ämne. Den som vill veta allt om årets grävseminarium har förstås koll på #gräv13, den som gillar viktiga konsumentfrågor följer #konsument och den som är intresserad av denna bloggs specialämne söker #journalistik.

twitter.com kan man både göra och spara hashtag-sökningar. (Observera dock att det första resultatet alltid blir ”Top tweets”, dvs ett urval som Twitter gjort och som kan framhålla ett gammalt inlägg som fått stor spridning framför nyare mer aktuella poster. Vill du ha rubbet och uppdaterat i realtid trycker du på ”All”.) Och med program och appar som Tweetdeck kan man hålla koll ännu mer effektivt, med särskilda kolumner för varje hashtag (eller annat sökord, eller begrepp, eller användare, eller grupp av användare…) vilket vi berättat om här.

Ibland funkar dock inte taggjakten som man vill. Om en hashtag snabbt blir populär drabbas den med tråkig regelbundenhet av spam, från avsändare med mycket marginellt intresse för ämnet i fråga.

Härom dagen hände detta hashtaggen #svpol, som står för svensk politik (ersatte #val2010 efter valet 2010), gissningsvis på grund av många tweets kring ministerskiftet i regeringen. En realtidssökning kunde se ut så här:

(65) Twitter - Search - #svpol

#svpol-taggen har redan i normalfallet en lätt spamvarning över sig, eftersom den är mycket frekvent använd av alla möjliga personer kring alla möjliga frågor. Men här blev den helt oanvändbar.

Vad göra? Vi drar oss till minnes en av de smarta avgränsningar man kan göra i Twitter (och som vi skrev om i den gamla 6 metoder…-posten), nämligen på språk.

Lang:sv är formuleringen som här kan göra underverk – eftersom det inte är så många spammare som spammar på svenska.

Låt oss testa.

Twitter - Search - #svpol lang-sv

Resultat är precis det önskade. Spammen är borta.

Som en bonus när jag tar upp detta på Twitter så fyller Martin Löwdin på med -RT, alltså ett minus följt av förkortningen för Retweet.

På detta sätt slipper man alla tweets som inte är ”original”. Men se upp med den avgränsningen; många retweetar ju med egna kommentarer, och dessa man kanske vill ta del av.

Lär dig digitalt självförsvar

Crypto Party anordnas i Stiftelsen för internetinfrastrukturs lokaler på Söder i Stockholm
Crypto Party anordnas i Stiftelsen för internetinfrastrukturs lokaler på Söder i Stockholm

Den 16 februari är en lördag. På mitt schema står det att jag ska sitta ensam på jobbet och webba mellan 10 och 18. Om det inte vore på det viset, skulle jag försöka ta mig till Stockholm i stället. Då anordnas nämligen vad arrangörerna kallar Sveriges första Crypto Party. Du som vill skydda din identitet på nätet verkar hitta en hel del matnyttigt där.

Arrangörerna utlovar ”en spektakulär heldag fylld av föredrag, workshops och mingel”.

Det är verkligen en heldag med schema från 9 till 18. Bland annat står gratis digitalt självförsvar på agendan. Jag har tidigare skrivit om boken Digitalt källskydd som gavs ut i samarbete mellan Journalistförbundet och IIS, Stiftelsen för internetinfrastruktur (Som av en händelse arrangeras dagen i IIS:s lokaler.). Bland annat Sus Andersson, som var en av bokens författare, håller ett föredrag som följs upp av en workshop:

Ta med din egen dator och få hjälp att komma igång med de olika tekniker du som journalist behöver behärska för att kunna skydda dina källor. Här får du hjälp med att hitta och installera de program du behöver och en möjlighet att ställa alla dina frågor.

Men frågan rör inte bara journalister:

Även källor har god nytta av grunderna i digitalt källskydd. Vem vet när man behöver vända sig till en journalist med känslig information? Då kan det vara bra att veta hur man skyddar sig själv.

Det låter som en spännande dag! Hoppas något av det livestreamas!

Knappa mer i Google Reader

Du som också använder Google Reader för att följa nyheter via RSS-flöden har en hel del tid och ansträngning att tjäna på att använda tangentbordet i stället för musen. Hittills är det väl i huvudsak tre olika tangentbordskommandon jag använt mig av:

  • J – gå till nästa text
  • K – gå till föregående text
  • Mellanslag – bläddra framåt en skärmsida i aktuell text
  • S – stjärnmärk texten

Nu försöker jag leva lite mer ergonomiskt. Därför har jag köpt ett nytt bättre tangentbord, men också lärt mig en nygammal textredigerare, men också lite nya tangentbordskommandon. Till exempel de här i Google Reader:

  • Skift + N – gå till nästa prenumeration
  • Skift + P – gå till föregående prenumeration
  • Skift + O – öppna aktuell prenumeration
  • V – visa källtexten

Det här gör att jag knappt behöver sträcka händerna efter musen då jag sitter och läser igenom mitt flöde. Då jag läst klart i källtexten kan jag använda mig av Chromes tangentbordskommando:

  • Ctrl + W – stänger aktuell flik

På det viset kommer jag tillbaka till mitt flöde igen. Och vill jag googla efter något, så är det ju bra att ha i bakhuvudet att adressfältet i Chrome också är ett sökfält. Följande två tangentbordskommandon är då bra att memorera:

  • Ctrl + L – flytta markören till adress-/sökfältet
  • Tabb – flytta tillbaka markören dit där den var, ifall man ångrar sig
  • Alt + Enter – öppna den nya adressen/resultatet av sökningen i en ny flik

Testa. Du behöver ju inte lära dig alla på en gång!

 

Ta bort hemlisarna ordentligt

Nästan varje dag i yrket som nyhetsjournalist utbyter man ju extremt känsliga handlingar med hemliga källor i mörka parkeringsgarage (inte?). Efter en tid tenderar det ju att bli ganska mycket material som man lagrar elektroniskt, och även den mest arkivbenägne måste så småningom rensa i sitt digra researchmaterial.

Då gäller det att tänka sig för.

Om du drar filerna till papperskorgen, så har det inte särskilt mycket att göra med borttagning över huvud taget. Papperskorgen är en mapp i din dator, så ingenting raderas – det bara flyttas. Sedan finns det förstås lite extrafunktioner knutna till papperskorgen, till exempel möjligheten att tömma den. Men filerna är definitivt inte borta. Speciellt inte då din hemliga källas arbetsgivare stjäl din laptop.

Nästa steg är att ta tala om för datorn att faktiskt ta bort filen, att rensa papperskorgen. Då borde man väl ändå vara säker på att den inte finns kvar?
Det kan man inte.

Föreställ dig din hårddisk som en en byrå med en stor mängd lådor. Du lägger dina data i en låda och klistrar på en etikett, alltså ger filen ett filnamn. Då man kommer med nya data som man vill lagra i byrån, så gäller regeln att man får ta vilken låda man vill, så länge den saknar etikett.

Vad man gör då man säger åt datorn att radera filen, är att man rycker bort etiketten från lådan. Det är alltså fritt fram att stoppa in nya data i lådan. Ligger det redan något där, så slänger man det; det är ju fritt fram, eftersom etiketten är borta.

Men innehållet i lådan är kvar fram till dess att man lägger dit något nytt! Och, förstås, möjligt att plocka fram för den som har kunskaperna (vilket du förstås uppskattar, då du råkar radera alla foton av barnen).

”Kunskaperna” förresten – ladda hem till exempel Recuva och testa själv. (Läs mer i artikeln 15 Free File Recovery Software Programs. A List of the Best Free Undelete Software for Windows). Det är inte rocket science.

Det finns förstås en bot. Om nu filerna försvinner på riktigt först då de skrivs över, så är det väl det man får göra. Och naturligtvis finns det program som raderar just på det sättet. Då man säger att man vill radera en fil, så skrivs den över med slumpmässigt skräp.

Ofta kan man göra det i omgångar: skriva över filen med slumpmässigt skräp som man skriver över med slumpmässigt skräp som man skriver över med slumpmässigt skräp… Tills filen helt enkelt är ordentligt borta.

I artikeln 5 Tools To Permanently Delete Sensitive Data From Your Hard Drive tas ett antal program och metoder upp för hur man kan radera data säkert och permanent.

Eller fortsätt rewrita TT, så är du också safe.