Fjärde delen i Scrapingskolan

Här – äntligen – kommer nästa del i Scrapingskolan. Den här gången tittar vi lite mer på xpath-språket som man använder för att formulera sina sökfrågor mot de webbsidor man vill hämta hem sina data ifrån.

Är det något du vill få djupare eller annorlunda förklarat? Eller saknar du något? Kom gärna med kommentarer och inspel!

Tredje delen i Scrapingskolan

Nu är tredje delen av Scrapingskolan klar. Den här gången tar vi steget från att ha plockat data från ordentligt formaterade xml-dokument till att inse att html – språket som bygger upp webben – faktiskt är en variant av xml och att vi därmed kan använda samma teknik för att strukturera upp data som förekommer på webbsidor.

Men den teoretiska insikten är en sak. Det luriga är förstås att hitta en sida, undersöka dess kod och förstå strukturen. Det är då man tagit sig igenom de((n tankeprocessen och funderingen på egen hand, utan receptlösningar och steg för steg-beskrivningar, som man kan skriva in rätt ”sökväg” och plocka ut det man är på jakt efter.

Så – trots den där nyhetsmentaliteten som många av oss har i oss – försök att öva upp ett tålamod. Det kan vara lite spännande att återupptäcka sitt eget intellekt och komma till insikten att det går att komma på lösningar på komplexa frågeställningar själv – i stället för att ringa en expert.

(Men sedan kommer förstås redaktören och vill ha en intervju med den där experten i alla fall… :-))

I dag fortsätter scrapingskolan

Nu är nästa del av Scrapingskolan färdig – varsågoda: 

I första delen använde vi funktionen ImportHTML() i kalkylarksdelen av Google Drive för att plocka hem färdiga tabeller och listor från webbplatser.

I den här delen förbereder vi nästa steg som är att samla in data som visserligen är strukturerad, men inte som en tabell eller lista i html, utan på något annat sätt. För att kunna göra det behöver vi veta hur man navigerar i xml-baserade dokument – och plockar hem data ur dem med hjälp av funktionen ImportXML().

En perfekt fredagssysselsättning! Ha så kul! Fortsättning följer…

Häng med då jag lär mig scraping

Jag är sjukt nyfiken på datajournalistik.

Nu har jag ingen erfarenhet, men jag är hyfsat bra på datorer och håller på att försöka lära mig programmera ordentligt. Genom åren har jag återkommit till det vid flera tillfällen, men nu börjar det faktiskt lossna allt mer.

Det känns som om de här två intresserna för journalistik och programmering skulle kunna mötas ganska bra i datajournalistiken.

För att motivera mig själv att ta mig igenom e-boken Scraping for journalists tänkte jag nu göra det inför öppen ridå. Och samtidigt dela med mig av det jag lär mig här på bloggen.

Så – ni som vill lära er något nytt och spännande: Häng med! Och ni som redan kan: Hjälp mig! Rätta mig! Förklara bättre! Bidra med egna praktiska övningsexempel!

Till att börja med är målet att publicera en instruktionsvideo i veckan – en per kapitel i boken. Den första finns längst upp i det här inlägget. Håll tummarna för att vi tar oss igenom hela boken. För visst verkar det spännande?

Skapa dina egna floskler

Ibland stöter man på de där intervjupersonerna som kan prata hur länge som helst utan att egentligen säga någonting. Ofta säger de ingenting på ett slagkraftigt sätt, i saftiga munsbitar på 15-20 sekunder som passar bra att klippa ut som en synkbit i ett inslag.

Aptitligt i redigeringen – men lömskt, förstås.

Plugga på här för att genomskåda mumbo-jumbot i ekonomijobben
Plugga på här för att genomskåda mumbo-jumbot i ekonomijobben

För att lära sig genomskåda corporate bullshit – eller åtminstone för att få sig ett gott skratt – rekommenderar jag Avigsidans Floskelgenerator. Man kan ändra de tre delarna av floskeln individuellt, för att kunna skapa en enorm mängd företagsfloskler. Det går också att ändra alla slumpmässigt, översätta mellan svenska och engelska – och framförallt göra en snabb Powerpoint av sitt mästerverk.

Vi har en stabil grundplattform för flexibla lösningar och prioriterar engagemang och kompetens för att optimera resursanvändningen och effektiviteten.

Visst är det vackert? Det kan väl vara något att ha med sig nästa gång man gör en delårsrapport?

Gör ett tidsklipp

Det finns en poäng med alla de där färgglada tangenterna
Det finns en poäng med alla de där färgglada tangenterna

Jo, vi tjatar en del om kortkommandon här. Men det här är något annat. I de fall vi hittills diskuterat har det handlat om något som ger något extra utöver det vanliga sättet att arbeta. Grunden är fönster och ikoner – och sedan kan man komplettera det arbetssättet med kortkommandon som gör en snabbare och effektivare.

Men då det kommer till videoredigering skulle jag vilja hävda att det är annorlunda. Där är det knapptryckandet som bör vara standard – som man eventuellt kan komplettera med vissa muskommandon. I det fallet skulle jag hävda att det är missbruk att i första hand jobba med musen.

Och jo, jag erkänner, jag missbrukar musen ibland då jag klipper inslag. I mitt fall är skälet ofta att jag sitter vid en ny dator dit mina vanliga inställningar inte följt med. Men nu var det inte dåliga ursäkter vi skulle diskutera.

Det finns ju förmodligen en god anledning till de specialdesignade tangentborden med de färgglada knapparna. Man är beredd att betala någon tusenlapp extra för att bli påmind om alla de där knapparna. För att det är bättre så.

Som SVT-medarbetare är jag fostrad i Avid-världen. Den är rigid, med ordning och reda och idén att var sak har sin plats. Flyttar runt klipp gör man i Segment mode, förlänger klipp gör man i Trim mode, och så vidare. ”Lite tyskt”, har det beskrivit som.

Saker och ting kan ligga på olika knappar beroende på hur du valt dina inställningar, men j-, k- och l-tangenterna brukar man alltid kunna lita på. De spelar bakåt, pausar respektive spelar framåt. Flera tryck bakåt eller framåt ger snabbare hastighet. Med piltangenterna brukar man kunna hoppa en ruta åt gången.

Jag sätter in- respektive ut-punkter med i och o. Med q och w går jag till de valda in- respektive ut-punkterna. Se också till att kunna hoppa ett klipp åt gången. Med 1 och 2 kan jag hoppa 10 rutor åt gången. Och så har vi förstås Escape för att hoppa mellan Källfönstret och Timeline.

Man ska förstås inte lära sig en massa kortkommandon man aldrig använder. Men i fallet videoredigering, då man har ett specialtangentbord, med symboler på, behöver man ju inte balasta minnet på samma sätt. Snabbast blir man förstås på de kommandon som man använder så pass ofta att de fastnar i muskelminnet – men man har ju också god hjälp av att försöka förstå de symboler som sitter på tangenterna.

Ett bra exempel på enkla symboler är de för in- och utpunkter. De ser ju ut som hakparenteser. Har man fattat det, så är det ganska enkelt att lista ut att den tangent som innehåller två hakparenteser intill varandra sätter in- och ut-punkter kring det klipp som är markerat i Segment mode. Och att inveterade hakparenteser (ljus symbol på mörk bakgrund) betyder att man tar bort desamma.

En annan vettig symbolik är färgkoderna rött och gult. Då man markerar klipp kan man göra det med en gul eller en röd pil. Då man klipper ner något på timeline kan man göra det med en röd eller en gul pil. Det är lite lurigt att exakt sätta ord på skillnaden, men om man har med sig att rött skriver över medan gult gör ett hål och skjuter in det man jobbar med, så är man på god väg i sin förståelse. Det bästa är förstås att testa.

Om du vill ta tag i ditt liv och lära dig lite Avid-kortkommandon, så tycker jag också rödpilen i Segment mode är viktig, liksom mixar, Trim mode, vänster- och högertrim (både 1 och 10 rutor åt gången), klippa ner på Timeline, och markera respektive avmarkera spår. De sistnämnda tänker jag varje dag att jag ska bli bättre på.

Zoomar in och ut på timeline gör jag också relativt ofta (då jag kommer till jobbet i dag ska jag ta reda på hur man snabbzoomar till att passa in hela inslaget på Timeline!).

Och nu då jag ändå är inne på ämnet kommer jag att tänka på en gammal goding: Play to out. I min värld har den fallit lite i glömska, men den är fantastisk då man vill testa om ett klipp sitter.

Har du några favoriter? Vad har jag missat? Fan, det här kan man ju prata om hur länge som helst! 🙂

Tala tydligt – men på rätt sätt

Det finns en del myter om vad det är att vara tydlig då man speakar. Tydlighet handlar ju om att den som tar del av inslaget ska begripa vad man vill ha sagt.

Ofta snöar vi in på själva texten. Vi funderar på om ett visst ord är begripligt eller inte. Är det för mycket av ett fackuttryck? Fattar bara akademiker? Eller bara bilmekaniker?

Men det handlar inte bara om orden. Det handlar om meningarna, och det handlar framför allt om hur vi säger dem, hur vi betonar, om det går upp eller ner, och så vidare.

Ibland får man för sig att det är svårt att förstå om vi talar för snabbt. Men en långsamt läst text, utan någon energi, ett monotont elände utan engagemang – är inte lätt att ta till sig. Den är bara trist. Och svårtillgänglig just därför.

I stället handlar det om att gasa och bromsa, och göra vettiga pauser. För om vi drar på rätt ordentligt då vi pratar om enkla saker, för att sedan sakta in, pausera, betona och verkligen visa med rösten hur de komplexa delarna hänger ihop – så har vi råd med båda.

Vi behöver inte rasa på i idiottempo genom hela texten, för att allt vi vill ha sagt ska få plats. Men vi ska inte heller tro att vi blir intressantare bara för att vi pratar långsamt.

Poängen är att vi måste gasa och bromsa samtidigt. Som cheferna brukar säga.

Sluta ljuga om brist på tid för soundbites

Jag brukar argumentera för att använda ljud i inslagen, soundbites, för att göra dem lite mer levande. Ett motargument man kan stöta på är att man inte har plats. Man skapar en motsättning mellan speakar och synkar, som anses stå för fakta, och soundbites och miljö – som bara anses vara ”form”.

Mot det finns det åtminstone två goda motargument.

För det första finns det ingen sådan motsättning. Formkänslan gör att du kan förmedla fakta med hjälp av soundbites och bilder. En rosa himmel bakom alla poliserna säger väl att ”det var vid en gryningsräd som polisen hittade bevisen”? Är det intressant om det var 2.000 eller 3.000 demonstranter? Nog ser man på bilderna att det var rätt många?

För det andra får de visst plats. För en hel del fakta är ganska värdelösa. Inte därför att de är fakta, utan därför att ingen minns den om inslaget i övrigt är för trist och dött. Hur lång tid tar det att säga ”Det var vid fyratiden i morse som poliserna slog till på Stora torget mitt i centrala Sundsvall”? (Jo, sådant där sägs.) Det tar förstås inte många sekunder, men det är ju i de termerna vi resonerar då vi säger att vi inte har plats. Vi kan visa bilderna lika länge, med atmosfärljudet uppdraget, och lägga en skylt där det står ”Stora torget Sundsvall”. Då har vi förmedlat samma information och gjort det på samma tid – men mera levande.

Så – sluta ljuga om att ni inte har plats för soundbites!

Spara programmen till senare

Äntligen lyckades min högsta chef ta sig igenom nyhetsbruset med budskapet att alla våra kanaler ska sändas live på nätet. Det var välkommet. Jag har ingen aning om vad det är för rättighetsförhandlingar som gått i lås, men vet ju att tjänstemän som vandrar i korridorer och 34-åriga ynglingar i blåljussken uppnår verkshöjd i den här delen av världen.

Ännu verkar det finnas knutar att lösa. På radiosidan kan vi ju sedan länge ladda hem poddprogram till mobilen, så att vi kan höra programmen också då vi saknar bra uppkoppling. Dit har våra chefer och jurister på TV-sidan nog en bit kvar.

Med hjälp av Pirateplayer har en tv-reporter möjlighet att enkelt spara sina egna inslag
Med hjälp av Pirateplayer har en tv-reporter möjlighet att enkelt spara sina egna inslag

Tills vidare får man försöka klara sig själv. Sajten Pirateplay utvecklar verktyg för att kunna spela in sådant som streamas från de svenska Play-tjänsterna, bland annat SVT Play. Med hjälp av deras program Pirateplayer kan man enkelt bläddra igenom innehållet och sedan strömma det till sin egen dator, eller spela in strömmen.

Enstaka nyhetsinslag som vi producerar på mitt jobb lyckades jag inte hitta då jag snabbkollade, men en hel sändning går fint att ladda hem till sin egen dator. På så sätt kan man till exempel ladda hem gårdagens sändning medan man duschar, föra över den till plattan medan man borstar tänderna och därefter kolla på den på bussen på väg in till jobbet i lugn och ro – även om täckningen på vägen är usel.

Tidnignen Datormagazin som i sitt senaste nummer tipsar om programmet (under den vitsiga rubriken ”Spara på strömmen”), hade inte lyckats nå SVT för en kommentar – men skriver i en faktaruta att ”branschens parter [tycks] vara överens om att privatkopiering är lagligt” – till skillnad från piratkopiering. Då handlar det alltså om att vi ”spelar in” för eget bruk och inte sprider vidare materialet till andra.

Tillägg: Då jag påbörjade det här blogginlägget, så gick det utmärkt att nå Pirateplay. Då jag färdigställe det verkar sidan inte fungera. Jag vet just nu inte vad det beror på – om det är temporärt eller permanent – men väljer ändå att publicera tipset.

Lär dig digitalt självförsvar

Crypto Party anordnas i Stiftelsen för internetinfrastrukturs lokaler på Söder i Stockholm
Crypto Party anordnas i Stiftelsen för internetinfrastrukturs lokaler på Söder i Stockholm

Den 16 februari är en lördag. På mitt schema står det att jag ska sitta ensam på jobbet och webba mellan 10 och 18. Om det inte vore på det viset, skulle jag försöka ta mig till Stockholm i stället. Då anordnas nämligen vad arrangörerna kallar Sveriges första Crypto Party. Du som vill skydda din identitet på nätet verkar hitta en hel del matnyttigt där.

Arrangörerna utlovar ”en spektakulär heldag fylld av föredrag, workshops och mingel”.

Det är verkligen en heldag med schema från 9 till 18. Bland annat står gratis digitalt självförsvar på agendan. Jag har tidigare skrivit om boken Digitalt källskydd som gavs ut i samarbete mellan Journalistförbundet och IIS, Stiftelsen för internetinfrastruktur (Som av en händelse arrangeras dagen i IIS:s lokaler.). Bland annat Sus Andersson, som var en av bokens författare, håller ett föredrag som följs upp av en workshop:

Ta med din egen dator och få hjälp att komma igång med de olika tekniker du som journalist behöver behärska för att kunna skydda dina källor. Här får du hjälp med att hitta och installera de program du behöver och en möjlighet att ställa alla dina frågor.

Men frågan rör inte bara journalister:

Även källor har god nytta av grunderna i digitalt källskydd. Vem vet när man behöver vända sig till en journalist med känslig information? Då kan det vara bra att veta hur man skyddar sig själv.

Det låter som en spännande dag! Hoppas något av det livestreamas!