Webben – Sida 13 – Journalisttips

Emmas T:s många identiteter – så googlar du bilder

När jag i våras granskade de nya guldhandlarna på nätet stötte jag på sajten Guldkit som inte visade upp några priser men kunde ståta med ett antal mycket positiva kundrekommendationer. Där fanns inga efternamn men flera glada ansikten.

Var bilderna äkta? Jag prövade Googles bildsökfunktion och kunde snabbt se att så inte var fallet. Flera av kunderna kunde återfinnas på andra sajter i helt andra roller, bland annat ”Emma T” som verkade syssla med både inkontinensbehandling och skilsmässorådgivning.

Det var naturligtvis köpta bilder, vilket visade sig i en av träffarna.

Hur gör man då för att ”bildgoogla”? Börja med att högerklicka på den bild du är intresserad av. Markera ”Kopiera bildwebbadress”.

Gå sedan till Googles bildsökningssida och klistra in adressen (Ctrl + V) och klicka på frågetecknet. (Om du gör sökningen på Googles vanliga söksida så får du ett förslag om att testa bildsökning i stället.)

Sen kan du börja sondera bland träffarna. Du får både träff på bilder som Google uppfattar som ”visuellt liknande”, och på sajter som har just din bild (om såna finns).

Förutom granskning av misstänkta köpebilder kan bildsökningen bl a erbjuda en möjlighet för alla fotografer som misstänker att bilder utnyttjats på nätet utan tillåtelse. Den som letar efter bilder från samma fotosejour har också hyggliga möjligheter att hitta rätt med de ”visuellt liknande” träffarna.

Vill man bli lite nätfilosofisk kan man ju se en paradox – eller fullbordad cirkel – i att webbföretagens webbföretag Google nu gör det möjligt för fotografer att hitta de verk som spridits utan tillåtelse på den webb som så ofta beskrivits som omöjlig att överblicka.

Men även utan filosofi är bildsökning ett spännande och funktionellt verktyg i vår research.

Öppna ögonen på folk – rättstavat

Det är förstås ett stort ansvar att leva upp till mottot att erbjuda ”Världens nördigaste reporterblogg” – och ibland kan jag känna att jag tolkar den där nördigheten ganska mycket åt teknikhållet.

Men språket hör ju också ofta till journalistens favoritnördområden. Då min klass på journalistutbildningen i Sundsvall (Jour 00, om någon undrar) fick frågan om varför vi ville bli journalister var det i särklass vanligaste svaret: ”Jag älskar att skriva.”

Det främsta vapnet för språknörden: SAOL

Bibeln för oss språknördar är förstås SAOL, Svenska Akademiens ordlista (ni är väl med på att det är ”ie”? Och att det ska vara litet ”o” i ”ordlista”?). Och jag är fullt medveten om att det kanske inte är någon jättenyhet – men glöm inte att den finns på nätet. Ni som jobbar på tidning kollar säkert där dagligen, men vi etermediemänniskor som blir inslängda på webbpass med jämna mellanrum tänker kanske inte på det.

Jag har länkat till en del andra språkresurser i inlägget där vi listade vanliga felstavade ord.

Var det då ingen i vår klass som inte älskade att skriva? Jodå, göra världen bättre genom att avslöja missförhållanden fanns nog också där. En formulering minns jag fortfarande: ”Jag vill öppna ögonen på folk. Och slita av dem ögonlocken om det behövs.”

Men mellan ögonlocksavslitningarna kan nog ändå länken ovan komma väl till pass ibland.

Gästblogg: Vem står bakom sajten?

Dagens gästbloggare är Leo Wallentin, frilansjournalist och konsult på bland annat SVT, till exempel i uppmärksammade experimentverkstaden Nyhetslabbet. Dessutom en av personerna bakom knytkonferensen Trollen och rollen.

En kollega undrade härom dagen vem som stod bakom sajten politikfakta.se. På ”om oss”-sidan står, ganska intet-sägande, att ”Politikfakta är det vi heter. Vi tar reda på fakta – om politik”, och att ”[v]i har funnit att det finns ett mycket stort värde i att Politikfaktas granskare inte är offentliga. Intervjuer ger vi inte av praktiska och tidskrävande skäl.” På Facebooksidan beskriver de sig själva som en svensk motsvarighet till Pulitzerbelönade amerikanska politifact.com (från Tampa Bay Times).

Det allra första du ska göra om du behöver komma i kontakt med personen eller organisationen bakom en sajt (efter att ha tittat efter kontaktuppgifter i klartext på själva sajten då förstås) är att ta reda på vem som har registrerat domännamnet, alltså i det här fallet ”politikfakta.se”. Det är en koll som går på någon minut, och som ofta ger napp.

Varje dator som är uppkopplad till internet har ju ett ip-nummer, internets motsvarighet till ett telefonnummer, typ. Sveriges Radios webbserver heter till exempel 134.25.4.140. Skriv in 134.25.4.140 i webbläsaren så kommer du till Sveriges Radios hemsida. Domännamnen infördes i början av 1980-talet, för att kunna ha adresser till datorer som är enklare att komma ihåg, till exempel sverigesradio.se.

Organisationen som delar ut sköter administrationen av domännamn på internet heter Icann (om maktstriderna kring vem som ska administrera domännamn och IP-nummer på internet finns föresten många artiklar kvar att skriva). De har delegerat ansvaret till flera regionala organisationer, som i sin tur delegerat det till flera lokala organisationer. .se-domänen sköts exempelvis av den svenska Stiftelsen för Internetinfrastruktur.

De flesta administratörer av domännamn har en så kallad whois-tjänst, där man kan se vem som registrerat en viss domän. Hos IANA, den amerikanska organisation som på Icanns uppdrag sköter domännamnssystemet, finns en lista över alla toppdomäner, med information om vem som sköter dem, och var man hittar respektive whois-tjänst: https://www.iana.org/domains/root/db/

Har du en .se-domän går du till Stiftelsen för Internetinfrastrukturs hemsida, iis.se, knappar in domännamnet, ”politikfakta” i rutan ”sök efter ledigt domännamn”, och klickar på sök-knappen. På nästa sida får du veta att domänen registrerades den 11 mars 2011, via ett företag som heter one.com, och nu innehas av signaturen ”OneCom0001-28269”. Klicka på signaturen så får du veta, att bakom den döljer sig Olah Örtengren. (Gör du samma sak med journalisttips.se hittar du en Backa Elias Bondpä.)

Det finns bara en person med namnet Olah Örtengren, och söker vi lite på honom på nätet hittar finner vi en reklammakare som också driver bloggen Företagsam grön moderat, och borgerliga community-sajten Alliansens vänner. På sin Facebooksida skriver han också att han är ”faktagranskare på Politikfakta”.

En tjänst till ska nämnas: Alla de nationella toppdomänerna är ordnade under fem regionala myndigherer, så kallade RIR:er: AFRINIC för Afrika och Indiska oceanen, APNIC för Syd-, Ost- och Sydostasien samt Ocenien, ARIN för USA, Kanada och delar av Karibien, LACNIC för Latinamerika och delar av Karibien, samt RIPE NCC för Europa, Mellanöstern och Centralasien.
Hos alla dem kan man göra mer komplexa sökningar, t.ex. söka efter alla sajter registrerade hos en viss organisation, eller av en viss person. Å andra sidan kommer man, när det gäller sajter som drivs av privatpersoner, ofta inte längre än till webbhotellet den vägen. Du behöver ibland IP-nummer i stället för domännamn för att börja söka på RIR:erna whois-tjänster. Google på ”DNS IP”, så får du upp en massa sidor som översätter fram och tillbaka mellan domännamn och IP-nummer.

Sammanfattningsvis:

Leta rätt på whois-tjänsten för den aktuella toppdomänen, via IANA-listan
Sök efter kontaktpersoner där (notera att teknisk och administrativ kontakt ofta är kopplat till ett webbhotell eller liknande, snarare än den som faktiskt driver sajten.)
Leta eventuellt efter fler kontaktuppgifter via respektive RIR

Nu har vare sig Olah Örtengren på politikfakta.se, eller Backa Elias Bondpä på journalisttips.se, gjort någon större ansträngning för att dölja sina identiteter. Vill man bli svår att nå går det. Olika regler gäller för olika toppdomäner, men många toppdomäner tillåter att man registrerar sig via olika anonymiserings-ombud.
Vill man till exempel veta vem som registrerat avpixlat.info, via info-domänens whois-tjänst, så får man numera bara upp kontaktuppgifter till det kanadensiska bolaget Silent Register. (Söker man på Avpixlat.se på iis.se får man däremot fortfarande upp Kent Ekeroth som domäninnehavare.) När en person eller organisation aktivt försökt göra sig anonym på det här sättet får man ge sig in och leta ledtrådar på andra sätt. Några av dem ska jag gärna återkomma till i fler bloggposter!

Leo Wallentin

Gillar du Journalisttips? Prenumerera via mejl eller RSS. Och följ oss på Twitter och gilla oss på Facebook!

Uppdaterat 130602: Informationen från IIS kommer att strypas rejält från sommaren 2013. Leo Wallentin reder ut begreppen i denna post.

Uppdaterat 130813: Nu verkar det åter vara möjligt att begära ut namn på privatpersoner. Kolla kommentarerna från Anders Nyman i Leos post.

Ägna söndagen åt scraping

Lär dig en mängd olika metoder för att samla ihop data från webben

I dag tipsar jag om några intressanta resurser för oss som är nyfikna på datajournalistik och webscraping.

Webscraping handlar om att samla ihop data som presenteras på webbsidor, och se till att få den samlad i ett vettigt format så att vända kan vända och vrida på den, för att hitta mönster och kanske nyheter. Jag har tidigare skrivit om hur jag bar mig åt för att samla ihop ett stort antal e-postadresser till presskontakter från en sida där adresserna bara var länkade, inte stod utskrivna. Efter ett tips kunde jag senare visa ett ännu enklare sätt med hjälp av Chrome-tillägget Scraper.

Mannen som ledde in mig på rätt står, frilansjournalisten Jens Finnäs, har nu skrivit en mycket pedagogisk genomgång av Scraper som jag varmt kan rekommendera för den som är nyfiken på ämnet. Han utgår från en lista på webben över ledamöterna i Sveriges riksdag, och får med enkla medel in ledamöter med partibeteckning och kontaktuppgifter i ett kalkylark.

Att samla in data från nätet med hjälp av Googles kalkyblad har Leo Wallentin skrivit om i en ganska omfattande bloggpost på svenska. Han undersöker med hjälp av scraping vilka historiska personer som får äran att bli hedrade på Googles förstasida med jämna mellanrum. Jag gjorde något likande häromveckan i då jag postade Organisera webbdata i ett kalkylark.

Visst blir man inspirerad? Den lilla ansträngningen man behöver göra för att förstå koncepten betalar sig mångfalt i det repetitiva apgöra man slipper göra med de här metoderna.

Den som vill snöa in ordentligt kan ta sig en titt på e-boken Scraping for Journalists. Författaren Paul Bradshaw har givit boken den snärtiga undertiteln ”How to grab data from hundreds of sources, put it in a form you can interrogate – and still hit deadlines”, vilket borde ge en vink om vad det handlar om. Jag har börjat med den och tycker att det känns som om författaren träffat helt rätt.

Så såg sidan ut – förut

Inför valet 2010 gjorde jag en granskning av en Centerpartistisk riksdagskandidat med en märklig hemsida.

Det var en helt öppen hemsida med mängder av konspirationsteorier, bland annat om att judar skulle ligga bakom 11 september-attackerna och Förintelsen.

Eftersom han fått plats på Stockholmscenterns riksdagslista två val i rad – alltså även 2006 – så ville jag förstås veta hur länge sidan funnits och hur den sett ut, i synnerhet som han själv marknadsfört den i Centerns interna informationsmaterial.

Kandidaten själv berättade att han hållit på sedan 2002 men jag ville inte bara ha hans utsaga. Och jag ville veta hur den sett ut.

Här kom tjänsten Wayback Machine väl till pass. Den sparar ”ögonblicksbilder” av webbsidor från hela världen, och har man tur har den råkat fånga just den sida man i dag är intresserad av.

I detta fall hade den det. Kandidatens sajt var uppsnappad många gånger, ända tillbaks till startåret 2002, och det visade sig också att den hade sett i stort sett likadan ut under alla dessa år. Formuleringarna om de judiska konspirationerna hade t ex funnits med från start.

Wayback Machine sparar inte alla sajter, och det kan gå lång tid mellan nedslagen på de den följer. Men exemplet med Centerkandidaten visar att det kan vara väl värt att göra ett försök även med små och till synes obskyra sidor.

Det som sparas är inte en ren bildfil utan ofta kan man följa länkar åtminstone ett steg från huvudsidan. Samtidigt som bilder och videofiler ofta saknas, av utrymmesskäl.
(Andra kul exempel kan vara t ex svt:s webb från 1996 eller Föreningen grävande journalister från 2002 – med reklam för att nästa års grävseminarium hålls i Göteborg…)

Och ni trodde Iphone var först... — Från svt.se anno 1996

Wayback Machine är för övrigt bara en del av jätteprojektet archive.org som även samlar andra mediatyper t ex texter, video och livekonserter (!). Ett paradis för arkivnörden således.

Har du gjort fynd på den historiska webben? Dela med dig i kommentarsfältet!

Hitta tillbaka till platser du besökt

Jag fortsätter här på temat från i förrgår, som handlade om att hitta tillbaka till sidor vi besökt tidigare. Då var problemet att vi hade råkat stänga en flik av misstag – och enkelt kunde öppna den igen.

Då påminde jag också om webbläsarhistoriken som det är lätt att glömma bort att den finns. Problemet med den är att man kanske rensat den – eller att man helt enkelt sitter på en annan dator då man vill komma åt den där sidan. Den där sidan som hade med något visst att göra – och som man är säker på att man sett förut.

Med SeenBefore kan man begränsa sina sökresultat i Google till sådana man besökt tidigare

Det ska erkännas att jag inte själv prövat tjänsten i dagens tips. Och då jag skulle testa inför författandet av det här blogginlägget – så visade det sig att tjänsten blivit så populär att man inte längre kan registrera sig. Men de bygger ut för fullt, och tar emot nya medlemmar endara dagen. Jag hörde om tjänsten i poddcasten Webbradion där man vittnar om dess förträfflighet.

Hur som helst – surfa in på SeenBefore och bekanta dig med tjänsten som gör att de sökresultat du får upp är sådana du besökt tidigare.

Scenariot är alltså att du sitter och gör research, googlar och hittar något som verkar lite halvintressant, men det var ett stickspår, så du fortsätter med det du egentligen höll på med. Vis av erfarenhet en vecka senare inser du att det var det där som du tidigare trodde var ett stickspår – som är grejen! Men du har din vana trogen raderat historiken i din webbläsare (alternativt sitter du vid en annan dator). Det är då SeenBefore gör nytta. Den kommer nämligen ihåg vilka sidor du besökt tidigare, och väljer bland dem då du googlar.

Tanken är alltså att du kommer ihåg ungefär vad du sökte på, eller någon formulering från den där sidan som kommit tillbaka till ditt minne – och att du googlar efter det, men i stället för att få de sedvanliga tio tusen träffarna, så får du i stället ett urval som baserar sig på det du redan besökt. Om du vill alltså – annars fungerar det som vanligt.

På sin sida förklarar utvecklarna hur tjänsten ska användas. Enligt utvecklarna själva älskar de min integritet över allt annat etc etc, men surfar du efter något du skäms över eller bedriver riktigt känslig research ska du kanske fundera en vända extra. Förstås.

Bibliotekarien med röntgenblick

– Det är som att komma in i världens största bibliotek, och få hjälp av en bibliotekarie med röntgenblick som blixtsnabbt scannar igenom alla böcker för att se vilka som har de och de orden i den och den följden.

Beskrivningen kommer från en god vän som för första gången testat Google Books. Han skulle på kort tid skriva en bok om ett land han visste mycket om, men där de personliga erfarenheterna måste kompletteras med uppgifter från referenslitteratur.

Böcker och uppgifter han till stor del kom att hitta via Google Books.

Googles bokprojekt är känt för många som ”jättescanningen Google håller på med där dom inte kommit överens med förlagen om publiceringen”. Och det är en korrekt sammanfattning: Google har gett sig på att scanna all världens böcker men hittills inte kommit överens med all världens förlag om villkoren för en eventuell publicering. Därför är bara en del av böckerna i Google Books läsbara i sin helhet.

Men många, många är ändå helt sökbara! Och i många fall får man dessutom upp ett avsnitt från texten som visar sammanhanget runt sökträffen. Och även om det inte finns något textavsnitt så får du alltid upp information som gör att du kan köpa boken, eller beställa den på ett (vanligt) bibliotek.

(Här Googles egen ”Om”-sida, och här Wikipedias beskrivning av projektet.)

Och om du tror att det bara handlar om engelskspråkiga böcker: börja söka! Av de miljoner som hittills scannats in är en inte oansenlig del svenska. Till och med inom det relativt smala ämnet journalistik.

Vi kan t ex pröva att söka begreppet ”God journalistik”…

…som ger 279 träffar, bland annat i Nils Hansons bok Grävande journalistik:

Den intresserade kan även söka exakta begrepp i skönlitteraturen:

Och här kan man se sammanhanget kring just denna formulering i en av Sjöwall/Wahlöös böcker:

Testa dina favoritämnen på svenska: företaget du följer, politiken du bevakar, kommunen du bor i…

Typiska användningsområden kan också vara:

Att hitta exakta litterära citat.
Att hitta böcker där personen NN, popgruppen XX eller begreppet YY varit omskrivna.
Att lokalisera ursprunget till ett uttryck som inte har någon trovärdig källhänvisning på nätet.
Söka böcker på engelska där Carl Bildt nämns.
Över huvud taget hitta info om sånt som kan tänkas finnas omskrivet i böcker och inte (bara) på nätet. (Dvs ganska mycket om man tänker efter.)

Vad hittar du när du testar bibliotekarien med röntgenblicken? Dela med dig i kommentarsfältet!

Får du inte in de där personerna i Excel?

Fick du ut alla de där namnen på skummisar till slut? Rad för rad, ett namn, en adress, ett telefonnummer – och beloppet de har förskingrat?

Du har fått mejlet och är ivrig att sätta dig och gå igenom alla 10.000 i Excel… då det visar sig att alla är inklistrade i ditt mejl som ren text och Excel inte vill veta av dem?

Möjligen kan i så fall det här vara handledningen du alltid drömt om! Tillsammans med textredigeraren Sublime Text 2. (Ja, den finns i en portabel version om du vill kunna köra den på jobbet utan att IT-säkerhetsmänniskorna lägger sig i…)

Alla är journalister – så lär du dig verktyget

Journalisttips.se drivs med WordPress - nu har vi möjligheten att lära oss vad vi håller på med — Journalisttips.se drivs med WordPress – nu har vi möjligheten att lära oss vad vi håller på med

Sannolikheten för att en stor del av dem som läser Journalisttips.se är journalister är väl ganska stor. Men vi har också andra läsare – till exempel studenter och andra som gärna vill få en inblick i hur reportrar gör och tänker.

Inte bara vi som är yrkesverksamma journalister publicerar tankar och idéer (och rentav journalistik!) på nätet, där det inte är de verktyg som vi använder på våra arbetsplatser som är de rådande. Vi tradjournalisters arbetsgivare har säkert goda skäl att kasta pengar efter dem som utvecklar kommersiella publiceringssystem, men annars är det fria öppen källkodsalternativ som är vanliga.

Joomla! och Drupal är namn på publiceringssystem som är välkända i webbvärlden, men kanske inte för en bredare publik. Det är däremot det system som vi använder för att driva Journalisttips.se – nämligen WordPress.

WordPress är mycket enkelt att använda, och finns i två varianter. Man kan antingen registrera sig som användare på wordpress.com. Då finns allt på deras servrar och det kan jämföras med att använda vilken bloggtjänst på nätet som helst.

Den som däremot verkligen vill driva sin egen WordPressajt beger sig till wordpress.org, där den riktiga programvaran finns. Du behöver en egen server eller ett webbhotell att lägga din sajt på. Vill du köra en egen server lokalt på din egen dator som en testmiljö kan du använda WampServer. För att klara de här stegen behövs förstås en viss kunskap, men då det är överstökat handlar det mesta om att lära sig själva WordPress.

Det är då det är så praktiskt ordnat att svenska WordPressexperten Thord Daniel Hedengren bara häromdagen utkom med en helt gratis bok i ämnet. Du som vill ha en kortfattad och pedagogisk introduktion i bokform hittar ”Webbpublicering med WordPress” i pdf-format för nedladdning.

Det är en 89 sidor lång bok som innehåller det mesta man behöver för att komma igång: inställningar, sidor, bilder, kommentarer, länkar och så vidare. De som vill konfigurera sin installation efter eget tyckte och smak hittar avsnitt om teman, widgets och tillägg. Ge det en chans, du som funderat på att börja blogga.

Dokumentationen på wordpress.org är förstås utmärkt och omfattande och finns även på svenska. Men börja med Thord Daniel Hedengrens bok. Och kom gärna tillbaka till oss sedan, och berätta om allt vi skulle kunna göra bättre, så att vi lär oss något. 🙂

Gör som sjukhusdirektörerna säger

Då man jobbat som regional reporter ett antal år så vet man vad sjukhusdirektörerna brukar säga då undersköterskorna går på knäna: ni ska inte springa snabbare – utan smartare.

Det kan man ju tycka vad man vill om, men vi som tillbringar en stor del av våra arbetsdagar med fingrarna på en mus och ett tangentbord gör ofta en hel del onödigt jobb – som vi alldeles själva kan rationalisera bort genom att använda de verktyg vi har på rätt sätt.

Ett sätt att springa smartare är att använda kortkommandon. Micke har skrivit flera inlägg om kortkommandon (Tio kortkommandon som gör livet enklare och Fem snabba: mindre tryck på jobbet), och jag har skrivit om ett program där man kan skapa sina egna (Verktyget som skriver på kommando).

Problemet med kortkommandon är att man inte riktigt kan lära sig dem genom att läsa igenom och memorera en lista. Tangentkombinationerna måste sitta i handen – de måste in i muskelminnet.

Tjänsten Shortcu Foo tränar dig i kortkommandon - till exempel i Gmail. — Tjänsten Shortcut Foo tränar dig i kortkommandon – till exempel i Gmail.

Om du verkligen bestämt dig för att lära dig kortkommandona till ett visst program, kan kanske tjänsten Shortcut Foo vara intressant. Mycket är inriktat på verktyg som programmerare använder, som textredigeringsprogram och kommandoprompten, men också mer vanliga applikationer som Photoshop och Gmail.

Shortcut Foo används inte tillsammans med något program, utan är en plats som är dedikerad åt träning av kommandona. Då man sedan kan dem, är det dags att tillämpa kunskaperna i verkligheten.

I Shortcut Foo får man upp en beskrivning av vad kommandot gör - och ska sedan knappa in rätt tangentkombination — I Shortcut Foo får man upp en beskrivning av vad kommandot gör – och ska sedan knappa in rätt tangentkombination

Du som verkligen vill testa Shortcut Foo för att lära dig snabbkommandona i Gmail måste tänka på att först aktivara dem. Det gör man genom att klicka på kugghjulet uppe till höger, välja Inställningar och därefter klicka i radioknappen ”Kortkommandon på” (glöm inte att spara längst ner).

I vår reportervärld är kanske Microsofts kontorssvit vanligare är olika obskyra textredigeringsprogram för programmerare. Då finns verktyget Key Rocket. Det har jag inte själv haft möjlighet att prova, men vad jag förstår så är det snarare en personlig tränare än en träningslokal. Du laddar ner och installerar programmet på din dator, och då du använder till exempel Word eller Excel så ger den dig olika råd beroende på hur du arbetar.

Gör du saker med musen så poppar det upp råd om vilka kortkommandon du borde använda i stället – och om du faktiskt använder kortkommandon så poppar det upp beröm och hurrarop.

Nu hade det ju varit praktiskt att ha ett kortkommando i WordPress för att publicera det här inlägget. Någon bloggare där ute som har något bra tips?