3 november 2012 – Journalisttips

Dagens gästbloggare är Leo Wallentin, som tidigare skrivit om hur man hittar personer bakom sajter. I dag ger han en ingående beskrivning av olika metoder att hitta cache-lagrade versioner av webbsidor, med ett aktuellt exempel från Expressen:

Visst har du också någon gång surfat förbi något på nätet, och några sekunder för sent kommit på att ”det där borde jag ha skärmdumpat”? Kanske ett anmärkningsvärt inlägg på något socialt medium, eller en märklig rubrik på en nyhetssajt. Och när du en minut senare hittat tillbaka är inlägget redan borta, eller redigerat.

I veckan hände det mig, när en vän uppmärksammade på Facebook att Expressen, i en intervju, på intervjupersonens egen begäran, använt pronomenet hen, bara för att snart ändra det till ”hon”. Länken till artikeln hade då snabbt spridits på flera högerextrema sajter, och man kan gissa att många som kom den vägen hörde av sig till tidningen. Ny kritik på nätet, eftersom intervjupersonen själv inte definierade sig som en hon, varför Expressen skrev om igen, och nu städade bort alla personliga pronomen i tredje person. Kvar blev en kolossalt styltig text, som fortfarande ligger där som ett slags språkligt monument till ängsligheten.

Det här var ju intressant ur en massa synvinklar, och ett exempel som kunde vara bra att spara, så då var det dags att börja leta efter de båda gamla versionerna av artikeln!
Till att börja med är det ganska bråttom i det här läget. Vi behöver hitta en cachad, alltså mellanlagrad, version av sidan vi nyss såg. Webbsidor cachas på många ställen: Hos servern de ligger på, för att inte samma sida ska behöva återskapas för varje ny besökare om ändå inget har hänt, ibland hos stora mediesajter, i ytterligare ett lager av ”frontservrar”, ibland i nätverk som mediesajter använder för att effektivare distribuera sitt innehåll (så kallade CDN:er), ibland hos din, besökarens, internetleverantör. Brandväggen på din arbetsplats cachar säkert mycket innehåll. Det gör också sökmotorer och andra som av olika skäl skannar av nätet. Om det nu är en stor mediesajt du varit inne på, så försvinner de flesta cachade versioner av sidorna antagligen väldigt snabbt – vi pratar minuter eller sekunder.

Ta hjälp av någon som sitter nära, och dela upp kollarna emellan er. Ju snabbare ni är, desto större chans att få napp.
Uppdatera sidan med F5 några gånger. I de flesta webbläsare kan du använda F5 för att tömma den lokala cachen och uppdatera sidan på nytt (annars är risken att du bara hämtar om en sida som mellanlagrats på din dator). Om du har tur ligger sidan ligger på en server som fördelar besökarna på flera olika frontservrar, som i sin tur ligger och kopierar sajten från en källa. Vissa sådana frontservrar kommer att ligga före andra i kopieringen, så att man i praktiken kan hoppa fram och tillbaka upp till ett par minuter genom att trycka F5. I Expressen-fallet var det redan på tok för sent.
Kolla sökmotorernas cachade sidor. Om en sökmotor hann indexera sidan du letar efter, kan det finnas en mellanlagrad version av sidan där, som ligger kvar ända tills sökmotorn indexerar om sidan igen. Det kan handla om allt ifrån några sekunder till flera dygn, bland annat beroende på hur stor sajten är, och hur ofta den brukar uppdateras.

Google

Lägg till adressen till sidan du letar efter i slutet av strängen https://webcache.googleusercontent.com/search?q=cache:, så får du url:en till Googles cachade version av sidan, om den finns. Använd hela adressen, inklusive protokoll (t.ex. http). Om du testar med https://journalisttips.se så får du en upp till två veckor gammal version av sajten. Oftare än så verkar Google inte skapa nya cachekopior av just den här sajten. Om du testar med dn.se i stället så är den sällan mer än fyra timmar gammal.Expressen-artikeln då? Nej, den finns inte där. Och det gör faktiskt inget annat på Expressen heller. Expressen, och flera andra nyhetssajter (även svt.se) skickar ett särskilt direktiv till sökmotorer där de ber att slippa bli cachade. Och det verkar som att sökmotorer (tyvärr för oss) oftast respekterar det. Om du högerklickar på Expressens hemsida och väljer ”visa källa” eller motsvarande i din webbläsare, så kommer du att se rader en bit ner. Det är den magiska ramsan de använder.

Bing/Yahoo

Bing och Yahoo har numera slagit ihop sina söktjänster till en enda. Enklast är att söka efter artikeln på search.yahoo.com, och leta efter länken till den cachade versionen bredvid varje sökresultat. Här finns ofta cachade versioner som är äldre än Googles. Bara själva innehållet cachas, inte de dokument som styr utseendet på sidan, varför sajterna inte kommer att se ut som du är van vid.Men precis som Google så låter Bing/Yahoo bli att cacha Expressen.

Baidu

Baidu, den kinesiska sökjätten, visar också upp cachade resultat. Klicka på länken 百度快照 (快照, kuàizhào, betyder i webbsammanhang cache, 百度 , bǎidù, är ”Baidu”). Inte heller Baidu cachar just Expressen, däremot många andra svenska nyhetssajter. Ta bort å, ä och ö när du söker på baidu (om du inte vet vad GB 2312 är…).

Gigablast och andra

Det finns faktiskt en sökmotor till värd att nämna: Gigablast. Arkivet här är mycket mindre än hos Google eller Yahoo, men det är åtminstone deras eget, med unikt innehåll. Övriga sajter som kallar sig sökmotorer använder bara de andra sökmotorernas resultat, möjligen med lite egen handpåläggning, eller saknar publikt tillgänglig cache (t ex Yandex).

Allihopa på samma gång

Om du använder Chrome (och om du jobbar som reporter ska du använda Chrome eller Firefox), så finns det fler plugins som hjälper dig att snabbt scanna av flera sökmotorers cache på en och samma gång. Sök efter t ex Google Cache bland dina extensions.
Opera Mini är en webbläsare för mobiltelefoner som kanske hade sin storhetstid före smartphone-revolutionen, men som fortfarande finns kvar. Det fiffiga med den är att den använder en tjänst, Opera turbo, som mellanlagrar alla webbsidor hos sig, och skalar ner bilder och optimerar dem för långsamma uppkopplnigar, så att de går snabbare att ladda. Därigenom finns också en god chans att sidorna är något äldre. Även i den vanliga datorversionen av Opera kan du slå på turbo-funktionen, och med lite tur få en cachad version av sidan du letar efter! Opera är för övrigt en i största allmänhet underskattad webbkläsare, som du gott kan ge en chans!
Åk till Afrika! En del internetleverantörer runt om i världen mellanlagrar sajter hos sig, så att det ska gå snabbare för deras användare att surfa på sajter som t ex ligger geografiskt långt borta. Google har ett gigantiskt sådant cachesystem, som de erbjuder webbleverantörer i Afrika söder om Sahara. Om man surfar från ett subsahariskt land är det alltså hyfsade goda odds för att man får hårdare cachning än om man surfar från Europa. Nu har vi bara några minuter på oss att ta oss till Afrika. Lyckligtvis är det fullt möjligt, med hjälp av proxyservrar. En proxyserver är en server som kan agera mellanhand åt dig. Om du surfar till Expressen via en proxyserver i Ghana, kommer anropet att gå från Ghana, till en ghanesisk internetleverantör, som i bästa fall har en Google Cache-lagrad sida att visa dig. Proxyservrar är också det enklaste sättet att dölja sin identitet på nätet, och det vanligaste sättet att ta sig till sajter som är spärrade i ett visst land (t ex Youtube i Kina). Det finns många listor över öppna proxyservrar, som antingen är öppna av misstag, för att någon konfigurerat en webbserver fel, eller avsiktligt. På hidemyass.com finns en där man enkelt kan söka efter land. Vi markerar helt enkelt alla subsahariska afrikanska länder (genom att ctrl-klicka i listan) och får en lista över tänkbara kandidater. Sedan testar vi proxyservrarna en efter en, genom att gå in i webbläsarens inställningar, leta efter proxy-inställningarna (i Chrome: Setting / Proxy Settings), och slå på proxy, och ange att vilken IP-adress vi vill använda. Sedan är det bara att fortsätta surfa, men nu via en dator i Lusaka, Lomé eller Arusha. Antagligen kommer internet plötsligt att vara väldigt segt… I vårt fall hjälpte tyvärr inte ens detta, och då har vi snart testat det mesta.
Nu griper vi efter halmstrån här, men det finns CDN-tjänster som kan ha mellanlagrat en äldre version av sajten. Värt att testa är Coral CDN. Men det förutsätter att sidan redan har hämtats den vägen av någon, innan den ändrades igen.
Har vi inte lyckats hitta en cachad version av själva sidan, kan vi åtminstone spara cachad information om sidan. Och det har vi faktiskt redan fått, två gånger! Fortfarande flera dagar efter att Expressen publicerade sin intervju för första gången, så får man upp den ursprungliga versionen av texten i sammanfattningen i Yahoos och Bings sökresultat!

Noah Nord gick in på en frisörsalong på Södermalm i Stockholm för att klippa sig. Det fick hen inte. – De sa ”vi klipper inte tjejer”, säger Noah Nord

Den sammanfattningen skapades antagligen första gången sidan besöktes av sökmotorn, och har sett likadan ut sedan dess.
Google ger oss ytterligare en möjlighet här, med sin förhandsgranskningsfunktion: Vid varje sökresultat kan man oftast få upp en förhandsgranskning av sidan, genom att hoovra med musen över »-symbolen till höger om sammanfattningen. Den bilden cachas förstås också, för att inte Google ska behöva återskapa den precis hela tiden. Den är inte stor, det är nätt och jämnt att man ser att det står ”hen” där. Men det är åtminstone något.

Vi lyckades alltså inte få någon supersnygg bild av hur sajten sett ut, men åtminstone två nödtorftiga bevis för hur den sett ut tidigare. Dessutom hann bloggen Vi som aldrig sa sexist ta en skärmdump av artikeln i sin mellanversion, med ”hon”. Som vanligt är sociala medier din vän här: (Nästan) alltid är det någon som varit snabbare än du!

Har du fler tips på hur man hittar cachade versioner av sidor? Kommentera gärna här nedanför, så kan vi komplettera listan!

Läs också Så såg sidan ut förut.

Leo Wallentin

M	T	O	T	F	L	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Dag: 3 november 2012

Gästblogg: Hitta den dumpade sidan

Läs också Så såg sidan ut förut.