Nu är tredje delen av Scrapingskolan klar. Den här gången tar vi steget från att ha plockat data från ordentligt formaterade xml-dokument till att inse att html – språket som bygger upp webben – faktiskt är en variant av xml och att vi därmed kan använda samma teknik för att strukturera upp data som förekommer på webbsidor.
Men den teoretiska insikten är en sak. Det luriga är förstås att hitta en sida, undersöka dess kod och förstå strukturen. Det är då man tagit sig igenom de((n tankeprocessen och funderingen på egen hand, utan receptlösningar och steg för steg-beskrivningar, som man kan skriva in rätt ”sökväg” och plocka ut det man är på jakt efter.
Så – trots den där nyhetsmentaliteten som många av oss har i oss – försök att öva upp ett tålamod. Det kan vara lite spännande att återupptäcka sitt eget intellekt och komma till insikten att det går att komma på lösningar på komplexa frågeställningar själv – i stället för att ringa en expert.
(Men sedan kommer förstås redaktören och vill ha en intervju med den där experten i alla fall… :-))