En smidigare nördväg till en e-postenkät

Nog för att det var möjligt att göra som jag visade i Nördvägen till en e-postenkät, men om du blev nyfiken först och därefter avskräckt den gången, så föreslår jag att du läser vidare nu.

Det finns nämligen ett betydligt smidigare sätt. Det var frilansjournalisten Jens Finnäs som i kommentarerna tipsade om Chrometillägget Scraper som fungerar mycket bra då man vill låna data från en sida på det här sättet. Vi utgår återigen från den mångfald presskontakter vi ville göra en e-postenkät bland.

Sidan med presskontakterna som vi ville göra en e-postenkät bland.
Sidan med presskontakterna som vi ville göra en e-postenkät bland.

Med tillägget installerat kan vi nu markera några av raderna i tabellen, högerklicka och välja ”Scrape similar…”.

Välj några rader ur tabellen så att Scraper "förstår" vad det är vi vill ha.
Välj några rader ur tabellen så att Scraper ”förstår” vad det är vi vill ha.

Så snart vi klickat i menyn dyker den fullständiga tabellen upp i Scraper, och vi kan lätt exportera den till ett Google Drive-dokument, där vi kan bearbeta den vidare. (Du vet väl att du kan klicka på bilderna för att se dem i fullformat?)

Från Scraper kan man lätt exportera tabellen till Google Drive, där den kan bearbetas vidare. Man kan också justera de inställningar som Scraper gissat sig till.
Från Scraper kan man lätt exportera tabellen till Google Drive, där den kan bearbetas vidare. Man kan också justera de inställningar som Scraper gissat sig till.

Vi är emellertid inte färdiga i och med detta. Problemet i vårt fall var ju spalten längst till höger, den med e-postadresserna. I stället för att e-postadresserna finns utskrivna, så att vi lätt kan kopiera in dem i vårt e-postprogram för att göra en enkät, så finns där länkar för var och en av presskontakterna.

För att nu inte behöva arbeta ihjäl oss, krävs det list. Genom att titta i sidans källkod (högerklicka på någon av e-postlänkarna och välj ”Granska komponent” i menyn), ser vi hur tabellcellen är uppbyggd.

I tabellcellen förekommer e-postadressen två gånger: i title- och i href-attributet.
I tabellcellen förekommer e-postadressen två gånger: i title- och i href-attributet.

Det verkar listigast att ta adressen från title-attributet för att slippa att få med ”mailto:”. Detta löser vi i Scraper genom att ändra XPath-koden i sjätte kolumen. Titta i vänsterspalten där det står ”*[6]”. Ändra det till ”*[6]//@title”. I stället för att skriva ut texten ”E-post” väljer vi nu i stället att skriva ut värdet på title-attributet, det vill säga den rena e-postadressen utan ”mailto:”-prefix!

Nu ser vi hur e-postlänkarna i högerspalten bytts ut mot själva e-postadresserna.
Nu ser vi hur e-postlänkarna i högerspalten bytts ut mot själva e-postadresserna.

Efter att ha exporterat tabellen till Google Drive (inte säger man Google Docs längre, gör man?) kan kan ta bort de övriga kolumnerna innan man laddar ner alltihop som en csv- eller ren textfil.

Det var lite mindre pillande än den förra lösningen, och man slapp lära sig reguljära uttryck. Å andra sidan behöver man fuska lite med XPath. Lycka till!