16
jul | 01:08

En konferens som handlar om motsatsen till stora data

16 juli,01:08 av Erik Borälv

Det finns traditionella konferenser, o-konferenser, och så finns en kommaseparerad konferens, csv,conf. CSV står för comma separated values och är ett urgammalt sätt att skriva data i organiserad form. Det är ett unikt format då det kanske är enda formatet icke-utvecklare kan använda.

Namn	Plats	Ambition
csv,conf	Berlin	Motsatsen till Big Data

UK säger att de flesta öppna datakällorna är kommaseparerade, eller så kallad tabulär data. Konferensen csv,conf handlar om olika aspekter av detta format. Organisatörerna inleder med att hylla formatet – som man menar är så pass enkelt att barn kan läsa, förstå och använda. Det är så robust att filer från datorernas barndom funkar fortfarande. Men formatet går att utveckla, modifiera och ge en modern touch.

Using CartoDB to visualize two months in the life of gull Eric

Using CartoDB to visualize two months in the life of gull Eric

Man ska inte förledas att tro att det är enbart trivial data som vi talar om. Som sagt, en majoritet av världens öppna data är CSV. Ett bra motexempel, se denna visualisering av fiskmåsen Eric som är gjort med CartoDB, ett verktyg som skapar visualiseringar av CSV.

De flesta presentationerna på konferensen  handlar om hur vi tar CSV vidare och gör bättre saker. Jeni Tennison från Open Data Institute i London berättar att 90% av filerna på data.gov.uk är CSV, men att två tredjedelar av dom inte går att läsa maskinellt. Man jobbar därför att skapa standarder och beskrivningar för att öka användbarheten. Jeni ställer sig frågan: What if CSV were a native browser format, contained links, and could be linked like other online resources?.ODI har en analys av CSV-filer som är läsvärd, What is a CSV? A case study of CSVs on data.gov.uk

Jeni Tennison från ODI

Jeni Tennison från ODI

W3C har CSV on the Web Working Group som tar sig an moderna utmaningar för detta format. Mer exempel och lösningar finns på deras GitHub. Ett exempel är CSVLint.io som är en tjänst man kan använda för att kolla om ens fil är korrekt och läsbar.

Jeni tar upp en mängd olika delprojekt. Man jobbar med att skapa möjligheter att inkludera beskrivningar av data (metadata), schema (=regler) för att kunna validera att data är korrekt, datatyper, format på data, konverterare från CSV till andra filformat, etc. Eftersom en så stor del av världens datakällor är CSV så är inte denna utveckling oväntad. Samtidigt känns det lite konstigt. Kommer man inte med alla tillägg och utvecklingar till slut hamna i komplexa format, som XML och RDF? Försvinner inte CSV-fördelarna på köpet?

Norge har ett nationell datahotell för data som är CSV. Det är en intressant idé som vi funderar på om man borde gå vidare med även i Sverige. Det går att tänka sig att ett antal offentliga aktörer skulle uppfatta det som en praktisk hjälp för att enkelt kunna publicera öppna data. Att begränsa det till CSV skulle nog sänka tröskeln så att fler kan vara aktiva.

 



Kommentarer (2)

  1. 16 juli 2014,18:34
    Karl Wettin kommenterar:

    Norge har ett nationell datahotell för data som är CSV. Det är en intressant idé som vi funderar på om man borde gå vidare med även i Sverige. Det går att tänka sig att ett antal offentliga aktörer skulle uppfatta det som en praktisk hjälp för att enkelt kunna publicera öppna data. Att begränsa det till CSV skulle nog sänka tröskeln så att fler kan vara aktiva.

    En anonym FTP med write-access i /incoming där bara moderatörer får läsa filer? Jag kan bistå med hårdvara och bredband här och nu.

  2. 16 juli 2014,23:28
    Erik Borälv kommenterar:

    Jag tänkte att om man hade motsvarande lösning som Norge, eller säg något åt hållet http://thedatatank.com/, så kan man också vinna lite annat på köpet. Som att ens CSV också går att få ut som XML, JSON etc. Man vill ha lite metadata också för att kunna hitta rätt data.

Kommentera

Regler för kommentarer »

XHTML: Dessa taggar går att använda: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Om blogg.vinnova.se
Bloggen ägs, utvecklas och förvaltas av Vinnova, Sveriges innovationsmyndighet. Vi stärker Sveriges innovationskraft för hållbar tillväxt och samhällsnytta.

Genom Vinnovas blogg vill vi ha en öppen dialog med vår omvärld, belysa våra sakfrågor och ta till vara på frågor och åsikter om oss.

Läs mer »
Facebook
Twitter