open netbook science

E’ possibile fare Open Notebook Science a costo zero?

di Marco Scarselli scritto il 2 ottobre 2015

La Open Notebook Science è la pratica di rendere disponibili i dati e le procedure utilizzate in un progetto di ricerca, rendendo questi disponibili on-line a chiunque desideri analizzarli o riprodurli.

Al giorno d’oggi i costi per produrre un output compatibile con i principi della Open Notebook Science si sono ridotti in modo importante ed è possibile cimentarsi in questo nuovo modo di fare ricerca:  in molti casi è un azione a costo zero e vi è il vantaggio di poter condividere in tempo reale il proprio lavoro e di ricevere feedback e integrazioni. Questo dovrebbe essere un importante incentivo ad utilizzare questo standard. Astronomia, Fisica, Scienze Naturali hanno già imboccato questa strada e non vi sono motivi per cui le scienze sociali debbano rimanere indietro. Anzi vi è sempre maggiore bisogno di trasparenza e condivisione per legittimare (o rilegittimare) scienze come economia e sociologia davanti alle comunità scientifiche e all’opinione pubblica.

La possibilità di questa rivoluzione è data da strumenti e paradigmi provenienti dal mondo dell’open source. In questo articolo vi raccontiamo tre strumenti che utilizziamo con profitto nelle nostre ricerche

  1. linguaggi di programmazione / scripting open source e librerie statistiche certificate dalla comunità scientifica
  2. un linguaggio di markdown per condividere in modo ordinato e documentato l’output della ricerca
  3. sistemi di controllo di versione e di hosting di codice su web / GitHub

1.  linguaggi di programmazione / scripting e librerie statistiche

Per fare ricerca è importante appoggiarsi a software verificati e testati dalla comunità scientifica, così da non incorrere in errori di calcolo. Nei linguaggi R e Python sono state prodotte svariate librerie statistiche di elevata qualità frutto del lavoro congiunto di ricercatori, imprese e centri di ricerca. reteSviluppo utilizza nelle ricerche più avanzate il framework python denominato Scipy ( http://www.scipy.org/ )

2.  un linguaggio di markdown per condividere in modo ordinato e documentato l’output della ricerca.  

Jupiter è un software che permette di rappresentare e documentare con testo, grafici e tabelle l’elaborazioni ( https://jupyter.org/ ): supporta ad oggi 40 linguaggi di programmazione, inclusi i più polari nella ricerca scientifica come Python, R, Julia e Scala.

esempio:

http://nbviewer.ipython.org/url/www.asimihsan.com/articles/Intro%20to%20Data%20Science%20-%20Final%20Project.ipynb

3.  sistemi di controllo di versione e hosting di codice su web

I sistemi di controllo di versione permettono di lavorare contemporaneamente ad un progetto di ricerca da parte di più ricercatori. Il sistema tiente conto delle modifiche che vengono inviati dai vari ricercatori e le modifiche possono essere confermate od annullate dal capo della ricerca.

Inoltre diventa facile trasferire tutto su web, su piattaforme come GitHub, permettendo la collaborazione di ricercatori enterni al gruppo di ricerca locale.

Marco Scarselli

Data Scientist specializzato in ricerca economica e sociale. Progettista e sviluppatore di prodotti data-driven per il supporto alle decisioni strategiche.

Marco ScarselliE’ possibile fare Open Notebook Science a costo zero?

Articoli collegati

Dai uno sguardo a questi articoli