10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
COME SI DIVENTA DATA SCIENTIST
COSA SONO I BIG DATA
CERCA …
RICERCHE E RAPPORTI
Direttore Responsabile: Mauro Bellini @mbellini3 Linkedin
BIG DATA
DATA SCIENCE
BUSINESS INTELLIGENCE
DATA ANALYTICS
SICUREZZA E PRIVACY [ 4 ottobre 2018 ] Da city a smart city:
DATA SCIENCE NEWS
HOME
DATA ANALYTICS
BUSINESS ANALYTICS
10 OTTOBRE 2018
Software, tool, linguaggi e risorse per Big Data e Data Science
Software, tool, linguaggi e risorse per Big Data e Data Science 12 gennaio 2018
Business Analytics, Data Mart, Data Scientist,
Centro Risorse Data S Ricerca originale, eventi, webinar interviste e una guida ai tools pe [...]
Data Warehouse, Hadoop, Linguaggi, MapReduce, Report e Dashboard, Software Big Data, Software Business Intelligence, Software Data Science
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
1/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
Luca Flecchia* Per svolgere la professione di Data Scientist è necessario disporre prima di tutto di una chiara visione degli strumenti di lavoro più di usi o delle piattaforme più adeguate per ogni obiettivo. Con questo servizio si avvia un percorso di conoscenza delle piattaforme e dei tools più adeguati da adottare in ogni possibile
ARTICOLI CORRELATI
circostanza. Il servizio viene costantemente aggiornato con nuove informazioni e indicazioni sui servizi trattati e con l’inserimento di
Big Data e Data Science verso
nuovi servizi.
una Data Driven… 3rdPLACE: Big Data in presa
Indice degli argomenti
1. Rassegna degli strumenti di lavoro 2. Linguaggi di programmazione e framework 2.1. Python 2.2. R
3. IDE – Integrated Development Environment
diretta con il business… Pietropaoli, IBM: open e privo di preconcetti,… Come si diventa Data Scientist: skill, scuole,… Big Data as a Service e Real
3.1. R Studio
Time Analytics nel…
3.2. Apache Spark
Data Scientist: white paper,
3.3. Scala
survey, evento,…
3.4. Hadoop
Fare business con la Data
3.5. Jupyter Notebook 3.6. MySQL Workbench 3.7. SQL Server Management Studio SSMS 3.8. Toad 3.9. PyCharm 3.10. Spyder 3.11. GIT
4. Piattaforme Big Data
Monetization: white paper,… Dai viaggi al retail, così i big data abilitano la… Big data e Analytics, crescono le opportunità per il… CDO, Chief Data O cer: un ruolo sempre più…
4.1. Hortonworks 4.2. Cloudera
5. Data Wrangling, Data Mining e Machine Learning 5.1. Trifacta 5.2. KNIME 5.3. H2O.ai
5.4. Weka https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
2/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
5.5. IBM Watson 5.6. Data Science Experience IBM
6. Data visualization 6.1. D3 6.2. QLIK 6.3. Power BI 6.4. Tableau 6.5. Zeppelin 6.6. Ploty
7. Open Data 7.1. Alcune fonti Open Data
Rassegna degli strumenti di lavoro Per maggiori approfondimenti sulle opportunità della Data Science e sul lavoro del Data Scientist proponiamo la lettura di questo servizio: Al lavoro con i data scientist: una guida per cogliere le opportunità dei big data e delle altre risorse utili: white paper, survey, eventi e interviste
Linguaggi di programmazione e framework Python Python è un linguaggio di programmazione che nasce nel 1991 grazie al programmatore olandese Guido van Rossum, che lo battezza celebrando la commedia Monty Python’s Flying Circus dei Monty Python, uno dei programmi più seguiti negli anni 70 sulla BBC. Il linguaggio Python ha avuto un importante seguito e ha raccolto un ampio consenso presso la comunità degli sviluppatori e oggi il suo sviluppo è gestito dalla Python Software Foundation nella forma di organizzazione no-pro t. Python è un linguaggio di programmazione orientato agli oggetti e utilizzabile per molti tipi di sviluppo software. In particolare Python supporta diversi paradigmi di programmazione, a partire dall’object-oriented, dispone di una libreria built-in ricca, una gestione automatica della memoria e importanti “costrutti” per la gestione delle eccezioni che contribuiscono a fare di Python uno dei linguaggi più ricchi e comodi da usare. Particolarmente adatto per implementare applicazioni distribuite, Python è utilizzato per scripting, computazione numerica e system testing. I campi di utilizzo di questo linguaggio sono negli
ambiti del Web development, delle funzioni di accesso al database, https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
3/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
delle GUI desktop, della formazione scolastica, della programmazione di rete. Python gira su Windows, Linux/Unix, Mac OS X, OS/2, è stato portato sulle macchine virtuali Java e .NET ed è distribuito con licenza OpenSource approvata dalla OSI. Il suo utilizzo è gratuito ed è libero anche per prodotti commerciali. Python è stato concepito per essere un linguaggio intuitivo, comodo, semplice da usare e imparare. E’ stato realizzato con una sintassi pulita e leggera così come i suoi costrutti. Python è anche un linguaggio di tipo “pseudocompilato”: un interprete si occupa di analizzare il codice sorgente (semplici le testuali con estensione .py) e, una volta veri cata la sintassi, la può eseguire immediatamente. In ne, Python è un software open source: non solo a livello di download dell’interprete per la propria piattaforma, ma anche come utilizzo nelle applicazioni in forma completamente gratuita e può inoltre essere liberamente modi cato e ridistribuito, nel rispetto delle regole de nite dalla licenza open-source. Negli ultimi anni Python ha guadagnato enormi consensi anche come linguaggio di programmazione per analisi di Data Science. Ci sono diverse librerie utilizzate nell’ambito della Data Science, le più famose sono NumPy, SciPy, Pandas, Matplotlib e Plotly. Python è particolarmente usato anche per la creazione di modelli di Deep Learning, specialmente tramite l’utilizzo delle librerie Keras, Tensor ow e Theano. Per maggiori informazioni su Python
R R è un linguaggio di programmazione e un ambiente di sviluppo speci co per l’analisi statistica dei dati. Si tratta di un software libero che viene distribuito con la licenza GNU GPL, ed è disponibile per diversi sistemi operativi (ad esempio Unix, GNU/Linux, macOS, Microsoft Windows). R è un linguaggio che viene utilizzato da sviluppatori e da Data Scientist per il calcolo statistico. Grazie alla crescente quantità di dati raccolti da sistemi software e grazie alla necessità di analizzare grandi quantità di dati, R è oggi una delle tecnologie più rapida crescita nella data science. Il linguaggio di R è parte di un progetto GNU ed è open source. R deriva più precisamente da un linguaggio denominato S (S inteso come “statistiche”) sviluppato nei Bell Laboratories negli anni settanta. Il linguaggio orientato agli oggetti è una suite integrata di funzioni software per la manipolazione dei dati, il calcolo e la
visualizzazione gra ca che includono un e cace sistema di https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
4/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
gestione e storage dei dati, una suite di operatori per calcoli su array, in particolare matrici, una raccolta ampia, coerente e integrata di strumenti intermedi per la Data Analysis, oltre a strutture gra che per l’analisi dei dati e la visualizzazione su schermo o hardcopy e un linguaggio di programmazione semplice ed e cace che include condizionali, cicli, funzioni ricorsive de nite dall’utente e strumenti di input e output. R, tramite l’enorme numero di librerie statistico-matematiche disponibili, è stato da subito uno dei linguaggi più apprezzati ed utilizzati in ambito Data Science. Ci sono tuttavia alcuni punti di attenzione, come la gestione della memoria e la mancanza della parallelizzazione automatica, che lo rendono più adatto allo sviluppo di prototipi che alla realizzazione di modelli da rilasciare in produzione. Esiste anche una versione commerciale di R, Microsoft R Server, che supera i tradizionali limiti della versione open source di R. Per maggiori informazioni su R
IDE – Integrated Development Environment R Studio RStudio è l’Integrated Development Environment (IDE) gratuito e open source di R: un linguaggio di programmazione per il calcolo statistico e la gra ca. RStudio è disponibile in edizioni commerciali e open source e viene eseguito sul desktop (Windows, macOS e Linux) o in un browser connesso a RStudio Server o RStudio Server Pro (Debian, Ubuntu, Red Hat Linux, CentOS, openSUSE e SLES). RStudio è scritto nel linguaggio di programmazione C++ e utilizza il framework Qt per la sua interfaccia utente gra ca. Per maggiori informazioni su R Studio
Apache Spark Apache Spark è un framework di tipo open source per la gestione del calcolo distribuito. Spark è stato sviluppato dall’AMPlab dell’Università della California e successivamente donato alla Apache Software Foundation. A di erenza del paradigma MapReduce di Hadoop, l’ “in-memory” multilivello di Spark consente nuove possibilità prestazionali in determinati ambiti applicativi, come ad esempio nel cognitive. Spark è studiato
appositamente per algoritmi di apprendimento automatico e https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
5/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
richiede un gestore di cluster e un sistema di archiviazione distribuita. Per il primo supporta nativamente un cluster Spark ma anche Hadoop YARN, o Apache Mesos; per il secondo, Spark può interfacciarsi con Hadoop Distributed File System (HDFS), Apache Cassandra, OpenStack Swift, Amazon S3, Apache Kudu, ma anche soluzioni personalizzabili. Spark supporta anche soluzioni pseudodistribuite in modalità locale, usate di solito per lo sviluppo od a scopo di test. Per maggiori informazioni su Apache Spark
Scala Scala è un linguaggio di programmazione a oggetti nato nel 2001 grazie all’iniziativa di Martin Odersky e della EPFL, l’Ecole Polytechnique Federale de Lausanne ed è poi arrivato “sul mercato” nel 2004 su piattaforma Java e .NET (quest’ultima oggi però non più supportata). Scala sta per Scalable Language ed è un linguaggio di programmazione di tipo general-purpose multi-paradigma studiato per integrare le caratteristiche e le funzionalità dei linguaggi orientati agli oggetti e dei linguaggi funzionali. La compilazione di codice sorgente Scala produce Java bytecode per l’esecuzione su una JVM. Scala è stato studiato per interoperare con la piattaforma Java 2 Runtime Environment (JRE) rendendo agevole l’integrazione con le applicazioni e i componenti Java. Scala utilizza lo stesso modello di compilazione (compilazione separata, caricamento delle classi dinamiche) utilizzato da Java permettendo così l’accesso a molte librerie sviluppate in questo ambiente. Trattandosi di un linguaggio orientato agli oggetti, ogni elemento del linguaggio è trattato come un oggetto, inclusi numeri e funzioni. Scala è anche un linguaggio funzionale: ogni funzione rappresenta un valore e fornisce un linguaggio molto diretto anche per de nire funzioni anonime (dichiarate e usate senza essere legate ad un nome). Scala ha un supporto nativo per il pattern matching che permette di potenziare l’elaborazione di dati XML con il supporto di espressioni regolari. Questa caratteristica unita con la possibilità di de nire delle list comprehension, rende questo linguaggio adatto allo sviluppo di applicazioni di tipo web service. Per maggiori informazioni su Scala
Hadoop
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
6/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
Hadoop è prima di tutto un framework di strumenti per la archiviazione e la elaborazione di grandi quantità di dati. Hadoop serve per gestire applicazioni di Big Data e si presenta nella forma di un set di software Open Source distribuito sotto la licenza Apache Hadoop Open Source. Hadoop è da utilizzare e vedere come un software di infrastruttura per la gestione e l’elaborazione di grandi quantità di dati ed è un progetto che fa riferimento a due grandi temi: l’archiviazione e la elaborazione di grandi quantità di dati (con il presupposto legato all’analisi corretta della natura dei dati per poterli gestire al meglio). A livello di archiviazione Hadoop è una infrastruttura di cluster per il le system nella forma di HDFS (Hadoop Distributed File System). Se ad esempio si deve gestire un le le cui dimensioni superano quelle della memoria che si ha a disposizione Hadoop permette di archiviarlo “distribuendolo” su più server o su più nodi. Hadoop permette poi di gestire le funzioni di processing su questi dati distribuiti attraverso la funzione MapReduce che cambia le logiche di elaborazione dei dati, spostando la capacità applicativa del software a livello di dati con importanti vantaggi in termini di miglioramento delle prestazioni. MapReduce permette cioè di distribuire la capacità elaborativa così come HDFS permette di distribuire la capacità di archiviazione su diversi nodi. Con HDFS e MapReduce si può passare dalla elaborazione di tipo seriale a una elaborazione di tipo parallelo. Hadoop può inoltre gestire sia le strutturati sia le destrutturati. Con Hadoop le applicazioni possono lavorare con migliaia di nodi e petabyte di dati e a livello di capacità computazionale Hadoop è stato ispirato alla logica dell’algoritmo MapReduce di Google ed è diventato oggi un progetto Apache di alto livello costruito e usato da una comunità globale di contributori, che usano il linguaggio di programmazione Java. Hadoop o re una grande quantità di librerie di semplice utilizzo per Hadoop Map Reduce e per Hadoop Distributed File System (HDFS). La versione 3.0 di Hadoop è stata rilasciata il 13/12/2017. Per maggiori informazioni su Hadoop
Jupyter Notebook Jupyter Notebook è un’applicazione web open source che permette di creare e condividere documenti che contengono live code, equazioni, visualizzazioni e testo narrativo. Si tratta di uno strumento utilizzato per una serie di attività come data cleaning e trasformazione dei dati, simulazione numerica, modellazione https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
7/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
statistica, data visualization, machine learning, e altro ancora. A livello di notebook lo strumento supporta oltre 40 linguaggi di programmazione, tra i quali citiamo Python, R, Julia e Scala. Dal punto di vista operativo i notebook possono essere condivisi con altri utenti tramite e-mail, Dropbox, GitHub e Jupyter Notebook Viewer. Inoltre il codice può produrre un output ricco e interattivo a livello di HTML, di immagini, ma anche di video, LaTeX e tipi MIME personalizzati. Jupyter Notebook permette di sfruttare strumenti di Big Data, come Apache Spark, Python, R e Scala ed esplorare questi stessi dati con panda, scikit-learn, ggplot2, TensorFlow. Per maggiori informazioni su Jupiter Notebook
MySQL Workbench MySQL nasce grazie alla società svedese MySQL AB creatrice del codice sorgente oggi disponibile tramite distribuzione con licenza GNU GPL e con licenza commerciale. La storia di MySQL cambia in modo signi cativo nel 2008 quando MySQL viene acquisita da Sun Microsystem per un miliardo di dollari. Una acquiszione che a sua volta cambia la prospettiva già nell’anno successivo quando la stessa Sun Microsystem viene acquisita da Oracle con una operazione che si chiude poi nel 2010. MySQL si appoggia a MySQL Workbench che si presenta come uno strumento visivo uni cato per database destinati a database architect, sviluppatori e DBA. MySQL Workbench consente nello speci co la modellazione dei dati, lo sviluppo SQL e fornisce un set completo di strumenti amministrativi per la con gurazione del server, l’amministrazione degli utenti e molto altro ancora. MySQL Workbench è disponibile per piattaforme Windows, Linux e Mac OSX. MySQL permette a un DBA, a uno sviluppatore o un architetto di dati di progettare visivamente, modellare, generare e gestire database. Lo strumento comprende tutto ciò di cui ha bisogno un modellatore di dati per la creazione di modelli ER (entity-relationship o entità-associazione) complessi, per la progettazione di inversioni oltre a funzionalità chiave per l’esecuzione di compiti di cili di gestione e documentazione delle modi che che normalmente richiedono molto tempo e impegno. MySQL Workbench o re strumenti visivi per la creazione, l’esecuzione e l’ottimizzazione delle query SQL. L’editor SQL fornisce l’evidenziazione della sintassi dei colori, il completamento automatico, il riutilizzo degli snippet SQL e la cronologia di esecuzione di SQL. Il Database Connections Panel consente agli https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
8/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
sviluppatori di gestire facilmente connessioni di database standard, tra cui MySQL Fabric. Il Visualizzatore oggetti fornisce inoltre l’accesso istantaneo allo schema e agli oggetti del database. MySQL Workbench fornisce una console gra ca per amministrare facilmente gli ambienti MySQL e ottenere una migliore visibilità nei database. Gli sviluppatori e gli amministratori di database possono utilizzare gli strumenti visivi per con gurare server, amministrare gli utenti, eseguire backup e ripristino, ispezionare i dati di controllo e visualizzare lo stato del database. Per maggiori informazioni su MySQL Workbench
SQL Server Management Studio SSMS SQL Server Management Studio (SSMS) è un’applicazione software lanciata per la prima volta con Microsoft SQL Server 2005 che viene utilizzata per la con gurazione, la gestione e l’amministrazione di tutti i componenti di Microsoft SQL Server. Lo strumento include sia editor di script che strumenti gra ci che funzionano con oggetti e funzionalità del server. SSMS si presenta come un ambiente integrato per la gestione di qualsiasi infrastruttura SQL, da SQL Server a database SQL. SSMS fornisce inoltre strumenti per con gurare, monitorare e amministrare istanze di SQL, può essere utilizzato per distribuire, monitorare e aggiornare i componenti del livello dati utilizzati dalle applicazioni, nonché per creare query e script; eseguire query, progettare e gestire database e data warehouse, ovunque si trovino (sia a livello di computing locale sia a livello cloud).
Toad Toad Software è un set di strumenti di gestione database di Quest che gli sviluppatori di database, gli amministratori di database e gli analisti di dati utilizzano per gestire database relazionali e non relazionali utilizzando SQL. Toad funziona attraverso i database più di usi (compresi RDBMS e NoSQL), supporta una ricca serie di ambienti e basi di dati tra cui Amazon Redshift, Amazon SimpleDB, Apache Hbase, Google Analytics, IBM DB2, IBM Informix Dynamic, Microsoft Excel, Microsoft SQL Server, Microsoft SQL Server Analysis Services, Microsoft Windows Azure SQL Database, MongoDB, MySQL, Oracle, PostgreSQL, salesforce, SAP Business Objects, SAP Sybase ASE Per maggiori informazioni su Toad
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
9/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
PyCharm PyCharm è un Integrated Development Environment (IDE) utilizzato nella programmazione di computer, in particolare per il linguaggio Python. È sviluppato dalla società JetBrains e fornisce l’analisi del codice, un debugger gra co, un tester unità integrato, l’integrazione con i sistemi di controllo versione (VCSes) con supporto allo sviluppo web su Django. PyCharm è una cross-platform con versioni Windows, macOS e Linux. La Community Edition è rilasciata con la licenza Apache; la Professional Edition, invece, è rilasciata sotto una licenza proprietaria. Oltre a Python, PyCharm fornisce supporto per vari framework di sviluppo web Python, linguaggi template speci ci, JavaScript, Co eeScript, TypeScript, HTML/CSS, AngularJS, Node.js e altro. PyCharm si integra inoltre con IPython Notebook, ha una console Python interattiva e supporta Anaconda, oltre a molteplici pacchetti scienti ci tra cui Matplotlib e NumPy. Per maggiori informazioni su PyCharm
Spyder Spyder (in precedenza Pydee) è un ambiente di sviluppo integrato (IDE) multipiattaforma open source per la programmazione scienti ca in linguaggio Python. Spyder integra NumP, SciPy, Matplotlib e IPython, così come altri software open source. È rilasciato sotto la licenza MIT. Spyder è estensibile con una serie di plugin e include il supporto per strumenti interattivi, per l’ispezione dei dati e per l’integrazione di strumenti di sicurezza della qualità del codice speci ci di Python e strumenti di introspezione, come Py akes, Pylint e Rope. Disponibile in modalità multipiattaforma tramite Anaconda, su Windows con WinPython e Python (x, y), su macOS tramite MacPorts e sulle principali distribuzioni Linux come Arch Linux, Debian, Fedora, Gentoo Linux, openSUSE e Ubuntu, Spyder fa uso di Qt attraverso il PyQt o PySide.
GIT Git è un software di controllo gestito con interfaccia a riga di comando, creato nel 2005. Git supporta diramazione e fusione (branching and merging) e comprende strumenti speci ci per visualizzare e navigare una cronologia di sviluppo non lineare. Git presenta due strutture dati, un indice modi cabile che mantiene le informazioni sul contenuto della prossima revisione, e un database https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
10/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
di oggetti che contiene quattro tipi di oggetti: un oggetto blob, un oggetto albero, un oggetto commit (revisione), un oggetto tag (etichetta). Ogni oggetto è identi cato da un codice hash SHA-1 del suo contenuto. Per ulteriori informazioni su GIT
Piattaforme Big Data Hortonworks Hortonworks è un’azienda statunitense di software fondata nel 2011 focalizzata sullo sviluppo e il supporto di Apache Hadoop, il framework che permette l’archiviazione e la elaborazione distribuita di grandi insiemi di dati su gruppi di computer (Big Data). Hortonworks è specializzata nella creazione, nella distribuzione e nel supporto di piattaforme orientate a Apache Hadoop, NiFi e Spark. La società dispone di piattaforme dati collegate che permettono alle applicazioni basate sui dati di utilizzare la conoscenza di tutti i dati in tutte le condizioni. La piattaforma Hortonworks Data Platform HDP è realizzata per permettere la distribuzione a livello enterprise di soluzioni Apache Hadoop basate su archietetture centralizzate di tipo Yarn. Le basi di HPD Hortonworks sono rappresentate da YARN e da HDFS (Hadoop Distributed File System) per la gestione dei dati a riposo. HDFS permette la gestione dell’archiviazione scalabile, per i big data lake, YARN rappresenta l’architettura centralizzata capace di elaborare contemporaneamente più carichi di lavoro e di fornire sia la gestione delle risorse e dell’architettura modulare che l’attivazione di una vasta gamma di metodi di accesso ai dati. Per maggiori informazioni su Hortonworks
Cloudera Cloudera è una compagnia fondata nel 2008 da ingegneri con un background in grandi IT e digital company come Google, Yahoo!, Oracle e Facebook. Le basi della società sono legate alla convinzione del ruolo sempre più importante degli open standard e dell’open source. Nell’ambito dei Big Data Cloudera ha realizzato Cloudera Data Science Workbench, una soluzione di Machine learning che unisce analytics e team working. Cloudera Data Science Workbench permette di velocizzare la progettualità Data Science nelle imprese in modalità self-service. In particolare Cloudera Data Science
Workbench permette di lavorare passando dalla fase di https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
11/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
sperimentazione a quella di produzione utilizzando R, Python, Spark. Per i Data Scientist in particolare Cloudera fornisce accesso diretto ai dati con Hadoop clusters grazie a Apache Spark e Apache Impala. Nello stesso tempo Cloudera lavora a livello di collaboration e di strumenti di lavoro e di coinvolgimento dei team. Cloudera è attivabile sia in modalità on-premise sia in cloud. Per maggiori informazioni su Big Data Cloudera
Data Wrangling, Data Mining e Machine Learning Trifacta Trifacta è una piattaforma per esplorare e preparare i dati per l’analisi. Trifacta funziona con cloud e piattaforme di dati locali, è progettato per consentire agli analisti di esplorare, trasformare e arricchire dati grezzi ed eterogenei in formati puliti e strutturati per l’analisi in ottica self-service. L’approccio di Trifacta si concentra sull’utilizzo delle più recenti tecniche di machine learning, di visualizzazione dei dati e di interazione uomo-computer. Per maggiori informazioni su Trifacta
KNIME KNIME o Konstanz Information Miner è una piattaforma open source con licenza GPLv3 di analisi dati, reportistica e integrazione. Ha al suo interno componenti di machine learning e data mining. La sua interfaccia gra ca permette di assemblare i nodi per il preprocessing, per la modellazione, l’analisi e la visualizzazione dei dati. Fin dal 2006 viene usato in particolare in in ambito sanitario e Pharma. Per maggiori informazioni su KNIME
H2O.ai H2O è un software open-source per l’analisi Big Data. È prodotto dalla società H2O.ai e consente agli utenti di gestire migliaia di potenziali modelli per la individuazione di pattern. Il software H2O può essere utilizzato con R, Python e con altri ambienti. Viene utilizzato per esplorare e analizzare i set di dati contenuti nei sistemi di cloud computing e nel le system distribuito Apache
Hadoop, nonché nei sistemi operativi convenzionali Linux, macOS https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
12/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
e Microsoft Windows. Il software H2O è scritto in Java, Python e R. La sua interfaccia utente gra ca è compatibile con quattro browser: Chrome, Safari, Firefox e Internet Explorer. Sono inoltre disponibili librerie H2O per R e Python. Per maggiori informazioni su H2O.ai
Weka Weka è un software open source rilasciato sotto GNU General Public License ed è costituito da una raccolta di algoritmi di apprendimento automatico per attività di data mining. Gli algoritmi possono essere applicati direttamente a un set di dati o richiamati dal proprio codice Java. Weka contiene strumenti per la preelaborazione dei dati, la classi cazione, la regressione, il clustering, le regole di associazione e la visualizzazione. Per maggiori informazioni su Weka
IBM Watson Watson è un sistema di intelligenza arti ciale che sempli ca al massimo livello il rapporto uomo-macchina. Watson è infatti concepito anche per rispondere a domande (Question answering computing system) espresse in un linguaggio naturale, ed è sviluppato all’interno del progetto DeepQA di IBM. Watson si presenta come un’applicazione avanzata di elaborazione del linguaggio naturale, di information retrieval, e di rappresentazione della conoscenza unita a forme di cognitive learning e a tecnologie di apprendimento automatico nel campo dell’“open domain question answering”. Una delle basi si trova, come detto, nel DeepQA, la tecnologia IBM per la formulazione di ipotesi, la raccolta massiva di controprove, di analisi e di scoring (con la massima capacità di raggiungere un obiettivo in termini di sviluppo della conoscenza). Watson utilizza il software della IBM DeepQA, e il framework Apache UIMA. Il sistema è stato programmato in diversi linguaggi, come Java, C++ e Prolog, e gira su un sistema SUSE Linux Enterprise Server 11 utilizzando Apache Hadoop come framework per il calcolo distribuito. Il sistema è ottimizzato per gestire il carico di lavoro richiesto per generare ipotesi, riconoscere la massima evidenza e analizzare i dati, integrando processori POWER7 estremamente parallelizzati. Watson è composto da una griglia di server IBM Power 750, ciascuno dei quali è equipaggiato con un processore POWER7 ad otto core da 3.5 GHz, con quattro threads https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
13/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
per core. In totale, il sistema ha 2880 thread di processori POWER7, e 16 terabytes di RAM. Dall’assistenza sanitaria, all’istruzione, alla nanza, dai trasporti all’energia, Watson è adatto a una serie di ambiti applicativi nella Data Driven Economy e attinge a una conoscenza approfondita del dominio per permettere agli operatori di assumere decisioni più sempre più informate sempre più velocemente. Per maggiori informazioni su IBM Watson
Data Science Experience IBM DSX (Data Science Experience) è un ambiente di data science interattivo e collaborativo, con strumenti per rilevare e condividere insight, quali ad esempio notebook Jupyter con Python, R e Scala. Si può utilizzare su IBM Cloud, su un cloud protetto (Locale) o sul proprio desktop. In grande sintesi le funzioni di DSX permettono di eseguire attività in un unico posto, senza mai uscire dal sito, con la possibilità di connettere ad oltre 30 tipi di archivi dati, con accesso alla Watson Data Platform, e con la possibilità di usufruire del vantaggio che deriva dalla condivisione di dataset, notebook, articoli e altre opzioni. Per maggiori informazioni su Data Science Experience IBM e su IBM Analytics
Data visualization D3 D3.js (o solo D3 per Data-Driven Documents) è una libreria JavaScript per creare visualizzazioni dinamiche ed interattive partendo da dati organizzati, visibili attraverso un comune browser. D3.js utilizza gli standard web: SVG, HTML5, e CSS. La libreria JavaScript D3, incorporata in una pagina web HTML, utilizza funzioni JavaScript prede nite per selezionare elementi del DOM, creare elementi SVG, aggiungere uno stile gra co, oppure transizioni, e etti di movimento e/o tooltip. Questi oggetti posso essere largamente personalizzati utilizzando lo standard web dei “fogli di stile a cascata” (CSS). In questo modo grandi collezioni di dati possono essere facilmente convertiti in oggetti SVG usando semplici funzioni di D3 e così generare ricche rappresentazioni gra che di numeri, testi, mappe e diagrammi. I dati utilizzati possono essere in diversi formati, il più comune è il JSON, valori separati da virgola CSV o geoJSON, ma, se necessario, di possono scrivere funzioni JavaScript apposta per leggere dati in altri formati.
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
14/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
Per maggiori informazioni su D3
QLIK Qlik è una piattaforma di soluzioni dedicati alla Data Visualization in modalità self-service, di applicazioni per le analisi, per le analisi integrate e per la reportistica. Qlik permette di visualizzare ed esplorare le informazioni, per interpretare i fenomeni e per disporre di visioni che consentono di prendere decisioni più consapevoli e più velocemente. Qlik integra la Business Intelligence (BI) partendo dalla convinzione che per ottimizzare la Business Intelligence è prima di tutto necessario mettere a frutto l’intelligenza partendo dal concetto che i dati non sono altro che una fonte e che gli strumenti e le tecnologie di analisi sono e caci in ragione dei soggetti che li utilizzano. Partono da questa convinzione le soluzioni per la Visual Analytics che comprendono tre soluzioni: Qlik Sense, la piattaforma di Visual Analytics di ultima generazione, QlikView, è la soluzione per analisi guidate e dashboard e Qlik Cloud è il portfolio di applicazioni SaaS. Per maggiori informazioni su QLIK
Power BI Power BI rappresenta una famiglia di strumenti di analisi di dati per il business in grado di produrre informazioni critiche. Power BI permette di connettere centinaia di tipologie di dati, sempli cando la preparazione stessa dei dati e la capacità di dare vita ad analisi personalizzate. Power BI permette di creare dashboard personalizzate con la possibilità di dare vita a forme di visualizzazione personalizzate. Power BI permette di gestire i dati da qualsiasi origine (sia a livello locale sia dal Cloud) in un’unica posizione. La piattaforma visualizza dashboard live in tempo reale con report interattivi e permette di sempli care l’esplorazione dei dati e delle query in linguaggio naturale con la possibilità di sottoporre domande e ottenere le risposte sotto forma di visualizzazioni personalizzabili. Per maggiori informazioni su Power BI
Tableau Tableau è una piattaforma di soluzioni per la Data Visualization basata su tre principi: la capacità di fondere computer graphics e database lavorare sui principi del visual understanding https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
15/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
sviluppare cicli di visual analysis La loso a della società è racchiusa nella convinzione del ruolo fondamentale dei fatti e nella capacità di utilizzare i dati per fare la di erenza. La piattaforma Tableau è costituita da una serie di strumenti come VizQL, Live Query Engine, In-Memory Data Engine, Tableau Public e Tableau Mobile. VizQL è un visual query language che traduce azioni drag-and-drop in query e ne gestisce la visualizzazione. Tableau conta su un Data Engine nella forma di un break-through analytics database progettato per superare le limitazioni dei database esistenti e i data silos e per fornire un vero supporto a livello di visual analysis. il Data Engine Tableau permette di superare la curva tra Big Data e la velocità di analysis. Per maggiori informazioni su Tableau
Zeppelin Apache Zeppelin è un notebook web-based che permette di attuare forme di data-driven analytics interattive e collaborative con SQL, Scala e altre piattaforme. Zeppelin è basato su un sistema di plugin e supporta Apache Spark, Python, JDBC, Markdown e Shell. Zeppelin è una soluzione Notebook multi-purpose per la Data Ingestion, la Data Discovery, la Data Analytics e la Data Visualization & Collaboration. Per maggiori informazioni su Zeppelin
Ploty Plotly (Plot.ly) è uno strumento di analisi e visualizzazione dei dati. Plotly fornisce strumenti gra ci, analitici e statistici online oltre a librerie gra che scienti che per Python, R, MATLAB , Perl, Julia, Arduino e REST. Plotly è stato realizzato utilizzando Python e il framework Django, con un front-end che utilizza JavaScript e la libreria di visualizzazione D3.js, HTML e CSS. I server di collaborazione Ploty (disponibili in cloud o in locale) consentono ai data scientist di mostrare il proprio lavoro, creare gra ci senza codi ca e collaborare con analisti aziendali per progettisti, dirigenti e clienti. Per maggiori informazioni su Ploty https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
16/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
Open Data Con il termine “Open data” si indicano tutti quei dati che sono liberamente accessibili: che possono essere utilizzati da chiunque senza restrizioni di copyright, brevetti o altri meccanismi di controllo, a parte l’obbligo di citare la fonte o mantenere la banca dati aperta. (Open Data e Open Source: perché Open è meglio) Gli obiettivi del movimento “Open Data” sono simili a quelli di altri movimenti “aperti” come Open Source, Open Hardware, Open Content, Open Government e Open Access. La crescita del movimento “Open Data” è accompagnata da un aumento dei diritti di proprietà intellettuale. La loso a alla base dei dati aperti è ormai consolidata, mentre il termine “Open Data” è più recente e ha guadagnato popolarità con l’avvento di Internet e World Wide Web e, in particolare, con il lancio di iniziative governative Open Data, come Data.gov e Data.gov.uk.
Alcune fonti Open Data DatiOpen.it DatiPiemonte.it I.Stat DatiCamera.it Dataverse Dati.milano.comune.it Open Data Ministero della Salute *Luca Flecchia E’ cresciuto professionalmente nelle principali aziende di consulenza (KPMG, Capgemini), dove si è occupato di progetti sia di management consulting che di implementazione di sistemi informativi. Le sue esperienze variano da analisi di performance di processi (es. supply chain) alla stesura di analisi funzionali per la realizzazione di applicazioni custom. Ha sviluppato competenze su progetti CRM, merchandise nancial planning e analytics, sia in termini di analytics “tradizionali” (es. dashboard, reporting, data warehousing) sia di “advanced” analytics. Si occupa attualmente
della gestione della unit di Data Driven Innovation in https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
17/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
Partners4Innovation, dove, tra le altre cose, coniuga le proprie competenze di analytics con quelle di Business Process Management (BPM) nell’applicazione delle tecniche di Process Mining. Immagine fornita da Shutterstock
Sullo stesso argomento:
3rdPLACE: Big Data in Big Data e Data Science
presa diretta con il
verso una Data Driven…
business…
Pietropaoli, IBM: open e
Come si diventa Data
privo di preconcetti,…
Scientist: skill, scuole,…
Big Data as a Service e
Data Scientist: white
Real Time Analytics nel…
paper, survey, evento,…
Redazione
Sullo stesso argomento: https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
18/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
3rdPLACE: Big Data in Big Data e Data Science
presa diretta con il
verso una Data Driven…
business…
Pietropaoli, IBM: open e
Come si diventa Data
privo di preconcetti,…
Scientist: skill, scuole,…
Big Data as a Service e
Data Scientist: white
Real Time Analytics nel…
paper, survey, evento,…
COMMENTA PER PRIMO
Lascia un commento L'indirizzo email non sarà pubblicato. Commento
Nome*
E-Mail*
Website
PUBBLICA IL COMMENTO https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
19/20
10/10/2018
Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
RSS FEED AGENDA DIGITALE CORCOM DIGITAL4EXECUTIVE DIGITAL4TRADE ECONOMYUP FORUM PA STARTUP BUSINESS ZEROUNO UNIVERSITY2BUSINESS
Indirizzo Via Copernico, 38 Milano - Italia CAP 20125 Contatti
[email protected]
INFORMATIVA COOKIE INFORMATIVA PRIVACY INFORMATIVA NEWSLETTER ISCRIZIONE NEWSLETTER ABOUT CONTATTI MAPPA ARCHIVIO TAGS
CHE COS’È LA BLOCKCHAIN
CHE COSA SONO E COME FUNZIONANO LE DLT
TUTTE LE FASI DELLA PSD2
GLI AMBITI APPLICATIVI DELL’IOT
Digital360 S.p.A. - Codice scale 08053820968 - P.IVA: 08053820968 - © 2016 DIGITAL 360. ALL RIGHTS RESERVED
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/
20/20