15 novembre 2018 | Big Data | Pascal Gillet

Ingestion de données: État de l'Art

L’ingestion de données consiste à extraire, transformer et charger de grands volumes de données à partir de diverses sources, telles que des bases de données, des API, des serveurs FTP / SFTP, des fichiers, etc., dans un lac de données (Data Lake en anglais). “Data Lake” est un terme apparu au cours de cette décennie pour décrire un élément important du pipeline d’analyse de données dans le monde du Big Data. > Continuer la lecture
30 octobre 2018 | Tools | Olivier Revial

Les ADR pour garder une trace de tous les choix d'architecture

- Pourquoi on a mis ça en place déjà ?

- Euh… ben… je sais plus trop, c’est historique !?

Si vous avez déjà entendu ou utilisé ce genre de phrases, continuez à lire, vous avez vraisemblablement besoin des Architecture Decision Records (ADR).

Que sont les ADR ? C’est très simple : il s’agit de documents qui permettent de retracer toutes les décisions d’architecture importantes qui concernent un logiciel, en leur apportant du contexte.

> Continuer la lecture
16 octobre 2018 | Big Data | Nicolas Tiraboschi

Initiation au web scraping avec Scrapy

Le web scraping… Kézako ? Vous en avez sûrement déjà entendu parler (et peut-être fait ?), il s’agit de parcourir des pages web pour récupérer de la data et l’utiliser dans un autre contexte. Les cas d’usages peuvent être nombreux : faire un historique sur les prix de composants informatiques, réaliser un aggrégateur de petites annonces, effectuer du référencement de sites web, etc. Pour ce faire, nous allons utiliser le langage Python ainsi qu’un framework appelé Scrapy. > Continuer la lecture
Articles plus anciens