Lors d’une réunion au sein du laboratoire, la question suivante a été posé : Quelle est la meilleure fonction pour écrire des jeux de données ?. Cette question induit en réalité deux sous-questions. On s’intéresse à la vitesse d’écriture et la taille du fichier.

Suite à cette première question, on a également voulu savoir : Quelle est la meilleure fonction pour importer des données en local ?. On s’intéresse évidement à la vitesse d’importation. En partant de l’idée que plus un fichier sera compressé au plus il sera lent à ouvrir.

Je m’imagine déjà réaliser une multitude de benchmark afin d’en déterminer là ou les meilleurs fonctions. Je crée un dépot pour consigner toutes mes recherches

Recherches bibliographiques

Mes réflexions ont été guidées par la lecture des sites suivants :

vitesse d’écriture, vitesse de lecture et taille du jeu de données
bonne pratique pour les data input/output

Suite à ces différentes lectures, je vous propose deux cas de figures.

Premier cas de figures

Si le jeu de données est de taille importante et qu’il doit être compressé. Il doit également être rapidement écrit et lu, j’utilise le format .fst du package fst. Ce format peut être lu avec R et avec Python. De plus l’utilisation de multi-threads rend ces fonctions très efficaces. Le système de compression est également très efficace.

library(fst)

Vous pouvez voir qu’il détecte automatiquement le nombr de threads qu’il va pouvoir employer.

write_fst(x = "", path = "", compress = "")

La fonction requiert : - x : le jeu de données que l’on souhaite exporter - path: le chemin d’accès où l’on souhaite exporter le jeu de données - compress: une valeur allant de 0 à 100, avec 0 pour une compression nulle et 100 pour une compression maximale.

df <- read_fst(path = "")

La fonction requiert : - path: le chemin d’accès du jeu de données

Second cas

Si le jeu de données est de petite taille et qu’il doit être facilement accessible par de nombreux programmes, j’utilise le format .csv. Le package readr et le package data.table seront très efficaces dans ce cas.

Attention, l’importation d’un csv avec data.table::fread() renvoit un data.table.

Ecriture, lecture et taille des fichiers, quelle est la fonction la plus efficace

admin

2019-06-13 17:00:00

Recherches bibliographiques

Premier cas de figures

Second cas

Conclusion