여전히 data.table
db-benchmark 에서는 가장 최신의 오픈소스 툴을 사용하여 데이터 전처리 성능을 측정하고 있습니다. Polars라는 새로운 강자가 등장하긴 했지만, 여전히 data.table은 최상위권을 유지하고 있습니다. (여기서 비교하고 있는 패키지는 dask, spark, Modin 등 알려진 빅데이터 툴도 모두 포함하고 있습니다.) 특히 groupby2014/50GB 조건에서 성공적으로 작동했던 패키지는 data.table이 유일합니다.
메모리 상에서 데이터를 전처리하는데 최선의 방법이라고 부를 만합니다!
“R로 하는 빅데이터 분석: 데이터 전처리와 시각화”는 국내 서적 중 (거의) 유일하게 데이터테이블을 자세하게 설명하고 있습니다. (혹시 다른 책이 있다면 알려주세요.)
출처> R로 하는 빅데이터 분석: 데이터 전처리와 시각화
Leave a comment