Skip to main content

One post tagged with "columnar"

View All Tags

· One min read
  • What does 'columnar file format' actually mean?
  • row-based file format: CSV, TSV, JSON, Avro
  • columnar file format: Parquet, ORC 예를들어 아래와 같은 형식이면 columnar file format이다. entry가 2개이다 (Mattew Rathbone/16세..., Joe Bloggs/102세...)
ID/INT/3:1,2
FIRST_NAME/STRING/11:Matthew,Joe
LAST_NAME/STRING/15:Rathbone,Bloggs
AGE/INT/6:19,102
COOL/BOOL/3:1,1
FAVORITE_FRUIT/ARRAY[STRING]/19:[bananas,apples],[]
  • 한 column이 너무 커지면 안되니까 1000개씩 반복
  • 사람이 보기엔 불편하다
  • 기계입장에선 last name이 'Rathbone'인 사람을 찾는다면 last name 컬럼만 보면 된다
  • compression 입장에서도 비슷한 특성의 데이터가 모이면 효율이 좋다