Skip to content

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
    • Help
    • Support
    • Submit feedback
    • Contribute to GitLab
  • Sign in
S
SparkStudy
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 5
    • Issues 5
    • List
    • Boards
    • Labels
    • Milestones
  • Merge Requests 0
    • Merge Requests 0
  • CI / CD
    • CI / CD
    • Pipelines
    • Jobs
    • Schedules
  • Analytics
    • Analytics
    • CI / CD
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Members
    • Members
  • Collapse sidebar
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
  • 박준형
  • SparkStudy
  • Issues
  • #3

Closed
Open
Opened Jul 19, 2022 by 박준형@jh.park
  • Report abuse
  • New issue
Report abuse New issue

코드에 의한 속도 개선

성능 개선 %는 Local기준입니다.

  1. CSV를 읽을 떄 Schema를 선언하여 읽는다.

선언하지 않았을 때 보다 약 8% 정도의 성능 개선

  1. 동일 DataFrame에 대하여 시간대에 의한 전 시간 데이터와의 계산이 필요한 경우 Deep-copy보단 window를 사용한다.

Deep-copy 대비 5~6 %의 성능 개선

  1. CSV파일을 읽을 때 nielsbasjes/splitablegzip 사용과 그에 따른 maxPartitionBytes을 조정

약 35%의 성능 개선 (maxPartitionBytes를 256m으로 설정시)
maxPartitionBytes 값에 따라 파일을 여러 파티션이 읽음
spark.sql.files.maxPartitionBytes의 기본값은 128m
https://github.com/nielsbasjes/splittablegzip

Edited Jul 21, 2022 by 박준형
Assignee
Assign to
None
Milestone
None
Assign milestone
Time tracking
None
Due date
None
0
Labels
None
Assign labels
  • View project labels
Reference: jh.park/sparkstudy#3