본문 바로가기
반응형

전체 글135

[Hadoop] Hadoop 공부 - 1. 기본개념 1. 기초 과정1-1. Hadoop 기본 개념 이해Hadoop이란?분산 저장과 분산 처리를 위한 오픈 소스 프레임워크두 가지 주요 구성 요소: HDFS(분산 파일 시스템)와 MapReduce(분산 처리 프레임워크)Hadoop의 특징확장성: 노드 추가로 쉽게 확장 가능내결함성: 데이터가 여러 노드에 복제되어 장애 발생 시에도 데이터 손실 방지저비용: 저렴한 하드웨어로 빅데이터 처리 가능Hadoop 에코시스템HDFS: 대용량 데이터를 여러 노드에 분산 저장MapReduce: 데이터를 분산 처리하는 프로그래밍 모델YARN: 자원 관리 시스템으로 여러 애플리케이션을 동시에 실행 가능Hive, Pig: SQL 같은 언어로 빅데이터 쿼리 및 분석HBase: 실시간 빅데이터 처리와 NoSQL 데이터베이스1-2. Ha.. 2024. 9. 20.
[EPAS] 아카이브 로그 백업 방법 **EPAS(EnterpriseDB Postgres Advanced Server)**에서 아카이브를 사용하여 데이터를 복원하는 방법은 일반적으로 **아카이브 로그(Archive Log)**를 사용한 PITR(Point-In-Time Recovery) 방식으로 수행됩니다. 아카이브 로그를 사용한 복원은 데이터베이스를 특정 시점으로 복원하거나 장애 상황에서 데이터 손실을 최소화하는 데 유용합니다. 다음은 EPAS에서 아카이브를 통해 복원하는 일반적인 과정입니다.1. 아카이브 로그 설정 확인먼저, 아카이브 로그가 정상적으로 활성화되어 있어야 합니다. 이를 위해 postgresql.conf 파일에 다음과 같은 설정이 있는지 확인하세요. archive_mode = on archive_command = 'cp %p.. 2024. 9. 12.
[EPAS] DB 성능 최적화 1. 하드웨어 최적화CPU: EPAS는 CPU의 멀티 코어 성능을 활용할 수 있습니다. 트랜잭션이 많은 OLTP(Online Transaction Processing) 환경에서는 고주파수의 CPU가 유리하며, 분석이나 대량의 데이터를 처리하는 OLAP(Online Analytical Processing) 작업의 경우에는 다중 코어 CPU가 더욱 유리합니다. 또한, 멀티스레딩과 병렬 쿼리 실행을 지원하는 기능이 활성화되어 있는지 확인하는 것이 중요합니다.메모리(RAM): PostgreSQL과 EPAS는 메모리 사용을 통해 데이터베이스 성능을 크게 향상시킬 수 있습니다. 전체 데이터를 메모리 내에서 캐시하여 읽기 성능을 향상시키는 것이 목표입니다. 일반적으로 DB 시스템에는 가능한 많은 메모리를 할당하는 것.. 2024. 9. 5.
[Python] 대용량 excel, csv 파일 가공 상황.보안 업체에서 받은 로그 파일 크기가 2GB 이상으로메모리 문제로 파일이 열리지 않음.  1차 가공. 최소 행을 출력 하여 데이터를 확인. *참고 : encoding 선언해도 UTF-8 error 발생 시 프로젝트 전역적으로 UTF-8 encoding을 해야함.import pandas as pdimport osimport chardet# 큰 CSV 파일을 청크 단위로 읽어옵니다.chunksize = 10**6 # 1백만 행 단위로 읽어옵니다.csv_file = 'C:\\cv\\csv5\\[파일이름].csv'# 파일의 인코딩을 자동으로 감지합니다.with open(csv_file, 'rb') as f: result = chardet.detect(f.read(10000))encoding = re.. 2024. 8. 9.
반응형