Data Engineering/python 31

EP21 | 고급 Python 활용 #10 | Spark와 Python을 활용한 대용량 데이터 처리

이 글에서 다루는 개념Apache Spark는 대용량 데이터를 빠르게 처리할 수 있는 분산 컴퓨팅 프레임워크입니다.이번 글에서는 다음 내용을 학습합니다.Apache Spark 개념 및 아키텍처PySpark 설치 및 환경 설정Spark DataFrame을 활용한 데이터 처리Spark SQL을 활용한 데이터 분석RDD(Resilient Distributed Dataset)와 DataFrame 비교1️⃣ Apache Spark란?📌 Apache Spark란?대용량 데이터를 병렬 분산 처리하는 프레임워크Hadoop보다 100배 빠른 메모리 기반 연산 가능머신러닝, 스트리밍 데이터 처리 등 다양한 기능 지원📌 Spark 주요 개념  개념 설명 RDDSpark의 기본 데이터 구조 (Resilient Distr..

EP20 | 고급 Python 활용 #9 | 데이터 자동화 및 작업 스케줄링 (Airflow)

이 글에서 다루는 개념Python에서는 Apache Airflow를 사용하여 작업 자동화 및 데이터 파이프라인을 관리할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.Airflow 개념 및 아키텍처Airflow 설치 및 실행 방법DAG(Directed Acyclic Graph) 개념 및 기본 작성법태스크(Task) 및 연산자(Operator) 활용크론(Cron) 스케줄링을 활용한 자동 실행1️⃣ Apache Airflow란?📌 Apache Airflow란?데이터 파이프라인 및 작업 자동화를 위한 워크플로우 관리 도구DAG(Directed Acyclic Graph) 개념을 기반으로 태스크 실행 흐름을 제어스케줄링 기능을 통해 주기적인 작업 자동화 가능📌 Airflow 주요 개념  개념 설명 DAG..

EP19 | 고급 Python 활용 #8 | 웹 스크래핑 (BeautifulSoup, Selenium)

이 글에서 다루는 개념웹 스크래핑(Web Scraping)은 웹사이트에서 데이터를 자동으로 수집하는 기술입니다.이번 글에서는 다음 내용을 학습합니다.웹 스크래핑 개념과 원리BeautifulSoup을 사용한 HTML 파싱Selenium을 사용한 동적 웹 데이터 크롤링데이터 수집 후 CSV 파일로 저장1️⃣ 웹 스크래핑(Web Scraping)이란?📌 웹 스크래핑이란?웹사이트에서 HTML 데이터를 가져와 필요한 정보를 추출하는 기술뉴스 기사, 주식 데이터, 상품 가격 비교 등에 활용 가능📌 웹 스크래핑 방식  방식 설명 requests + BeautifulSoup정적(Static) 웹페이지에서 데이터 추출SeleniumJavaScript로 생성된 동적(Dynamic) 웹페이지 처리 가능2️⃣ Beaut..

EP18 | 고급 Python 활용 #7 | API 데이터 활용 (REST API, JSON 처리)

이 글에서 다루는 개념Python에서는 REST API를 사용하여 웹 데이터를 가져오거나 서버와 통신할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.REST API 개념 및 활용Python requests 모듈을 사용한 API 호출JSON 데이터 처리 (json 모듈 활용)공공 데이터 API 요청 및 응답 처리1️⃣ REST API란?📌 **REST API(Representational State Transfer API)**란?HTTP 프로토콜을 사용하여 클라이언트와 서버가 데이터를 주고받는 방식대부분의 웹 서비스(API)는 JSON(JavaScript Object Notation) 형식으로 데이터를 주고받음GET, POST, PUT, DELETE 등의 HTTP 메서드를 사용하여 데이터를 처리📌..

EP17 | 고급 Python 활용 #6 | Pandas를 활용한 고급 데이터 분석

이 글에서 다루는 개념Pandas는 대용량 데이터를 효율적으로 처리할 수 있는 강력한 라이브러리입니다.이번 글에서는 다음 내용을 학습합니다.그룹화(GroupBy) 및 집계(Aggregation) 연산피벗 테이블(Pivot Table) 활용데이터 병합(Merge)과 결합(Concat)데이터 시각화(Matplotlib 연동)1️⃣ 그룹화(groupby()) 및 집계(agg())📌 그룹화(GroupBy)란?특정 열을 기준으로 데이터를 그룹화하여 요약하는 기능mean(), sum(), count() 등의 집계 함수와 함께 사용import pandas as pddata = { "Category": ["A", "B", "A", "B", "A", "B"], "Sales": [100, 200, 150, 3..

EP16 | 고급 Python 활용 #5 | 데이터 처리와 Pandas 기본 사용법

이 글에서 다루는 개념Python에서 Pandas 라이브러리를 사용하면 데이터 분석과 처리가 더욱 쉬워집니다.이번 글에서는 다음 내용을 학습합니다.Pandas 라이브러리 소개 및 설치 방법데이터프레임(DataFrame)과 시리즈(Series)의 개념CSV 파일을 불러오고 저장하는 방법데이터 조회 및 필터링, 정렬기본적인 데이터 전처리 (결측치 처리, 중복 제거 등)1️⃣ Pandas란?📌 Pandas는 Python에서 데이터를 분석하고 처리하는 데 사용되는 강력한 라이브러리입니다.엑셀처럼 표 형태(데이터프레임)로 데이터를 관리CSV, Excel, JSON, SQL 등 다양한 데이터 형식 지원데이터 필터링, 정렬, 변환, 그룹화 등 강력한 기능 제공📌 설치 방법 (pandas가 없을 경우)pip ins..

EP15 | 고급 Python 활용 #4 | SQL과 데이터베이스 다루기 (sqlite3, SQLAlchemy)

이 글에서 다루는 개념Python에서는 SQL을 활용하여 데이터베이스를 다룰 수 있으며,이를 위해 내장 모듈인 sqlite3와 강력한 ORM 라이브러리인 SQLAlchemy를 사용할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.SQLite 데이터베이스 사용법 (sqlite3 모듈)기본 SQL 명령어 (SELECT, INSERT, UPDATE, DELETE)SQLAlchemy를 활용한 ORM(Object-Relational Mapping)데이터베이스 연결과 테이블 생성, CRUD 연산1️⃣ SQLite 데이터베이스란?SQLite는 가벼운 파일 기반 데이터베이스로, 별도의 서버 설치 없이 사용 가능합니다.Python에서는 sqlite3 모듈을 사용하여 SQLite 데이터베이스를 쉽게 다룰 수 있습니다...

EP14 | 고급 Python 활용 #3 | 비동기 프로그래밍 (AsyncIO)

이 글에서 다루는 개념Python의 **비동기 프로그래밍(Asynchronous Programming)**을 활용하면시간이 오래 걸리는 작업을 효율적으로 실행할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.동기(Synchronous) vs 비동기(Asynchronous) 차이async와 await 키워드 활용asyncio 모듈을 사용한 비동기 처리비동기 I/O와 네트워크 요청 처리1️⃣ 동기(Synchronous) vs 비동기(Asynchronous) 차이📌 동기 방식 (Synchronous)하나의 작업이 완료될 때까지 다음 작업이 실행되지 않음코드가 순차적으로 실행되므로 실행 시간이 오래 걸릴 수 있음import timedef task(name): print(f"{name} 시작") ..

EP13 | 고급 Python 활용 #2 | 멀티스레딩과 멀티프로세싱

이 글에서 다루는 개념Python에서 **멀티스레딩(Multithreading)과 멀티프로세싱(Multiprocessing)**을 사용하면프로그램의 성능을 향상시키고, 여러 작업을 동시에 실행할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.멀티스레딩(threading 모듈) 개념과 활용멀티프로세싱(multiprocessing 모듈) 개념과 활용멀티스레딩 vs 멀티프로세싱 비교GIL(Global Interpreter Lock)의 영향1️⃣ 멀티스레딩(Multithreading) 개념과 활용📌 스레드(Thread)란?스레드는 하나의 프로세스 내부에서 실행되는 독립적인 작업 단위입니다.여러 개의 스레드를 사용하면 하나의 프로그램에서 동시에 여러 작업을 수행할 수 있습니다.Python에서는 threadi..

EP12 | 고급 Python 활용 #1 | 함수형 프로그래밍 (Map, Filter, Reduce, List Comprehension)

이 글에서 다루는 개념Python에서는 함수형 프로그래밍(Functional Programming) 개념을 활용하여 보다 간결하고 효율적인 코드를 작성할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.고차 함수(First-Class Function) 개념map(), filter(), reduce() 함수 활용법리스트 컴프리헨션(List Comprehension)과 비교함수형 프로그래밍을 활용한 실용적인 예제1️⃣ 함수형 프로그래밍이란?함수형 프로그래밍(Functional Programming)은 함수를 일급 객체(First-Class Citizen)로 다루는 프로그래밍 패러다임입니다.Python은 객체지향 언어이지만, 함수형 프로그래밍 요소도 지원합니다.📌 Python의 함수형 프로그래밍 특징함수를..

728x90