'DataScience' 카테고리의 글 목록

[SQLD] 1과목 개념 핵심요약 정리 (시험 전에 빠르게 훑어보기)

* 본 요약 개념이 수험생분들에게 도움이 되었으면 좋겠습니다 !1. 데이터 모델링 이해개념현실 세계를 데이터베이스에 추상적, 구조적으로 표현하는 과정데이터베이스의 저장, 조작, 관리 방법 정의특징단순화: 핵심 요소 집중, 복잡성 제거추상화: 현실을 일정 양식으로 표현명확화: 정확한 현상 기술로 의사소통 명료화관점데이터 관점프로세스 관점데이터와 프로세스 결합 관점유의점중복 최소화비유연성 주의비일관성 방지데이터 모델링 요소대상(Entity)속성(Attribute)관계(Relationship)모델링 단계개념적 모델링 (전사적, 추상화 수준 높음)논리적 모델링 (정규화, 데이터 재사용 가능)물리적 모델링 (성능 고려, 가장 구체적)스키마의 3단계외부스키마 (사용자 관점)개념스키마 (통합 논리적 구조)내부스키마 ..

format_list_bulleted DataScience/SQL
· 2025. 3. 7.
textsms

[Python] 회귀 분석의 가정 정리 및 시각화 - 선형성, 독립성, 등분산성, 정규성

회귀 분석을 수행할 때, 특정 가정을 만족해야 결과의 신뢰성을 확보할 수 있다. 대표적인 가정으로는 선형성(Linearity), 독립성(Independence), 등분산성(Homoscedasticity), 정규성(Normality)이 있다. 이러한 가정을 검토하는 것은 모델의 성능을 평가하고 문제를 사전에 방지하는 중요한 과정이다. 특히, ADsP에서 그래프를 주고 무슨 가정을 위반했는지를 묻는 질문이 나오는데, 자주 헷갈려서 완전히 정리하고 비교해보고자 한다.코드는 게시글의 마지막에 링크를 첨부할 테니, 깃허브에 가서 볼 수 있을 것이다.1. 선형성(Linearity)선형 회귀 모델은 독립 변수(X)와 종속 변수(Y) 간의 관계가 선형이라고 가정한다. 만약 이 가정이 위배되면, 모델이 적절한 예측을 수..

format_list_bulleted DataScience
· 2025. 2. 20.
textsms

[kafka] kafka 관련 기본 개념 이해 및 주요 특징 알아보기

Apache Kafka는 대규모 데이터를 실시간으로 처리하고 관리하기 위한 분산형 메시징 시스템이다. LinkedIn에서 처음 개발되어 오픈 소스로 공개되었으며, 현재는 Apache Software Foundation에서 관리하고 있다. Kafka는 데이터 스트리밍과 분산형 로그 저장소라는 두 가지 주요 기능을 제공하며, 높은 처리량과 확장성을 바탕으로 다양한 산업 분야에서 널리 사용되고 있다.Kafka의 핵심 요소는 다음과 같다:ProducerProducer는 데이터를 Kafka로 전송하는 역할을 한다. 데이터는 특정 주제(Topic)로 전송되며, Producer는 이 주제를 기준으로 메시지를 생성하고 전송한다.ConsumerConsumer는 Kafka에서 데이터를 읽는 역할을 한다. Consumer는..

format_list_bulleted DataScience
· 2025. 1. 19.
textsms

[Matplotlib] 데이터 시각화 차트 코드 정리 - line, hist, pie, heatmap 등

이번 포스팅에서는 sklearn에서 제공하는 Iris 데이터셋을 사용하여 시각화연습을 할 것이다.이 데이터셋에는 꽃받침(sepal)과 꽃잎(petal)의 길이 및 너비와 품종에 관한 정보가 담겨 있다. 데이터는 sklearn의 datasets 모듈을 통해 불러올 수 있다. 0. 데이터 불러오기import matplotlib.pyplot as pltimport matplotlib.font_manager as fmimport numpy as npimport pandas as pdfrom sklearn import datasets# 한글 폰트 설정# plt.rc('font', family='AppleGothic') # 맥을 사용하는 경우plt.rc('font', family='Malgun Gothic')pl..

format_list_bulleted DataScience
· 2024. 11. 12.
textsms

[프로그래머스] 카테고리 별 도서 판매량 집계하기 - SQL

문제 설명다음은 어느 한 서점에서 판매중인 도서들의 도서 정보(BOOK), 판매 정보(BOOK_SALES) 테이블입니다.BOOK 테이블은 각 도서의 정보를 담은 테이블로 아래와 같은 구조로 되어있습니다. Column name TypeNullableDescriptionBOOK_IDINTEGERFALSE도서 IDCATEGORYVARCHAR(N)FALSE카테고리 (경제, 인문, 소설, 생활, 기술)AUTHOR_IDINTFALSE저자 IDPRICEINTFALSE판매가 (원)PUBLISHED_DATEDATEFALSE출판일BOOK_SALES 테이블은 각 도서의 날짜 별 판매량 정보를 담은 테이블로 아래와 같은 구조로 되어있습니다. Column nameTypeNullableDescriptionBOOK_IDINTFAL..

format_list_bulleted DataScience/SQL
· 2024. 11. 4.
textsms

[PostgreSQL] SQL에서 Join 연산 개념 및 문법 정리 (INNER, RIGHT, LEFT, FULL, CROSS, SELF Join)

데이터베이스에서 다수의 테이블을 결합하는 작업은 관계형 데이터베이스의 핵심 기능으로, 데이터의 유의미한 통합 및 분석을 가능하게 한다. 이를 위해 PostgreSQL은 다양한 형태의 Join 연산을 제공하며, 이 글에서는 각 연산의 작동 원리와 특성에 대해 심도 있게 논의한다. Join 연산을 통해 데이터 간의 관계를 명확하게 파악하고, 복잡한 쿼리 요구 사항을 효율적으로 처리하는 방법을 이해하는 것은 데이터베이스 관리의 중요한 요소이다.1. Join 연산의 개요Join 연산은 두 개 이상의 테이블을 결합하여 원하는 데이터를 추출하는 데 사용된다. 예를 들어, 고객 테이블과 주문 테이블을 결합하여 특정 고객이 주문한 상품을 조회할 수 있다. Join 연산은 SQL 언어의 중심적인 기능으로, 관계형 데이터..

format_list_bulleted DataScience/SQL
· 2024. 10. 22.
textsms