이상치는 데이터 분석에서 중요한 요소이다. 이상치를 적절히 감지하고 처리하는 것은 분석 결과의 신뢰성을 높이는 데 필수적이다. R에서 이상치를 감지하는 방법과 처리하는 방법을 코드와 함께 설명한다.1. 이상치 감지 방법이상치를 감지하는 방법에는 여러 가지가 있다. 대표적인 방법으로 IQR(Interquartile Range), Z-score, Boxplot, 그리고 시각적 탐색이 있다.1.1 IQR을 이용한 이상치 탐지IQR은 사분위수를 이용하여 이상치를 감지하는 방법이다. 사분위수 범위를 벗어난 값을 이상치로 판단한다.# 데이터 생성set.seed(123)data upper_bound]print(outliers)1.2 Z-score를 이용한 이상치 탐지Z-score는 표준화 점수를 사용하여 이상치를 ..
R에서는 데이터를 저장하는 기본적인 자료형으로 벡터(Vector)와 리스트(List)를 제공한다. 두 자료형은 데이터를 저장하는 방식과 활용 방법에서 차이가 있다. 이를 이해하기 위해 벡터와 리스트의 개념과 문법을 살펴보자.1. 벡터(Vector)벡터는 R에서 가장 기본적인 자료형이며, 동일한 데이터 타입(숫자형, 문자형, 논리형 등)의 원소들을 일렬로 저장하는 구조를 가진다.벡터의 특징동일한 자료형의 값만 저장 가능인덱싱을 통해 원소에 접근 가능연산이 각 원소에 일괄 적용됨 (벡터 연산 지원)벡터 생성 예제# 숫자형 벡터 생성num_vec 2. 리스트(List)리스트는 서로 다른 데이터 타입의 원소들을 저장할 수 있는 자료형이다. 벡터와 달리 리스트는 각 원소가 서로 다른 구조(벡터, 행렬, 데이터 프..
CRISP-DM 방법론: 데이터 마이닝의 표준 프로세스CRISP-DM(Cross Industry Standard Process for Data Mining)은 데이터 마이닝 프로젝트를 수행하기 위한 표준 프로세스 모델이다. 1996년 다임러 크라이슬러(Daimler Chrysler), SPSS, NCR 등의 기업이 공동으로 개발하였으며, 현재까지 데이터 분석 및 머신러닝 프로젝트에서 널리 사용되고 있다.1. CRISP-DM의 프로세스 개요CRISP-DM은 총 6단계로 구성되어 있다. 각 단계는 프로젝트 수행 시 반복적으로 적용될 수 있으며, 비선형적으로 진행될 수도 있다.1) 비즈니스 이해 (Business Understanding)프로젝트의 목표와 요구사항을 명확히 정의하는 단계이다. 이를 위해 비즈니..
R에서는 데이터를 저장하고 다루기 위해 다양한 자료 형태(mode)를 제공한다. 데이터의 형태(mode)를 이해하는 것은 R 프로그래밍에서 매우 중요하다. 본 글에서는 주요한 자료 형태를 설명하고, 헷갈리기 쉬운 개념들을 비교하여 정리한다.1. 숫자(Numeric)숫자 데이터는 실수형(double)으로 저장되며, 정수(integer)도 포함될 수 있다.x 헷갈릴 수 있는 개념: 정수(Integer)R에서는 정수를 따로 integer 타입으로 저장할 수도 있다.y R에서 정수(integer)도 mode가 "numeric"으로 출력되지만, 내부적으로는 정수로 저장된다.2. 숫자 벡터(Numeric Vector)벡터는 동일한 자료형의 요소를 저장하는 기본적인 자료 구조이다.num_vec 벡터에 다른 자료형이 ..
Apriori 알고리즘을 활용한 장바구니 분석1. 개요장바구니 분석(Market Basket Analysis, MBA)은 고객의 구매 행동을 이해하고 거래 데이터에서 제품 간의 연관성을 찾는 기법이다. 본 블로그에서는 R의 arules 및 arulesViz 패키지를 사용하여 장바구니 분석을 수행한다.2. 필요한 라이브러리 로드우선 필요한 R 패키지를 설치하고 로드한다.> install.packages("arules")> install.packages("arulesViz")> library(arules)> library(arulesViz)3. 데이터 불러오기arules 패키지에 내장된 Groceries 데이터를 사용한다.> data("Groceries")> summary(Groceries)transacti..
주성분 분석이란, 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다. 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분과 상관성이 거의 없도록 하여 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다. 2. 목적- 여러 변수들 간에 내재하는 상관성, 연관성을 적은 수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다. - 다중공산성이 존재하는 경우, 상관성이 적은 주성분으로 변수들을 축소하여 모형 개발에 활용한다. ( 회귀분석에서 입력변수간 상관관계가 높은 다중공산성..