'Data Analysis/DeepLearning' 카테고리의 글 목록

CTC Loss의 개념 및 원리 이해 - 음성인식, 언어생성 모델 손실함수

CTC Loss란 무엇인가?CTC(Connectionist Temporal Classification) Loss는 가변 길이의 입력과 출력 간 정렬 문제를 해결하기 위해 설계된 손실 함수이다. 음성 인식, 자막 생성 등 입력 데이터의 길이가 가변적이고 정렬이 불확실한 시계열 데이터를 처리하는 데 널리 사용된다. 이 글에서는 CTC Loss의 작동 원리와 구현 방법을 자세히 설명한다.1. CTC Loss의 필요성음성 데이터와 텍스트 데이터는 길이가 다르다. 예를 들어, 1초 길이의 음성 파일은 수천 개의 오디오 샘플로 구성될 수 있지만, 이 음성을 텍스트로 변환하면 단어 몇 개로 요약될 수 있다. 기존의 손실 함수는 입력과 출력의 일대일 매칭을 요구하므로 이러한 데이터를 처리하기 어렵다.CTC Loss는 ..

format_list_bulleted Data Analysis/DeepLearning
· 2024. 12. 31.
textsms

[음성인식 AI 프로젝트] 1-1. 음성 데이터 및 라벨 데이터 전처리 방법 알아보기

음성인식 AI를 위한 라벨 데이터 전처리 및 모델 라벨 활용 방법음성인식 AI를 개발하기 위해서는 음성 데이터를 라벨링하고, 이를 모델 학습에 적합한 형식으로 전처리하는 작업이 필수적이다. 본 글에서는 MFCC로 변환된 npy 파일을 입력 데이터로 활용하여, 해당 음성 파일에 포함된 발화 내용을 라벨로 처리하는 방법을 알아보고 다음 차례에 이를 적용해보고자 한다.1. 음성 데이터와 라벨 데이터 준비음성인식 모델의 입력 데이터는 일반적으로 음성 파일의 특징(feature) 값이다. 본 예제에서는 MFCC(Mel-Frequency Cepstral Coefficients)로 변환된 npy 파일을 사용한다. 이와 함께 각 음성 파일에 매칭되는 스크립트 데이터(발화 내용)를 라벨로 활용한다.준비할 데이터입력 데이..

format_list_bulleted Data Analysis/DeepLearning
· 2024. 12. 30.
textsms

[Pytorch] 음성 데이터 학습 모델 개발에 필요한 정보 및 개념 정리

음성 데이터 학습 모델 개발에 필요한 정보파이썬에서 음성 데이터를 학습하는 모델을 개발하려면 데이터 준비부터 모델 설계, 학습, 평가에 이르는 전 과정을 체계적으로 이해하는 것이 중요하다. 이 글에서는 음성 데이터 학습 모델을 만들기 위해 필요한 정보를 단계별로 정리한다.1. 음성 데이터란?음성 데이터는 사람의 음성을 디지털 형식으로 저장한 데이터다. 주로 시간에 따른 진폭 변화를 포함하며, 오디오 파일 형식(예: PCM, WAV, MP3 등)으로 저장된다. 음성 데이터를 학습 모델에 사용하려면 이를 전처리하여 특징(feature)을 추출해야 한다.2. 데이터 준비2.1. 데이터셋 수집음성 데이터셋은 모델 성능에 큰 영향을 미친다. 다음은 음성 데이터셋을 수집할 수 있는 주요 소스들이다:공개 데이터셋: ..

format_list_bulleted Data Analysis/DeepLearning
· 2024. 12. 29.
textsms

[Pytorch] 간단한 언어 생성 모델 개발 (LSTM) 및 모델 출력 길이 조절

이 글에서는 PyTorch를 활용하여 언어 생성 모델을 만드는 방법과, 생성된 문장의 길이가 다를 때 이를 어떻게 다룰 수 있는지 초점을 맞춰 설명한다.1. 문제 정의언어 생성 모델(Language Generation Model)은 주어진 입력에 따라 자연스러운 문장을 생성하는 AI 모델이다. 예를 들어, 입력으로 "안녕하세요"를 제공하면 모델이 "안녕하세요! 오늘 기분이 어떠세요?" 같은 문장을 생성할 수 있다. 하지만 생성된 문장의 길이가 고정되지 않기 때문에, 이를 처리하는 방법이 중요하다.2. 데이터 준비언어 생성 모델을 학습하려면 대규모 텍스트 데이터가 필요하다. 데이터를 준비하고 전처리하는 단계는 다음과 같다:데이터 수집: 공개 데이터셋(WikiText, OpenSubtitles 등) 활용.데..

format_list_bulleted Data Analysis/DeepLearning
· 2024. 12. 26.
textsms

[Pytorch] 모델 학습을 하기 위해 필요한 함수 및 코드 정리 - Trainer, Dataloader, Optimizer 등

PyTorch에서 모델을 구현하고 학습하기 위해 필요한 요소들은 다양하다. 단순히 모델 구조를 정의하는 것뿐만 아니라, 데이터를 준비하고, 학습 과정을 관리하고, 성능을 평가하는 모든 단계에서 세부적인 설정이 필요하다. 이 글에서는 PyTorch로 모델을 학습하기 위해 필요한 주요 구성 요소를 정리한다.1. 데이터 준비: Dataset과 DataLoader모델 학습의 첫 단계는 데이터를 준비하는 것이다. PyTorch에서는 데이터 로딩과 전처리를 효율적으로 처리하기 위해 Dataset과 DataLoader 클래스를 제공한다.Dataset 클래스데이터를 읽고 전처리하는 역할을 한다.torch.utils.data.Dataset 클래스를 상속받아 사용자 정의 데이터셋을 구현할 수 있다.Dataset 클래스에 ..

format_list_bulleted Data Analysis/DeepLearning
· 2024. 12. 25.
textsms

[Pytorch] 딥러닝 모델 구현하는 방법 및 코드 정리 - Sequential, Functional, nn.Module

PyTorch에서 모델을 구현하는 방식은 크게 세 가지로 나눌 수 있다. 각각 Sequential API, Functional 방식, 그리고 nn.Module 클래스를 사용하는 방식이다. 이 글에서는 각 방식의 특징과 장단점을 설명하고, 언제 어떤 방식을 사용하는 것이 적합한지 알아본다.1. Sequential API를 사용하는 방식Sequential API는 PyTorch에서 가장 간단하고 직관적인 방법이다. 계층(layer)을 순차적으로 쌓아 올리는 구조를 제공하며, 신경망의 각 계층이 순서대로 연결된 경우에 적합하다.구현 예시import torchimport torch.nn as nnmodel = nn.Sequential( nn.Linear(10, 20), nn.ReLU(), nn...

format_list_bulleted Data Analysis/DeepLearning
· 2024. 12. 24.
textsms