본문 바로가기

AI37

0713(수) [ 이론 ] Batch Normalization and Dropout 위에보다 아래를 먼저 진도 나갔다고 함 [ 이론 ] Data Augmentation and Transfer Learning 2022. 7. 13.

CNN 없이 이미지 분류하기 _Fashion MNIST 이번 학습에서는 CNN을 사용하지 않고 Fashion MNIST 분류 모델을 만듭니다. 즉 다층 퍼셉트론인 MLP로만 분류하여 성능을 확인합니다. 1. Fashion MNIST 데이터 EDA 패션 의류 제품 이미지를 10개의 항목으로 분류해 놓았습니다. 총 70,000 개의 이미지로 60,000개의 training data 세트와 10,000 개의 test data 세트로 구성되어 있습니다. 각 이미지는 width x height 가 28 x 28개의 픽셀로 이루어진 낮은 해상도의 회색조 이미지입니다. 각 픽셀은 0(검은색) ~ 255(흰색) 사이의 값을 가집니다. 10개의 label은 다음과 같습니다. 0: 티셔츠/탑 1: 바지 2: 풀오버 (스웨터 일종) 3: 드레스 4: 코트 5: 샌들 6: 셔츠 .. 2022. 7. 10.

Image Data Preprocessing 01. 개요 및 이미지 데이터의 기초 우리가 파이썬으로 다루게 될 이미지 파일들은 사실 이산적인 무수한 점(pixel)들로 이루어져 있습니다. pixel이라고 불리는 이 점들은 화면을 구성하는 가장 기본이 되는 단위입니다. 정리해보자면 하나의 이미지 파일은 무수히 많은 픽셀로 구성되어있다는 것을 기억하며 이미지를 처리하는 방식을 살펴봅니다. [ 빛의 삼원색 ] RGB는 빛의 삼원색인 red, green, blue를 이용하여 색을 표현하는 방식입니다. 컬러가 있는 것을 channel이라고 부릅니다. 총 세 채널(R, G, B)로 구성되어있으며, 각 채널은 0 ~ 255의 범위에서 하나의 정수 값을 갖게 되는데, 각 채널의 값을 조절함으로써 다양한 색을 표현할 수 있습니다. => 예를 들어 모든 원소가 0 .. 2022. 7. 10.

TTS / Librosa TTS는 text to speech 로 텍스트를 음성으로 변형시키는 것입니다. 아주아주 간단하게 단 한글자만을 음성으로 변형해보는 것 그리고 여러 글자인 경우 두 가지 실습을 진행합니다. 먼저 한 글자인 경우 입니다. Librosa는 python에서 많이 쓰이는 음성 파일 분석 프로그램입니다. librosa library를 설치하여 불러옵니다. librosa.load method는 audio file 에서 waveform x와 sampling rate sr을 불러옵니다. x는 1차원 numpy float array이고, sr은 초당 sample의 수를 의미하며 default 22050Hz를 갖습니다. 오디오 파일을 다음과 같이 불러올 수 있습니다. 다음은 여러글자인 경우입니다. 이렇게 각각의 파일이 생성.. 2022. 7. 7.

이전 1 ··· 4 5 6 7 8 9 10 다음

티스토리툴바