Fast Campus DSS 14th ML Project-6조

Machine Learning을 활용한 소설 작가 분류모델

프로젝트 개요

Machine Learning Algorithm 모델을 활용하여 작가 텍스트 데이터를 분석하여 test data의 작가 분류 및 예측

주제 : 문체 분석 알고리즘 개발
배경 : 작가의 글을 분석하여 특징 도출
목적 : 작가 소설 속 문장 특징 도출 및 문장뭉치 분석을 통한 작가 예측
DATA 출처 : DACON 소설 작가 분류 AI 경진대회 Data 사용

팀구성

김형기 : TfidfVectorizer, 모델링, 토픽 모델링(LDA)

여영웅 : 코사인 유사도, 유클리디안 유사도 및 머신러닝 학습

Process

1. Text Data EDA

형태소 및 작가 별 특징 분석

작가별 Text 데이터 분포 Text 데이터 및 알파벳 길이 분포

2. 유사도 측정

유클라디안 거리 측정 : 두 벡터 사이의 거리를 구하는 방법

Cosine 유사도 측정 : 두 개의 벡터값에서 코사인 각도를 구하는 방식(방향성이 함께 포함되어 괜찮은 성능으로 알려짐)

각 유사도를 구하고 가장 유사하거나 거리가 가까운 문장을 찾아서 비교

3. 모델링

MultinomialNB 알고리즘을 base line 으로 설정하고 Text를 Tfidf-Vectorizer로 벡터화 후 다양한 머신러닝 분류 알고리즘을 적용

LogisticRegression, MultinomialNB, RandomForestClassifier, DecisionTreeClassifier, AdaBoostClassifier, GradientBoostingClassifier, LGBMClassifier, KNeighborsClassifier, LinearSVC, XgBoost, RidgeClassifier, SGDClassifier 등

총 12개의 분류 알고리즘 적용 후 5개 가장 성능(Accuracy)이 높게 나온 5개 분류 모델 선정(LinearSVC, SGD Classifier, LogisticRegression, RidgeClassifier, Multinomial NB)

선정된 분류모델에 TF-IDF-parameter Tuning을 통해 parameter 값 설정

NLTK의 Stopwords에 예측이 틀린 Text Data 중 가장 빈도수가 높은 단어 추가하여 진행하였으나, Test ACC 3% 가량 하락

예측

4. 시각화

LDA(토픽 모델링)을 통한 시각화

최종 결과

추가 해결 과제

딥러닝 모델과의 성능 비교

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Machine Learning을 활용한 소설 작가 분류모델

프로젝트 개요

Process

1. Text Data EDA

2. 유사도 측정

3. 모델링

4. 시각화

최종 결과

추가 해결 과제

Files

README.md

Latest commit

History

README.md

File metadata and controls

Machine Learning을 활용한 소설 작가 분류모델

프로젝트 개요

Process

1. Text Data EDA

2. 유사도 측정

3. 모델링

4. 시각화

최종 결과

추가 해결 과제