Skip to content

Latest commit

 

History

History
executable file
·
79 lines (50 loc) · 3.81 KB

README.md

File metadata and controls

executable file
·
79 lines (50 loc) · 3.81 KB

Fast Campus DSS 14th ML Project-6조

Machine Learning을 활용한 소설 작가 분류모델

프로젝트 개요


Machine Learning Algorithm 모델을 활용하여 작가 텍스트 데이터를 분석하여 test data의 작가 분류 및 예측

  • 주제 : 문체 분석 알고리즘 개발
  • 배경 : 작가의 글을 분석하여 특징 도출
  • 목적 : 작가 소설 속 문장 특징 도출 및 문장뭉치 분석을 통한 작가 예측
  • DATA 출처 : DACON 소설 작가 분류 AI 경진대회 Data 사용

팀구성

  • 김형기 : TfidfVectorizer, 모델링, 토픽 모델링(LDA)
  • 여영웅 : 코사인 유사도, 유클리디안 유사도 및 머신러닝 학습

Process


1. Text Data EDA


형태소 및 작가 별 특징 분석

process 작가별 Text 데이터 분포 process Text 데이터 및 알파벳 길이 분포

2. 유사도 측정


  • 유클라디안 거리 측정 : 두 벡터 사이의 거리를 구하는 방법

process

  • Cosine 유사도 측정 : 두 개의 벡터값에서 코사인 각도를 구하는 방식(방향성이 함께 포함되어 괜찮은 성능으로 알려짐)

process

  • 각 유사도를 구하고 가장 유사하거나 거리가 가까운 문장을 찾아서 비교

3. 모델링


MultinomialNB 알고리즘을 base line 으로 설정하고 Text를 Tfidf-Vectorizer로 벡터화 후 다양한 머신러닝 분류 알고리즘을 적용

  1. LogisticRegression, MultinomialNB, RandomForestClassifier, DecisionTreeClassifier, AdaBoostClassifier, GradientBoostingClassifier, LGBMClassifier, KNeighborsClassifier, LinearSVC, XgBoost, RidgeClassifier, SGDClassifier 등

총 12개의 분류 알고리즘 적용 후 5개 가장 성능(Accuracy)이 높게 나온 5개 분류 모델 선정(LinearSVC, SGD Classifier, LogisticRegression, RidgeClassifier, Multinomial NB)

  1. 선정된 분류모델에 TF-IDF-parameter Tuning을 통해 parameter 값 설정

process

  1. NLTK의 Stopwords에 예측이 틀린 Text Data 중 가장 빈도수가 높은 단어 추가하여 진행하였으나, Test ACC 3% 가량 하락
  1. 예측

process

4. 시각화


LDA(토픽 모델링)을 통한 시각화 process

최종 결과


process

추가 해결 과제


  1. 딥러닝 모델과의 성능 비교