Fast Campus DSS 14th ML Project-6조
Machine Learning Algorithm 모델을 활용하여 작가 텍스트 데이터를 분석하여 test data의 작가 분류 및 예측
- 주제 : 문체 분석 알고리즘 개발
- 배경 : 작가의 글을 분석하여 특징 도출
- 목적 : 작가 소설 속 문장 특징 도출 및 문장뭉치 분석을 통한 작가 예측
- DATA 출처 : DACON 소설 작가 분류 AI 경진대회 Data 사용
팀구성
- 김형기 : TfidfVectorizer, 모델링, 토픽 모델링(LDA)
- 여영웅 : 코사인 유사도, 유클리디안 유사도 및 머신러닝 학습
형태소 및 작가 별 특징 분석
작가별 Text 데이터 분포
Text 데이터 및 알파벳 길이 분포
- 유클라디안 거리 측정 : 두 벡터 사이의 거리를 구하는 방법
- Cosine 유사도 측정 : 두 개의 벡터값에서 코사인 각도를 구하는 방식(방향성이 함께 포함되어 괜찮은 성능으로 알려짐)
- 각 유사도를 구하고 가장 유사하거나 거리가 가까운 문장을 찾아서 비교
MultinomialNB 알고리즘을 base line 으로 설정하고 Text를 Tfidf-Vectorizer로 벡터화 후 다양한 머신러닝 분류 알고리즘을 적용
- LogisticRegression, MultinomialNB, RandomForestClassifier, DecisionTreeClassifier, AdaBoostClassifier, GradientBoostingClassifier, LGBMClassifier, KNeighborsClassifier, LinearSVC, XgBoost, RidgeClassifier, SGDClassifier 등
총 12개의 분류 알고리즘 적용 후 5개 가장 성능(Accuracy)이 높게 나온 5개 분류 모델 선정(LinearSVC, SGD Classifier, LogisticRegression, RidgeClassifier, Multinomial NB)
- 선정된 분류모델에 TF-IDF-parameter Tuning을 통해 parameter 값 설정
- NLTK의 Stopwords에 예측이 틀린 Text Data 중 가장 빈도수가 높은 단어 추가하여 진행하였으나, Test ACC 3% 가량 하락
- 예측
- 딥러닝 모델과의 성능 비교