TextClassification (1) 썸네일형 리스트형 KoBERT로 Text Classification을 진행할 때 input 데이터 형태(이진분류) 근 두 달 동안 대여섯 가지 정도의 NLP 모델을 공부하고 파인튜닝을 진행해보며 Text Classification 프로젝트를 진행했다. 진작에 정리를 조금씩 해왔어야 했는데 또 기억이 흐릿해져서야 정리를 시작하게 되었다. 각 모델 코드들을 리팩토링하면서 겸사겸사 어려움을 겪었던 부분들에 대한 기억들을 되짚고, 따로 개인 노션에 정리해두었던 내용 중 공유가 가능한 부분을 정리해두려고 한다. 일단 프로젝트의 목표는 전체 인터넷 뉴스 기사 중 특정 내용을 담고 있는 기사를 솎아내는 것이었다. 가령 '코로나'를 주제로 하고 있는 기사를 전체 기사에서 판별해내 식으로, NLP 기본서에서 항상 다루는 스팸메일 걸러내기와 같은 이진분류를 해내는 것이 목표였다. 랜덤포레스트, Vanilla RNN 등 기초적인 모델에.. 이전 1 다음