본문 바로가기

nlp

(2)
KoBERT로 Text Classification을 진행할 때 input 데이터 형태(이진분류) 근 두 달 동안 대여섯 가지 정도의 NLP 모델을 공부하고 파인튜닝을 진행해보며 Text Classification 프로젝트를 진행했다. 진작에 정리를 조금씩 해왔어야 했는데 또 기억이 흐릿해져서야 정리를 시작하게 되었다. 각 모델 코드들을 리팩토링하면서 겸사겸사 어려움을 겪었던 부분들에 대한 기억들을 되짚고, 따로 개인 노션에 정리해두었던 내용 중 공유가 가능한 부분을 정리해두려고 한다. 일단 프로젝트의 목표는 전체 인터넷 뉴스 기사 중 특정 내용을 담고 있는 기사를 솎아내는 것이었다. 가령 '코로나'를 주제로 하고 있는 기사를 전체 기사에서 판별해내 식으로, NLP 기본서에서 항상 다루는 스팸메일 걸러내기와 같은 이진분류를 해내는 것이 목표였다. 랜덤포레스트, Vanilla RNN 등 기초적인 모델에..
[NLP] 자연어처리 - 개요 및 작업 환경 갖추기 참고 자료 [딥 러닝을 이용한 자연어 처리 입문] 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 자연어 우리가 일상 생활에서 사용하는 언어 자연어 처리 개념 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 것 이용 분야 음성 인식, 내용 요약, 번역, 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇 등 필요 프레임워크 및 라이브러리 프레임워크: Anaconda 라이브러리: 아나콘다에 없는 tensorflow, keras, gensim 추가 설치 - 텐서플로우 머신러닝 오픈소스 라이브러리, 머신러닝 및 딥러닝을 직관적이고 손쉽게 이해할 수 있도록 설계 - 케라스 딥러닝 프레임워크인 텐서플로우에 대한 추상화 된 API ..