- NLP KoBERT로 Text Classification을 진행할 때 input 데이터 형태(이진분류) 근 두 달 동안 대여섯 가지 정도의 NLP 모델을 공부하고 파인튜닝을 진행해보며 Text Classification 프로젝트를 진행했다. 진작에 정리를 조금씩 해왔어야 했는데 또 기억이 흐릿해져서야 정리를 시작하게 되었다. 각 모델 코드들을 리팩토링하면서 겸사겸사 어려움을 겪었던 부분들에 대한 기억들을 되짚고, 따로 개인 노션에 정리해두었던 내용 중 공유가 가능한 부분을 정리해두려고 한다. 일단 프로젝트의 목표는 전체 인터넷 뉴스 기사 중 특정 내용을 담고 있는 기사를 솎아내는 것이었다. 가령 '코로나'를 주제로 하고 있는 기사를 전체 기사에서 판별해내 식으로, NLP 기본서에서 항상 다루는 스팸메일 걸러내기와 같은 이진분류를 해내는 것이 목표였다. 랜덤포레스트, Vanilla RNN 등 기초적인 모델에..
- 1일1알고리즘 [python] *sorted 파이썬 아스테리스크/백준2750번 문제 내 풀이 N = int(input()) sort_lst = [] for i in range(N): i = int(input()) sort_lst.append(i) # 오름차순 print(*sorted(sort_lst)) *(아스테리스크)의 역할 여기서 *sorted의 역할: 괄호를 풀어주는 unpacking 역할을 해준다. temp_lst = [5,3,4,2,1] # 아스테리스크 없을 때 print(sorted(temp_lst)) >> [1,2,3,4,5] # 아스테리스크 있을 때 print(*sorted(temp_lst)) >> 1 2 3 4 5
- 1일1알고리즘 [python] continue와 pass의 차이 차이: - pass 다음 loop를 실행하기 전에 일단 아래 진행될 코드를 실행 - continue 아래의 코드는 실행하지 않고 다음 loop 실행 temp_lst = [1,2,3,4] for i in temp_lst: if i == 3: pass print(i) 1 2 3 4 for i in temp_lst: if i == 3: continue print(i) 1 2 4
- 데이터사이언스 이제서야 듣는 '모두를 위한 머신러닝' 데이터 분석, 머신러닝을 공부한다 하는 사람이면 한 번쯤은 들어봤을 법한 강의. 근데 나는 아직 안 들었다...ㅎㅎㅎㅎㅎ 최근 진로에 대한 고민이 많아졌는데 기본의 기본을 갖추면서 방향성에 대한 고민을 진지하게 해보고자 강의 수강을 시작했다. 하루에 두 개씩, 적어도 하나 이상은 꼭 시간을 내서 듣는 것이 목표다. 너무 거창한 계획은 중도포기를 불러오기에 최소한만 해보기로... 오늘은 주말이니까! OT강의로 예열을 해본다. - 머신러닝의 기본을 이해하고 싶은 사람 - 수학과 컴퓨터사이언스에 대한 배경지식이 약하거나 없는 사람 - 기본적인 이해를 통해 머신러닝을 블랙박스로서 사용하고 싶은 사람 - Tensorflow와 파이썬을 사용해서 머신러닝을 구현해보고 싶은 사람 1. 머신러닝 알고리즘에 대한 기본적인..
- 일상 간략하게 남기는 2020 회고와 2021 계획 블로그를 방치해뒀다가 다시 시작하며 남기는 회고. (취업 준비, 공부, 해야할 것 다 해가며 블로그도 열심히 하시는 분들 정말 최고. 제가 존경해요.) 각설하고 지난 한 해는 개인적으로 정말 뜻깊은 해였다. 일단 가장 큰 이슈는 뼛속까지 인문학도인 내가 개발자로 취업을 한 것. 크고 유명한 회사는 아니지만 내가 판단하기에 미래가 밝다고 판단했고, 대표님의 패기가 여느 젊은이 못지 않아보였기 때문에 입사하기로 마음 먹었다. 데이터매니저라는 직무로 데이터사이언티스트들과 협업하면서 데이터의 A from Z를 관리한다. 처음 첫 달은 기술적인 인수인계를 받느라 정신이 없었고 그리고 다음 달은 그걸 이래저래 활용해보느라 바빴고 이제야 조금 큰 틀이 보이기 시작했다. 지금은 내가 할 수 있는 수준의 일을 하고 있지..