본문 바로가기

분류 전체보기

(107)
KoBERT로 Text Classification을 진행할 때 input 데이터 형태(이진분류) 근 두 달 동안 대여섯 가지 정도의 NLP 모델을 공부하고 파인튜닝을 진행해보며 Text Classification 프로젝트를 진행했다. 진작에 정리를 조금씩 해왔어야 했는데 또 기억이 흐릿해져서야 정리를 시작하게 되었다. 각 모델 코드들을 리팩토링하면서 겸사겸사 어려움을 겪었던 부분들에 대한 기억들을 되짚고, 따로 개인 노션에 정리해두었던 내용 중 공유가 가능한 부분을 정리해두려고 한다. 일단 프로젝트의 목표는 전체 인터넷 뉴스 기사 중 특정 내용을 담고 있는 기사를 솎아내는 것이었다. 가령 '코로나'를 주제로 하고 있는 기사를 전체 기사에서 판별해내 식으로, NLP 기본서에서 항상 다루는 스팸메일 걸러내기와 같은 이진분류를 해내는 것이 목표였다. 랜덤포레스트, Vanilla RNN 등 기초적인 모델에..
[python] *sorted 파이썬 아스테리스크/백준2750번 문제 내 풀이 N = int(input()) sort_lst = [] for i in range(N): i = int(input()) sort_lst.append(i) # 오름차순 print(*sorted(sort_lst)) *(아스테리스크)의 역할 여기서 *sorted의 역할: 괄호를 풀어주는 unpacking 역할을 해준다. temp_lst = [5,3,4,2,1] # 아스테리스크 없을 때 print(sorted(temp_lst)) >> [1,2,3,4,5] # 아스테리스크 있을 때 print(*sorted(temp_lst)) >> 1 2 3 4 5
[python] continue와 pass의 차이 차이: - pass 다음 loop를 실행하기 전에 일단 아래 진행될 코드를 실행 - continue 아래의 코드는 실행하지 않고 다음 loop 실행 temp_lst = [1,2,3,4] for i in temp_lst: if i == 3: pass print(i) 1 2 3 4 for i in temp_lst: if i == 3: continue print(i) 1 2 4
이제서야 듣는 '모두를 위한 머신러닝' 데이터 분석, 머신러닝을 공부한다 하는 사람이면 한 번쯤은 들어봤을 법한 강의. 근데 나는 아직 안 들었다...ㅎㅎㅎㅎㅎ 최근 진로에 대한 고민이 많아졌는데 기본의 기본을 갖추면서 방향성에 대한 고민을 진지하게 해보고자 강의 수강을 시작했다. 하루에 두 개씩, 적어도 하나 이상은 꼭 시간을 내서 듣는 것이 목표다. 너무 거창한 계획은 중도포기를 불러오기에 최소한만 해보기로... 오늘은 주말이니까! OT강의로 예열을 해본다. - 머신러닝의 기본을 이해하고 싶은 사람 - 수학과 컴퓨터사이언스에 대한 배경지식이 약하거나 없는 사람 - 기본적인 이해를 통해 머신러닝을 블랙박스로서 사용하고 싶은 사람 - Tensorflow와 파이썬을 사용해서 머신러닝을 구현해보고 싶은 사람 1. 머신러닝 알고리즘에 대한 기본적인..
간략하게 남기는 2020 회고와 2021 계획 블로그를 방치해뒀다가 다시 시작하며 남기는 회고. (취업 준비, 공부, 해야할 것 다 해가며 블로그도 열심히 하시는 분들 정말 최고. 제가 존경해요.) 각설하고 지난 한 해는 개인적으로 정말 뜻깊은 해였다. 일단 가장 큰 이슈는 뼛속까지 인문학도인 내가 개발자로 취업을 한 것. 크고 유명한 회사는 아니지만 내가 판단하기에 미래가 밝다고 판단했고, 대표님의 패기가 여느 젊은이 못지 않아보였기 때문에 입사하기로 마음 먹었다. 데이터매니저라는 직무로 데이터사이언티스트들과 협업하면서 데이터의 A from Z를 관리한다. 처음 첫 달은 기술적인 인수인계를 받느라 정신이 없었고 그리고 다음 달은 그걸 이래저래 활용해보느라 바빴고 이제야 조금 큰 틀이 보이기 시작했다. 지금은 내가 할 수 있는 수준의 일을 하고 있지..
plot.ly 이용하기 파이썬 plot.ly 그래프 구성 코드 - fig > go.Figure > data: 그래프가 그려지는 데이터 담기 - fig > go.Figure > layout: 그래프의 부가정보 기입, 그래프 크기 등 조절 fig > update_layout: fig에 레이아웃 지속적 업데이트 가능 fig > add_trace: fig에 추가적인 시각적 요소 삽입(이중그래프, 지도 위에 그리는 기능, subplot 기능) Plotly 그래프 그리기 - go와 px 1. go.Figure() - go를 통해 그래프를 하나하나 설명하며 제작 ※ 참고 Single-Page Reference Figure attribute reference for Plotly's Python open-source graphing libra..
Django 개념정리 그동안 너무 실습하면서 장고 관련 개념들이 머릿속에서 뒤죽박죽이 된 것 같아서 잘 정리된 강의를 통해 개념을 다시 정리해본다. 그리고 다시 실습으로! ※ 강의참고 Django 초보 가이드 - 실습을 통해 알아보는 장고 입문 - 인프런 웹프레임 워크 장고(Django) 를 소개부터 기본적인 사용법을 알아봅니다. 입문 웹 개발 프로그래밍 언어 Django 온라인 강의 Django 초보 www.inflearn.com MVC & MVT Model 데이터를 입력하고 전송받으면 데이터베이스 서버에 저장되는데 이것을 다루는 것이 모델 안전하게 데이터를 저장 View 데이터를 적절하게 유저에게 보여줌 유저가 원하는 형태의 데이터로 전송 Controller: Template in Django 사용자의 입력과 이벤트에 반..
파이썬 크롤링 코드 오류 해결 코드 목표 네이버에서 키워드 검색 후 블로그 더보기를 클릭하고 블로그 글만 볼 수 있는 영역으로 넘어가는 크롤링 코드를 짜고 싶었는데, 선택자를 잘못 쓴건지 작동을 하지 않고 에러코드가 떴다... 다른 방법으로 해결을 보긴 했지만 무엇이 잘못되었는지 아직 몰라서 공부가 더 필요하다. 작성 코드 driver.find_element_by_css_selector('.blog>.section>._blogBase>._prs_blg').click() 오류 내용 'NoneType' object has no attribute 'click' 수정 코드 driver.find_element_by_link_text('블로그 더보기').click()