데이터분석4 머신러닝 임계값 Threshold, ROC, AUC Tradeoffs : Recall vs Precision high precision & high recall 가지는 것은 수학적으로 불가능해서 둘을 조화롭게 밸런스 하는 것인 F1 score 사용할 수 있음 정밀도와 재현율을 조정하면 트레이드 오프가 있다. 한 쪽을 강제로 높이면 다른 쪽은 떨어지기 쉬움 F1 Score: 정밀도와 재현율을 결합한 지표, 어느 한쪽으로 치우치지 않는 수치를 나타낼때 상대적으로 높은 값을 가짐. F1 = 2 * (precision * recall/precision + recall) 임계값 Threshold : 0~1 = 0 or 1 으로 분류할 때의 커트라인/기준점 임계값 = 1일 때 FPR=0, TPR=0 threshold INC -> precision inc(FP dec.. 2023. 8. 9. 머신러닝 Train, Test Data 교차검증(k-fold, stratified k-fold, cross_val_score, GridSearch CV) Training and Testing data train : 학습 validation : 학습 중간에 검증 (여러번) test : 모델 평가 (단 한번만) 교차 검증 Cross Validation problem : 데이터를 train, test set으로 나눠도 고정된 학습 데이터로 평가하다 보면 테스트 데이터에만 최적의 성능을 발휘하도록 편향되게 모델을 유도하는 경향이 생겨 과적합(overfitting)이 될 수 있다. 이렇게 되면 결국 다른 테스트용 데이터가 들어올 경우에는 성능이 저하된다. solution : 데이터 편중을 막기 위해, 교차 검증하기! (본 고사(test)를 치르기 전에 모의고사(valid set)으로 검증하듯이) K-fold Cross Validation k 개의 데이터 폴드 세트.. 2023. 7. 27. 데이터분석 머신러닝 개념, 종류 Machine Learning 문제를 풀기 위해서 컴퓨터에 데이터를 학습시켜서 자동으로 문제를 풀 수 있게 모델을 만드는 것 기계 학습 ML 기존 방식 : input(x) -> function (x) -> output(y) 우리가 x 값을 주면 y가 나오도록 함수를 '설계' 했다 기계 학습 : training data(x, y) + learning = Model(Hypothesis) test data(x) -> Model -> output(y) x, y라는 데이터만 줘서 컴퓨터가 가설을 예측하게끔 한다 h(y) = W * X + b 학습 : Weight, bias를 변경하는 일련의 과정 학습 사이클 개념 = 컴퓨터에 데이터만 줘서 loss를 구해서 0이 될 때까지 optimizer로 loss/cost f.. 2023. 7. 27. [데이터분석] 웹 크롤링 파이썬 BeautifulSoup 사용법 크롤링, 웹 스크레이핑을 하려면 BeautifulSoup로 html을 파이썬 객체로 parse를 해줘야 합니다. html xml 파일은 str 형태이기 때문에 ajax 할 때 responsetext로 가져온 것처럼 말이죠! 오늘은 단계별로 나눠서 BeautifulSoup와 requests 파이썬 라이브러리를 활용하여 크롤링을 어떻게 해야 하는지 알아보겠습니다. 일반적인 텍스트 크롤링 방법 : text scraping 시작 전: BeautifulSoup, requests 설치 CLI 창에 $ pip install beautifulsoup4 $ pip install requests BeautifulSoup 란? HTML, XML 파일로부터 원하는 데이터를 가져오기 쉽게, 비슷한 분류의 데이터별로 나누어주는(.. 2023. 6. 28. 이전 1 다음