일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 중복성검사
- reverse_lazy
- 병렬처리
- 평가지표
- 다중 선형 회귀
- 정규표현식
- list
- 2023운전면허
- githubblog
- 비용이슈
- 통계학
- Python
- 지연평가
- 깃헙 블로그 오류
- GPT-4
- ChatGPT
- Selenium
- beatuifulsoup4
- LinkedLists
- 벌크업데이트
- AWS
- re
- 파이썬
- simple-regression model
- de
- re.compile
- 정규표현식 조건문
- 넓이 우선 순회
- chirpy
- ruby error
- Today
- Total
목록통계학 (2)
용사냥꾼69
K-means 클러스터링 K 개의 중심점에서 거리를 토대로 가까운 데이터들을 모아서 군집화 하는 비지도학습의 일종이다. 비지도학습이 그렇듯이, 예측하려는 특정 결과가 없을 경우 사용된다. K-means는 대부분의 특성이 연속형 변수일 때 사용된다. 즉, 범주형 변수의 경우에는 사용하기가 곤란하다는 것이다. 장점 공통적으로 구현이 되어있을 확률이 높은 모델이다. 인기가 있기 때문에 연구가 많다. 상대적으로 빠르다. 단점 1. 군집이 구형이라고 가정한다. 당연히, 모든 군집이 구형일 수는 없다. 2. 이상치에 대하여 오류가 발생한다. 상대적인 거리를 기반으로 하는 알고리즘이 공유하는 단점이라고 볼 수 있다. 3. 두 변수의 규모가 다르다면 문제가 일어난다. 표준화나 정규화같은 스케일링을 해야한다. 4. 최적..
F1 score 정확도(precision)와 재현율(recall)을 조화평균으로 합친 값. Beta에 해당하는 값은 recall에 대한 가중치와 같고 recall을 더 신경쓸수록 값을 높이면 된다. from sklearn.metrics import f1_score y_pred_pos = y_pred > threshold # threshold는 임계점이다. f1_score(y_true, y_pred_pos) 파이썬 sklearn.metrics를 이용하여 쉽게 구현할 수 있다. F1 Score는 임계점에 따라서 다른 값이 나올 수 있다. 언제 사용해야 할까? Positive 집단에 집중하는 대부분의 이진 분류 문제에서 사용됩니다. 확실한 수치로 나타나는 결정 인자를 제공하기 때문에 비즈니스 이해관계자를 설득..