일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 인공지능 #AI #ML #기계학습 #Lasso #Ridge #Regularization #Linear Regression
- Datamining
- OS
- AI #ML #Data #datascience #data mining
- https
- rest proxy
- 쿠버네티스 #도커 #MSA #Istio #Service Mesh
- rolebinding
- Ai
- dadtamining
- datascience
- Data # datamining #datascience #AI #ML
- TLS
- c
- dadtascience
- k9s
- linux
- Linear Regression #AI #기계학습 #인공지능 #Lasso #Ridge
- NFA #DFA #컴파일러 #Lexical
- ML
- xff
- 기계학습#인공지능#AI#ML
- 1*1
- 알고리즘
- embedded rest proxy
- CKA
- Linear Regression #AI #ML #기계학습 #인공지능 #선형회귀
- Kubernetes
- k8s
- 컴파일러
- Today
- Total
solve-my-curiosity
Frequent Pattern Mining 1 본문
Frequent Pattern이란? 데이터에서 빈번하게 나타나는 데이터들 .
왜 찾나?? FP를 찾으므로써 데이터 안에 내재되어있는 성질을 알기 위해서
ItemSet의 정의는?? DB에 있는 각 개별요소(item)로 만들 수 있는 부분집합의 갯수 만약 A, B, C, D, E, F이 아이템들이라면 2^6 - 1 이 ItemSet이 된다.
Support의 정의는?? ItemSet X가 transactional DB의 전체 row에서 등장하는 횟수나 비율.
Minsupport는?? 만약 어떤 ItemSet X가 minsupport를 넘는다면 그것은 FP.
AssociationRule은? X→Y (X와 Y의 합집합이 FP)인… 그리고 X→Y는 minimum sup과 minimum confidence를 넘어야한다. 그리고 XUY를 찾아야하기 때문에 ItemSet중에서 무조건 크기가 2이상인 애들부터 찾아야 한다. 그리고 X와 Y의 합집합이 FP이기 때문에 당연하게도 X와 Y는 FP여야 한다. 왜? 합집합이 FP라는 소리는 각각을 찾았을 때도 FP였을 것이기 떄문에
Confidence는? X→Y일때 P(XUY) / P(X) 인 확률 즉 X가 나왔을 때 X와 Y의 합집합의 support의 조건부확률
MinConfidence는? Confidence가 넘어야할 threshhold / 당연하게도 X→Y는 각각 support는 minimum support를 넘을것이다. 왜? FP에서 뽑은거니까 즉 이미 minSupport를 넘는 애들 중에서 뽑은것이기 때문에 . 하지만 Confidence는 안넘을 수 있다. 그래서 어떤 룰을 잡았을 떄 Confidence를 넘는 놈들만 Association rule에 해당한다.
sub-pattern이란? 어떠한 ItemSet X가 있을때 x1,x2,—-x100까지 구성되어있다고 해보고 이 X는 FP라고 가정해보자. 그럴때 그것들의 부분집합들은 모두 FP일 것이다. 그 부분집합을 sub-pattern이라고 한다. 문제는 이 sub-pattern의 갯수가 2^100-1이고 그리고 그것들 모두 FP라는 것이다. 너무나 많은 FP라서 이것들을 대표하는 pattern을 찾고자 한다. 그것이 max, closed pattern이다.
super-pattern이란? 슈퍼패턴은 pattern을 포함하는 패턴을 포함한다. 상위집합.
closed-pattern이란? 클로즈드 패턴은 어떠한 패턴 X가 기본적으로 FP이고 어떤 슈퍼패턴이 없을 때를 얘기하는데 그 슈퍼 패턴은 동일한 support를 가지는 슈퍼패턴을 의미한다. 즉, 동일한 서포트를 가지는 슈퍼패턴이 없을 때 그 패턴은 클로즈드 패턴이라고 말할 수 있다. 슈퍼패턴이 서포트를 더 크게 가지던, 적게 가지던 상관없다. 같지만 않으면 클로즈드 패턴이다.
max-pattern이란? 맥스패턴은 FP이고, 이 패턴보다 더 frequent한 슈퍼패턴이 없을 때 max-pattern이라고 한다. 자세하게 말하자면 일단 무조건 MinSup은 모두 넘는 패턴에 대해 말해야하고, 최상위 슈퍼패턴을 max-pattern이라고 말한다.
'데이터사이언스' 카테고리의 다른 글
Frequent Pattern Mining 5 (3) | 2024.04.20 |
---|---|
Frequent Pattern Mining 4 (1) | 2024.04.20 |
Frequent Pattern Mining 3 (0) | 2024.04.20 |
Frequent Pattern Mining 2 (0) | 2024.04.20 |
What is Data Mining (1) | 2024.04.19 |