math - 제목 - plot title in r




R의 quantile() 함수를 설명하십시오. (2)

Quantile을 벡터로 제공 할 때 quantile을 계산하는 다양한 방법이 있으며 알려진 CDF가 없습니다.

관측치가 정확히 quantile에 속하지 않을 때 어떻게해야하는지에 대한 질문을 고려하십시오.

"유형"은이를 수행하는 방법을 결정하는 것입니다. 따라서,이 방법은 "k 차 오더 통계와 p (k) 사이의 선형 보간법 사용"이라고 말합니다.

그래서, p (k)는 무엇입니까? 한 사람은 "글쎄, 나는 k / n을 사용하고 싶다"고 말한다. 다른 사람은 "나는 (k-1) / (n-1)을 사용하고 싶다."등등.이 방법들 각각은 하나의 문제 또는 다른 문제에 더 적합한 다른 성질을 가지고있다.

\ alpha와 \ beta는 함수 p를 매개 변수화하는 방법 일뿐입니다. 한 경우에는 1과 1입니다. 다른 경우에는 3/8과 -1/4입니다. 나는 p가 문서에서 항상 일정하다고 생각하지 않는다. 그들은 항상 의존성을 명시 적으로 보여주지는 않습니다.

1 : 5 및 1 : 6과 같은 벡터를 넣을 때 다른 유형이 어떻게되는지보십시오.

(관측치가 정확하게 quantile에 속하더라도 특정 유형은 여전히 ​​선형 보간법을 사용합니다).

하루 종일 R quantile 함수에 의해 신비화되었습니다.

나는 quantile이 어떻게 작동하는지 직관적 인 개념을 가지고 있으며 stats에있는 MS이지만 boy 오 그놈에 대한 문서는 나에게 혼란 스럽다.

문서에서 :

Q [i] (p) = (1- 감마) x [j] + 감마 x [j + 1],

나는 지금까지 그것과 함께있다. 유형 i quantile의 경우, 이는 신비한 상수 감마 에 기초하여 x [j]와 x [j + 1] 사이의 보간입니다

여기서, 1≤i≤9, (jm) / n≤p (j-m + 1) / n, x [j]는 j 차 통계량, n은 표본 크기, m은 결정된 상수 샘플 quantile 유형에 따라. 여기서 감마는 g = np + mj의 분수 부분에 의존한다.

그러면 j를 어떻게 계산합니까? 엠?

연속 샘플 quantile 유형 (4 - 9)의 경우, 샘플 quantile은 k 차 순서 통계와 p (k) 사이의 선형 보간에 의해 얻을 수 있습니다.

여기서, α 및 β는 타입에 의해 결정되는 상수이다. 또한, m = α + β (1-α-β), γ = g이다.

이제 나는 정말로 길을 잃었다. 전에 상수였던 p는 이제 분명히 함수입니다.

따라서 유형 7 분위수의 경우 기본값 ...

유형 7

p (k) = (k-1) / (n-1)이다. 이 경우, p (k) = 모드 [F (x [k])]. 이것은 S.에 의해 사용됩니다.

누구든지 나를 도우시겠습니까? 특히 나는 p가 함수이고 상수라는 표기법, 도대체 m 이 무엇인지, 그리고 이제 어떤 특정 p에 대해 j를 계산하는 것에 혼란스러워합니다.

여기에 대한 답을 바탕으로 여기서 일어나는 일을보다 잘 설명하는 수정 된 문서를 제출할 수 있기를 바랍니다.

quantile.R 소스 코드 또는 유형 : quantile.default


당신은 당연히 혼란 스럽습니다. 그 문서는 끔찍합니다. American Statistician 50 (4) : 361-365, doi:10.2307/2684934 ) "통계 패키지의 샘플 Quantiles"(Hyundman, RJ, Fan, Y. 이해를 얻으 려구. 첫 번째 문제부터 시작하겠습니다.

여기서, 1≤i≤9, (jm) / n≤p (j-m + 1) / n, x [j]는 j 차 통계량, n은 표본 크기, m은 결정된 상수 샘플 quantile 유형에 따라. 여기서 감마는 g = np + mj의 분수 부분에 의존한다.

첫 번째 부분은 논문에서 바로 나오지만 문서 작성자가 생략 한 것은 j = int(pn+m) 입니다. 이것은 Q[i](p) 가 (정렬 된) 관측을 통한 p 분수에 가장 근접한 2 차 통계에만 의존한다는 것을 의미합니다. (나 같은, 그 용어에 익숙하지 않은 사람들을 위해, 일련의 관찰의 "주문 통계"는 정렬 된 시리즈이다.)

또한 마지막 문장은 잘못되었습니다. 읽어야합니다.

여기서 감마는 np + m, g = np + mj의 분수 부분에 의존한다.

m 은 간단합니다. m 은 9 개의 알고리즘 중 어느 알고리즘이 선택되었는지에 따라 달라집니다. Q[i] 가 quantile 함수처럼 mm[i] 로 간주되어야합니다. 알고리즘 1과 알고리즘 2의 경우, m 은 0, 3은 m , -1/2는 나머지, 나머지는 다음 부분에 있습니다.

연속 샘플 quantile 유형 (4 - 9)의 경우, 샘플 quantile은 k 차 순서 통계와 p (k) 사이의 선형 보간에 의해 얻을 수 있습니다.

여기서, α 및 β는 타입에 의해 결정되는 상수이다. 또한, m = α + β (1-α-β), γ = g이다.

이것은 정말로 혼란 스럽다. 문서에서 p(k) 라고 부르는 것은 이전의 p 와 같지 않습니다. p(k)플롯 위치 입니다. 이 논문에서 필자는 이것을 p k 로 쓰고 도움이된다. 특히 m 에 대한 표현에서, p 는 원래의 p m = alpha + p * (1 - alpha - beta) 이기 때문에. 개념적으로 알고리즘 4-9의 경우, 점들 ( p k , x[k] )은 솔루션 ( p , Q[i](p) )를 얻기 위해 보간됩니다. 각 알고리즘은 p k 대한 알고리즘 만 다릅니다.

마지막 비트는 R이 S가 사용하는 것을 말하는 것입니다.

원래의 논문은 6 개의 "quantile 함수에 대한 바람직한 특성"의 목록을 제공하고, # 1이 모두 만족하는 # 8에 대한 선호도를 기술하고있다. # 5는 그것들 모두를 만족 시키지만 다른 이유로는 그것을 좋아하지 않는다. 원칙에서 파생 된 것보다 더 현상 학적). # 2는 나 자신과 같은 non-stat 괴짜가 quantiles를 고려할 것이고 wikipedia에 설명되어있는 것입니다.

BTW, dreeves 대답 에 대한 응답으로, Mathematica는 상당히 다른 방식으로 작업을 수행합니다. 나는 그 매핑을 이해하고 있다고 생각합니다. 매스 매 티카는 이해하기 쉽지만 (a) 말도 안되는 매개 변수로 발을 쏘는 것이 더 쉬우 며 (b) R 알고리즘 2를 수행 할 수 없습니다. Mathematica가 # 2를 할 수는 없지만 네 개의 매개 변수로 다른 모든 알고리즘을보다 간단하게 일반화 한 Mathworld의 Quantile 페이지가 있습니다.





statistics