데이터 분석에서 결측치를 처리하는 것은 매우 중요하며, R에서 결측치는 결측치 테스트
NA의 경우 TRUE, 그렇지 않을 경우 FALSE를 반환합니다.
데이터프레임 역시 결측치 제거평균값 대체
데이터에 결측치가 존재하면, 일반적인 연산함수의 결과로 NA를 반환합니다.
na.rm = TRUE를 추가해주면, NA 데이터를 제외한 나머지 데이터를 대상으로 연산을 합니다. 데이터 제거결측치가 있는 데이터를 삭제해 주는 경우도 있습니다.
2행과 4행에 NA 데이터가 존재합니다.
결측치 대체결측치가 존재할 경우 평균값을 대신 사용하기도 합니다.
결측치 대신 나머지 값들의 평균인 3.833을 대체하였습니다. 자료를 분석하기에 앞서 먼저 자료를 분석에 적합한 상태로 가공해야 한다. 행을 선택할 때는 data[행,]을 코딩하면 된다. 일부 분석대상자만 선택 혹은 제외하고 싶을 때 사용할 수 있다. [R] 열을 선택할 때는 data[,열]을 코딩하면 된다. 일부 변수만 선택하고 싶을 때 사용할 수 있다. [R] 열을 선택하는 또 다른 방법은 data$변수를 코딩하는 것이다. [R] 이를 응용해서 특정 행과 열을 동시에 선택할 때는 data[행,열]로 쓰면 된다. [R] 자료에서 변수가 특정 값을 가진 경우만 선택하고 싶다면 어떻게 할까? 1. data[data$변수==특정값,] [R] 2. subset( )함수 이용 [R] 마지막으로 변수 값이 결측치인 경우를 제거하고 싶다면 is.na( )함수를 이용할 수 있다. [R] 저작자표시변경금지 '소프트웨어 관련' 카테고리의 다른 글
|