통계 진로 정보 게시판

통계분석연구회

 

Go to Documentation Home
HOME
Go to Book List
통계진로
Go to Table of Contents
연구회
Go to Index
자료실
Go to Master Index
통계비교 
Go to Feedback page
MAIL

[ 통계분석연구회 - http://cafe.daum.net/statsas 내의 R-project 자료실(유충현님의 글) 중에서 정리 ]

 지성과 감성의 하모니(유충현님 블로그) : http://blog.naver.com/bdboys

1. Mosaic PLOT

[링크]

Mosaic Plot은 다변량의 범주형 데이터의 분포를 설명하는 도구이다. 단변량의 범주형 데이터의 분포에도 사용할 수 는 있지만 여타 Plot에 비해 실효성을 떨어지기 때문에 사용하지 않는 게 일반적이다. 그러나 다변량 분석에 앞서 자료의 분포를 조망하는 EDA 단계에서 유요할 도구로 사용될 수 있다. 위력을 발휘하는 분야는 2차원 이상의 교차 분류 자료 (cross-classified data)의 표현이다.

2. Spine Plot

[링크]

Spine Plot은 Barchart의 일종이라 할 수 있다. Barchart는 일변량 범주형 자료에서 Class의 돗수의 비율을 막대의 길이로 표현한 것인 반면 Spine Plot은 막대의 길이는 동일하게 하고 Class의 돗수의 비율을 막대의 폭으로 표현한 것이다.

3. RARDAR Plot

[링크]

RADAR Plot은 특정 그룹의 성격을 설명하는 N개의 변수의 점수분포를 비교하는 그림이다.  단위 그룹별로 각각의 변수의 관계를 볼 수도 있고, 여러 개의 그룹의 차이도 비교할 수 있는 그림이다. 다변량 분석에서 사용하는 Star Plot과도 유사한 그림이라 하겠다.

4. Trellis & Lattice

[링크]

Trellis Graphics는 panel이라는 여러 개의 독립된 Graph Chart를 가로, 세로 혹은 페이지의 배열로 나타내어서 비교 분석할 수 있다. 즉, 다변량 데이터에서의 변수들 간의 유기적인 관계나 특징을 파악할 수 있는 도구라 할 수 있다. 이들이 Trellis라고 명명한 것은 Trellis를 구현하는 기술이 정원의 격자짜기(garden trelliswork)를 추억케 하였기 때문이라 한다.

5. Colors

[링크]

Chart를 그리기 위해서는 점, 선, 면, 문자 등의 가시적인 요소가 필연적이다. 이들 요소가 모여서, 범례를 만들고, 좌표축을 만들고, 타이틀 등과 그래프를 만든다. 여기에 각각의 객체들에 색상을 부여해서 가독성을 높일 수 있다. 단일 색상이 아니라 여러 색상을 적절하게 조합하면 보다 직관적인 Chart를 생성할 수 있다.

6. 원에 대해서

[링크]

앞서 한 점에서 같은 거리 만큼 떨어진 점들의 집합을 원이라고 한 적이 있었다. 한 점(원점)에서 1만큼 떨어진 위치의 점들의 모임인 단위원을 생각해 보자. x^2 + y^2 = 1^2인 원의 공식을 기억할지 모르겠다. 고교 수학 때 배운 기억이 어렴풋이 나지 않는가?

그러면 한 점에서 1만큼 떨어진 위치에 꼭지점을 갖는 정n각형을 생각하자. 정삼각형, 정사각형, 정오각형 무수히 많다. 그러면 n의 수가 무한히 클 수록 이 다각형을 원에 수렴하게 된다.

7. Graphics - maps

[링크]

map 데이터에 통계량을 가미해서 시각화 시킨 map chart는 지역의 특성을 쉽게 파악할 수 있는 장점이 있는 반면, map 데이터가 절대적으로 필요하다는 전제조건이 있다. 그러면 R의 maps와 mapdata 패키지를 통해 Geographics + Statistics를 느껴보자.

8. R Font

[링크]

한글을 위시로한 전각문자를 쓰는 나라에서는 영문을 쓰는 나라보다 불리함 점이 너무 많다. 구현의 문제와 폰트가 이쁘지 않다는 문제가 그것이다. 비단 R뿐만 아니라 컴퓨팅 환경에 두루 해당되는 문제이기도 하다.

9. 벡터에 대해서

[링크]

R은 자료의 변환 및 가공이 무척이나 수월하다. 통계 계산을 목적으로 설계된 언어이기 때문에 새삼 놀랄 일은 아니다. 그러나 R이외의 다른 언어를 사용 경험이 있는 사람들에게는 획기적인 기능들우 많이 있다. 이번에는 벡터를 통해서R의 자료조작의 방법에 대해서 감을 잡아보자.

10. 행렬에 대해서

[링크]

행의 수가 1인 1 by n 행렬은 행벡터이고, 열의 수가 1인 m by 1의 행렬은 열벡터이다. 그리고 원소의 개수가 1인 벡터는 스칼라라고 할 수 있기 때문이다. 이처럼 행렬과 벡터는 밀접한 관계에 놓여 있고, 행렬을 정의할 때는 벡터를 먼저 정의하고 행렬을 정의하는 것이 일반적이다.

11. S-PLUS VS R Color

[링크]

다른 언어에 비해 R/S-PLUS는 이러한 컴퓨터의 디스플레이의 발전 덕을 많이 보았다. 그 이유는 S System의 장점 중에 강력한 Graphic 솔루션으로서의 Chart가 자리잡고 있기 때문이다. "잘 그린 Chart 하나가 열 기술통계 Report보다 낫다."

12. 집합과 논리연산

[링크]

합집합 : Union 함수 교집합 : Intersect 함수 차집합 : Setdeiff 함수

논리연산자는 일반적으로 조건문 안에서 사용된다. 그러므로 if문이나 ifelse 함수등과 자주 사용되거나 벡터등의 Subset을 구하기 위해서 [,] 안에서 사용되기도 한다."

13. 분포에 대해서

[링크]

자료의 분포를 설명하는 통계량에 자료의 중심을 설명하는 대표치와 자료의 퍼짐을 설명하는 산포도(분산)이 있다."

14. Visualization

[링크]

자료를 분석함에 있어서 가장 중요한 것 중에 하나는 자료의 특성을 파악하는 것이다. 자료의 특성을 파악하는 방법에 통계량을 구하여 파악하는 방법이 있겠으나 가장 효과적인 것은 그래프를 그려보는 것이다."

Go to previous page
Previous
 

2010년 백승민 제작하였답니다. 
(http://cafe.daum.net/statsas , http://statwith.pe.kr/)

Go to Documentation Home
HOME
Go to Book List
R-PROJECT
Go to Table of Contents
연구회
Go to Index
자료실
Go to Master Index
통계비교
Go to Feedback page
MAIL