본 포스팅은 “Do it! 쉽게 배우는 R 데이터 분석” - (이지스퍼블리싱, 데이터 분석가 김영우 지음)을 바탕으로 공부한 내용을 정리한 것입니다.
- R이란?
- R 설치
- R과 R Studio 설치
- 프로젝트 생성
- 환경설정
- 데이터 분석 준비
- 변수
- 함수
- 패키지
1. R이란?
R은 데이터 분석에 사용되는 소프트웨어
통계 분석, 머신러닝 모델링, 텍스트 마이닝, 소셜 네트워크 분석, 지도 시각화, 주식·이미지·사운드 분석, 웹 애플리케이션 개발 등에 사용
데이터 분석 도구에는 크게 GUI 방식과 프로그래밍 방식이 있다.
프로그래밍 방식을 채택한 R을 사용할 경우 다음과 같은 장점이 있다.
- 재현성이 확보된다.
- 동일한 분석 방법과 데이터에서 같은 결과물을 얻을 수 있다.
- 오류가 줄어든다.
- 코드와 실행 결과의 기록이 남아서 검토와 오류 수정이 수월하다.
- 공동 작업을 할 수 있다.
- 코드를 공유하며 분석 과정을 여러 단계로 나눠 공동 작업을 할 수 있다.
2. R 설치
R을 사용하기 위해 PC에 R과 R 스튜디오를 설치한다.
R 설치
> R 스튜디오 설치
의 순으로 진행한다.
R Studio는 R을 편리하게 사용하기 위한 IDE(Integrated Development Environment, 통합 개발 환경) 소프트웨어
R과 R Studio 설치
R 프로젝트 공식 사이트 접속 이후, 한국 서버 링크에서 OS에 맞는 버전으로 설치한다.
R 프로젝트 공식 사이트의 CRAN 미러 페이지에서 다운로드.
CRAN 미러 페이지 https://cran.r-project.org/mirrors.html
나는 맨위의 주소 https://ftp.harukasan.org/CRAN/에 접속했다.
나는 Windows 환경에 설치하였다.
처음 설치시 base를 선택하여 설치.
R Studio 사이트의 다운로드 페이지에 접속하여 설치한다.
R Studio 다운로드 페이지 https://www.rstudio.com/products/rstudio/download
32비트 윈도우에서는 R 스튜디오 1.1 이하 버전을 설치 http://bit.ly/2udnk.
하단의 ‘All Installers’ 항목에서 맞는 OS로 설치한다. 나는 Windows 환경에 설치하였다.
설치가 완료된 R Studio를 실행 시켜보자.
R Studio 실행
크게 다음과 같이 네 가지로 창이 구분되어 있다.
- 콘솔 창 명령과 결과가 출력되는 곳
소스 창 소스 코드를 기록 할 수있는 곳.
이로 만들어진 문서를 스크립트(Script)라 한다.
Ctrl + Enter
단축키로 실행 가능- 환경 창 분석 과정에서 생성한 데이터를 보여주는 곳
- 파일 창 워킹 디렉터리(Working Directory)의 내용물을 보여준다.
프로젝트 생성
File > New Project
New Directory > New Project
Directory name과 경로에 한글이 들어갈 경우 오류가 발생할 수 있다.
프로젝트가 성공적으로 생성되면 ~.Rproj
라는 프로젝트 파일이 생성된 것을 확인 가능.
스크립트 저장시 ~.R
라는 스크립트 파일 생성 확인 가능.
환경설정
R Studio에는 두 종류의 환경 설정 메뉴가 있다.
글로벌 옵션 (Global Options) | R Studio 사용 전반에 영향을 미치는 옵션 |
프로젝트 옵션 (Project Options) | 해당 프로젝트에만 영향을 미치는 옵션 |
본인의 성격에 맞게 환경 설정을 진행하면 될 것 같다. 나는 기본적인 설정은 글로벌 옵션에서 진행했다.
Soft-Wrap 자동 줄바꿈 옵션
소스 코드가 길어질 때, 자동으로 줄을 바꿔주어서 가독성에서 유리하다고 생각한다.
Tools
>Global Options
>Code
에서Soft-wrap R source files
인코딩 방식 설정
한글이 깨지는 것을 방지 하기 위하여 Text encoding 방식을 설정.
Tools
>Project Options
>Code Editing
에서Text encoding
을UTF-8
로 설정.
3. 데이터 분석 준비
변수
변수는 ‘변하는 수’다
- 다양한 값을 지니고 있는 하나의 속성을 ‘변수(Variable)’이라 한다.
상수는 ‘변하지 않는 수’다
- 하나의 값으로만 되어 있는 속성을 ‘상수(Constant)’라 한다.
변수는 데이터 분석의 대상, 상수는 분석할 수 없다.
변수명 생성 규칙
문자로 시작해야 하고, 문자·숫자·대시(-)·언더바(_)를 조합해서 생성.
대소문자 구분, 인코딩 이슈로 영어로 변수 생성 추천.
대소문자 혼용시 오타 찾는데 시간이 오래 걸릴 수 있다. 변수는 소문자로만 구성하는 습관을 추천.
문자로 된 변수는 연산이 불가
- 단어를 붙이거나 자르는 문자 처리 기능은 사칙연산이 아닌 다른 함수를 사용해야한다.
함수
데이터 분석은 함수로 시작해 함수로 끝난다
- 데이터 분석은 함수를 이용해서 변수를 조작하는 일.
패키지
- 패키지(Packages)는 정제된 다양한 기능의 함수가 포함됨.
패키지는 한번만 설치하면 되지만 로드는 R 스튜디오를 새로 시작할때마다 반복필요.
ggplot2 패키지
- 그래프로 표현할 때, 가장 많이 사용하는 패키지이다.
1
2
# ggplto2 패키지 설치
install.packages("ggplot2")
- 설치가 완료된 이후, 사용 할 때에는 항상 로드과정이 필요하다.
1
2
# ggplot2 패키지 로드
library(ggplot2)
다음 포스팅으로는 ggplot2 패키지 내부의 mpg
데이터를 활용한 다양한 예제부터 하나씩 올릴 예정이다.
참고
“Do it! 쉽게 배우는 R 데이터 분석” - (이지스퍼블리싱, 데이터 분석가 김영우 지음)
- 깃허브: http://bit.ly/start_r
- 이지스퍼블리싱 홈페이지: http://www.easyspub.com [자료실] 게시판