[R] 데이터 분석 환경 만들기
포스트
취소

[R] 데이터 분석 환경 만들기

본 포스팅은 “Do it! 쉽게 배우는 R 데이터 분석” - (이지스퍼블리싱, 데이터 분석가 김영우 지음)을 바탕으로 공부한 내용을 정리한 것입니다.

  1. R이란?
  2. R 설치
    • R과 R Studio 설치
    • 프로젝트 생성
    • 환경설정
  3. 데이터 분석 준비
    • 변수
    • 함수
    • 패키지

1. R이란?

R은 데이터 분석에 사용되는 소프트웨어

통계 분석, 머신러닝 모델링, 텍스트 마이닝, 소셜 네트워크 분석, 지도 시각화, 주식·이미지·사운드 분석, 웹 애플리케이션 개발 등에 사용

데이터 분석 도구에는 크게 GUI 방식프로그래밍 방식이 있다.

프로그래밍 방식을 채택한 R을 사용할 경우 다음과 같은 장점이 있다.

  1. 재현성이 확보된다.
    • 동일한 분석 방법과 데이터에서 같은 결과물을 얻을 수 있다.
  2. 오류가 줄어든다.
    • 코드와 실행 결과의 기록이 남아서 검토와 오류 수정이 수월하다.
  3. 공동 작업을 할 수 있다.
    • 코드를 공유하며 분석 과정을 여러 단계로 나눠 공동 작업을 할 수 있다.

2. R 설치

R을 사용하기 위해 PC에 R과 R 스튜디오를 설치한다.

R 설치 > R 스튜디오 설치 의 순으로 진행한다.

R Studio는 R을 편리하게 사용하기 위한 IDE(Integrated Development Environment, 통합 개발 환경) 소프트웨어

R과 R Studio 설치

  1. R 프로젝트 공식 사이트 접속 이후, 한국 서버 링크에서 OS에 맞는 버전으로 설치한다.

    R 프로젝트 공식 사이트의 CRAN 미러 페이지에서 다운로드.

    CRAN 미러 페이지 https://cran.r-project.org/mirrors.html

    image

    나는 맨위의 주소 https://ftp.harukasan.org/CRAN/에 접속했다.

    image

    나는 Windows 환경에 설치하였다.

    image

    처음 설치시 base를 선택하여 설치.

  2. R Studio 사이트의 다운로드 페이지에 접속하여 설치한다.

    R Studio 다운로드 페이지 https://www.rstudio.com/products/rstudio/download

    32비트 윈도우에서는 R 스튜디오 1.1 이하 버전을 설치 http://bit.ly/2udnk.

    image

    하단의 ‘All Installers’ 항목에서 맞는 OS로 설치한다. 나는 Windows 환경에 설치하였다.

    image

    설치가 완료된 R Studio를 실행 시켜보자.

  3. R Studio 실행

    크게 다음과 같이 네 가지로 창이 구분되어 있다.

    image

    • 콘솔 창 명령과 결과가 출력되는 곳
    • 소스 창 소스 코드를 기록 할 수있는 곳.

      이로 만들어진 문서를 스크립트(Script)라 한다. Ctrl + Enter단축키로 실행 가능

    • 환경 창 분석 과정에서 생성한 데이터를 보여주는 곳
    • 파일 창 워킹 디렉터리(Working Directory)의 내용물을 보여준다.

프로젝트 생성

  1. File > New Project

    image

  2. New Directory > New Project

    image

  3. Directory name경로한글이 들어갈 경우 오류가 발생할 수 있다.

    image

프로젝트가 성공적으로 생성되면 ~.Rproj라는 프로젝트 파일이 생성된 것을 확인 가능.

스크립트 저장시 ~.R라는 스크립트 파일 생성 확인 가능.

환경설정

R Studio에는 두 종류의 환경 설정 메뉴가 있다.

글로벌 옵션 (Global Options)R Studio 사용 전반에 영향을 미치는 옵션
프로젝트 옵션 (Project Options)해당 프로젝트에만 영향을 미치는 옵션

본인의 성격에 맞게 환경 설정을 진행하면 될 것 같다. 나는 기본적인 설정은 글로벌 옵션에서 진행했다.

  1. Soft-Wrap 자동 줄바꿈 옵션

    소스 코드가 길어질 때, 자동으로 줄을 바꿔주어서 가독성에서 유리하다고 생각한다.

    Tools > Global Options > Code에서 Soft-wrap R source files

    image

  2. 인코딩 방식 설정

    한글이 깨지는 것을 방지 하기 위하여 Text encoding 방식을 설정.

    Tools > Project Options > Code Editing에서 Text encodingUTF-8로 설정.

    image


3. 데이터 분석 준비

변수

image

변수는 ‘변하는 수’다

  • 다양한 값을 지니고 있는 하나의 속성을 ‘변수(Variable)’이라 한다.

상수는 ‘변하지 않는 수’다

  • 하나의 값으로만 되어 있는 속성을 ‘상수(Constant)’라 한다.

변수는 데이터 분석의 대상, 상수는 분석할 수 없다.

변수명 생성 규칙

  • 문자로 시작해야 하고, 문자·숫자·대시(-)·언더바(_)를 조합해서 생성.

  • 대소문자 구분, 인코딩 이슈로 영어로 변수 생성 추천.

대소문자 혼용시 오타 찾는데 시간이 오래 걸릴 수 있다. 변수는 소문자로만 구성하는 습관을 추천.

문자로 된 변수는 연산이 불가

  • 단어를 붙이거나 자르는 문자 처리 기능은 사칙연산이 아닌 다른 함수를 사용해야한다.

함수

데이터 분석은 함수로 시작해 함수로 끝난다

  • 데이터 분석은 함수를 이용해서 변수를 조작하는 일.

패키지

  • 패키지(Packages)는 정제된 다양한 기능의 함수가 포함됨.

패키지는 한번만 설치하면 되지만 로드는 R 스튜디오를 새로 시작할때마다 반복필요.

ggplot2 패키지

  • 그래프로 표현할 때, 가장 많이 사용하는 패키지이다.
1
2
# ggplto2 패키지 설치
install.packages("ggplot2")
  • 설치가 완료된 이후, 사용 할 때에는 항상 로드과정이 필요하다.
1
2
# ggplot2 패키지 로드
library(ggplot2)

다음 포스팅으로는 ggplot2 패키지 내부의 mpg 데이터를 활용한 다양한 예제부터 하나씩 올릴 예정이다.


참고

“Do it! 쉽게 배우는 R 데이터 분석” - (이지스퍼블리싱, 데이터 분석가 김영우 지음)

이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.