데이터 분석툴 무엇이 좋을까?

오늘날 ‘데이터 분석툴’ 간의 시장 지배를 위한 싸움이 치열합니다.

인공지능, 머신러닝, 딥러닝, 빅데이터…

오늘날 사회/기술의 변화를 논할때 빠지지 않고 꼭 나오는 중요 키워드 들입니다.

그리고, 이들 기술 키워드는 모두 데이터를 다루는 강력한 ‘데이터 분석툴’이 필수입니다.

과거에는 SAS, SPSS가 ‘데이터 분석툴’ 시장을 지배하는 강력한 지배자였습니다.

하지만, 워낙 고가의 서비스인 관계로 우리같은 개인 사용자 입장에서는 사실상 사용이 매우 어려운 솔루션이었습니다.

오늘날에는 꼭 고가의 솔루션을 사용하지 않더라도 충분히 사용 할만 한 좋은 성능의 툴들을 찾아 사용할 수 있습니다.


추천 데이터 분석툴

R과 Python이 그 대표적인 오픈소스 솔루션으로 추천할만 합니다.

두 솔루션을 간략히 비교하면 아래와 같이 정리할 수 있겠습니다.

파이썬R
공통점오픈소스, 다양한 패키지오픈소스, 다양한 패키지
태생컴퓨터 언어로 출발, 수치 분석 라이브러리가 추가됨통계학자가 만든 언어
장점데이터 분석 전 / 후 유관 시스템과의 기능 연계가 용이함문법이 상대적으로 쉽고 직관적

두 솔루션 모두 일반적인 데이터 분석 툴의 모습 보다는 컴퓨터 프로그래밍 언어를 이용한 개발 환경의 모습을 하고 있습니다. (사실 파이썬은 프로그래밍 언어라고 보는게 더 맞지만요.)

Python 실행 화면 (VC)
R Studio 실행 화면

그런 까닭에 처음 진입장벽은 상당히 어렵게 느껴지고 익히기 어려운 면이 있지만, 분명 그 가치는 충분합니다.

정말 제대로 데이터 분석을 파고들 생각이 있으신 분들이라면 결국은 이 두가지 데이터 분석툴중 최소한 하나의 솔루션은 최종적으로 선택하게 되리라 생각합니다.

그리고, 또 하나의 Open 솔루션을 하나 더 추천할까 합니다.

Orange Datamining이라는 솔루션이 바로 그것인데요. 사실 이 Orange라는 데이터 분석툴은 Python을 기반으로 하는 소프트 웨어이고, 사용자 편의성을 강화한 소프트웨어라고 보면 좋겠습니다.

Orange 실행 화면

물론 데이터 분석이라는 영역 자체가 공부할 내용이 많은 분야인 만큼 실제 사용 예시를 보면 상당히 복잡하게 얽혀 있는 것을 볼 수 있지만, 앞의 두 툴에 비하면 그래픽 기반이어서 이해가 훨씬 용이합니다.


사용자 용도별 추천 툴

실 사용자 입장에서는 내가 사용하고자 하는 목적이 무엇인지에 따라서 툴을 선택할 필요가 있습니다.

1) 일반적인 사용

일반적인사용자라면 저는 Orange를 먼저 사용해 볼것을 추천하겠습니다.

이미 일반적으로 많이 사용하고 필요로 하는 기능들을 모아 사용자가 활용하기 편하게 제공하고 있는데, 굳이 어려운 길을 돌아갈 필요는 없다고 봅니다.

게다가 그래픽 기반으로 데이터 분석을 위한 작업의 흐름 자체를 보여주기 때문에 이후 수정을 할 때도 어떤 부분에서 어떤 내용을 수정해야 하는지에 대한 부분을 쉽게 알 수 있습니다.

어떻게 보면 데이터 분석에 있어서 툴 자체의 사용법보다 더 중요한것은 데이터 분석에 활용되는 여러 기법들의 의미와 특징들을 파악하고 필요한 곳에 정확하게 사용하는 것이 될 것입니다.

이와 같은 내용을 익히고 활용하는데는 역시 일반적인 내용 위주로 쉽게 접하고 쉽게 구현하는 것이 제일입니다.

그러하기에 처음 시작은 Orange로 해 보는 것도 아주 좋은 선택이라고 생각합니다.

실제 이 툴을 깔고 사용하면서 여러가지 학습을 하다 보면 기능에 있어서의 한계점을 느끼는 지점이 분명히 옵니다. 그때 다른 툴로 갈아타도 절대 늦지 않습니다.

2) Data로 밥벌어 먹고 사려면

Data로 밥벌어 먹을 생각이라면, Data Scientist / Data Analyst / Data Engineer 영역에서 일하실 생각이라면, 아무래도 Python이 가장 좋은 해답이 되리라 생각됩니다.

물론 R도 좋은 해답임에는 분명합니다.

다만, 데이터로 밥벌어 먹는 분들에게 데이터 분석툴은 데이터 분석툴의 기능을 넘어
1) 유관된 시스템과의 인터페이스도 고려해야 하고,
2) 자동화 영역으로 까지의 확장을 고려해야 하기에
프로그래밍 언어에서 출발한 Python이 좀 더 유리하다고 생각됩니다.

※ 이 내용이 정답일 수는 없겠지만, 실제 많은 데이터 사이언티스트의 의견이 위와 같이 모이는것 같습니다.

R과 파이썬의 경쟁과 관련하여서는 아래 링크에서 보다 자세한 글을 확인하실 수 있습니다.

영어로 된 문서인 관계로 영어의 압박은 있지만, 데이터 분석가가 데이터로 말하는 내용인 만큼 참 진심으로 분석했습니다.

Python vs R for Data Science: Which Should You Learn?

위의 그래프들로 보더라도 Python의 성장률이 R보다 조금 더 크고, Loyalty 관점에서도 Python의 Loyalty가 좀 더 높은 것을 볼 수 있습니다.


데이터 분석툴 설치하기

각각의 툴은 아래의 사이트에서 다운로드 받아 설치가 가능합니다.

※ R과 Python에서 링크 추가한 시각화 갤러리는 R 또는 Python을 통해 데이터 시각화를 할 수 있는 Reference를 제공하는 사이트 입니다. 꼭 한번씩 들러서 데이터 시각화의 눈높이를 높여보시길 추천합니다.

Orange Datamining :

Orange Datamining Homepage (Download)

R :

R Download

R Studio Download

R 설치 참고 영상 (16:24 R 설치 관련 17:45 R Studio 설치)

R 시각화 갤러리

Python :

Python Download

Python 설치 참고 영상 (00:35 파이썬 설치 관련)

PyCharm Download

VC(Visual Studio Code) Download

VC 설치 참고 영상 (1:05 VS 설치 및 셋팅 관련)

Python 시각화 갤러리


데이터 분석툴로 IRIS 머신러닝 해보기

IRIS 데이터라는 데이터셋이 있습니다. 이 데이터는 머신러닝 학습을 위해 초기에 제공 받을 수 있는 데이터 셋입니다.

3종의 붓꽃에 대하여 꽃잎/꽃받침의 길이/폭 데이터를 주고, 이 측정값을 통해 꽃의 종류를 맞춰보게 컴퓨터에게 학습시키는 과정이라고 볼 수 있습니다.

Orange, R, Python 모두 이 과정이 가능합니다. 이 과정은 아래 Youtube 영상으로 제작해 뒀으니 한번씩 살펴 보시는 것도 도움이 될것 같습니다.