업무 때문에 Personality Insight를 사용해야 되서, API를 뒤적뒤적거리며 사용해봤다. Bluemix를 쓰면 매우 간단하게 처리가 된다고 하나 뭐 어쨌다나... Bluemix의 영문으로 된 사이트를 쳐다보면서, 정말 IBM이 한국에 지사가 있는게 맞는건지 의문이 들었다. Personality Insight라는 것은, 사람의 성향을 분석하는 왓슨의 솔루션인데 하라는 대로 콜을 해도 잘 작동이 되지 않았다. 데모사이트를 가면, 한글이 없었다(뭐냐 이건...서비스 맞나?) 분명이 한글이 된다고 들었는데 데모에는 일본어, 스페인어, 영어 정도밖에 안되는걸로 보였다. Response에서 성향 설명은 한글 지원이 됐다. 한마디로 일본어, 영어 등을 넣었을 때, 대답은 한글이 된다는 것이었다. 안되서 ..
퍼지이론은 자연 현상의 불확실한 상태를 수학적인 개념을 통해 표현해 주는 방법으로 1965년 미국 버클리대학교의 교수 롯피 자데(Lotfi A. Zadeh)에 의해 최초로 제안되었다. 퍼지이론은 흔히 많이 사용되는 보통집합의 개념을 확장 또는 일반화한 것으로 일정한 구간으로 표현된 값이나 언어적 표현 등과 같이 애매하거나 불확실한 정보를 모델화하고 수식으로 처리할 수 있는 수학적인 도구로 다양한 분야에서 활용되고 있다. Lotfi A. Zadeh 퍼지집합은 어떤 모임에 속한다 또는 속하지 않는다는 이진법 논리로부터, 그 모임에 속하는 정도를 소속함수(membership function)로 나타냄으로써 수학적으로 표현할 수 있다. 또한 퍼지측도(fuzzy measure)는 일반집합 A에서 위치가 애매한 원..
퍼셉트론을 포스팅 하면서, 인공지능의 시작과 함께 1차 인공지능의 겨울이 오는 것까지 설명을 하였다. 퍼셉트론은 인공지능의 시작이며, 현재 가장 핫하고 진보적인 기술인 딥러닝(Deep Learning)의 시초가 되는 기술이다. 즉 퍼셉트론을 제대로 이해할 수 있어야, 딥러닝을 제대로 이해할 수 있다고 말해도 과언이 아닌 것이다. 인공지능의 한동안 거의 사라진 기술이다시피 하였다. 막대한 금액을 퍼부었지만, 별다른 성과를 내지 못했던 이 기술은 점차 연구를 중단하게 되고, 근근이 몇군데에서만 연구를 시작하게 된다. 그러다가, 전문가 시스템(Expert System)이 발전하면서 인공지능의 관심도가 증가하게 된다. 사실 퍼셉트론이 처음 생겼을 때는 사용할 수 있는 분야가 없어서 쇠퇴하였지만, 전문가 시스템은..
저번 포스팅에는 퍼셉트론으로 구현이 가능한 논리 게이트(논리 회로)에 대해서 포스팅을 하였다. 왜 논리 게이트에 대해서 포스팅을 했느냐면, 바로 XOR에 대한 문제점 때문이다. 로센블래트와 고등학교 동창이던 마빈 민스키 박사는 많은 설전을 벌였었다. 민스키 박사는 퍼셉트론은 대부분을 해결할 수 없다고 말했지만, 로센블래트는 퍼셉트론에 대해서 자신만만하던 참이었다. 민스키 박사는 동료이던 세이무어 페퍼트와 퍼셉트론의 한계를 수학적으로 증명을 하면서, 로센블래트는 처참히 무너지고 말고 이것이 바로 인공지능의 1차 겨울이 오는 시기이다. 마빈 민스키 박사, Marvin Minsky 바로 퍼셉트론은 AND, OR, NAND 같은 선형문제는 풀수 있을지 모르지만, XOR같은 비선형 문제를 풀수가 없다는 것이었다...
1. 퍼셉트론을 이해하는, 논리회로 초창기 퍼셉트론은 단순한 분류 문제를 풀 수 있었습니다. 이걸 이해하기 위해서는 진리표를 확인해야 될 필요가 있습니다. 인간의 논리방식을 컴퓨터로 구현할 수 있다면 인공지능을 구현해 낼 수 있을 것이다. 라는 것이 당시의 생각이었고, 실제로 로센블래트는 분류하는 문제를 시연까지 할 정도로 사람들에게서 꿈과 같은 기술을 보여주게 되었습니다. 그 분류를 보여주는 것이 "진리표대로 작동하냐"인데 위 그림처럼 어떠한 값(input)이 2개 없다고 가정을 할 때 컴퓨터가 논리적으로 인식하는 방식이 다음과 같은 게이트로 구현하는 것입니다. 2. AND 게이트 AND는 모두 True 일 경우에 작동을 한다입니다. 한쪽이라도 False일 경우 작동을 멈추는데 퍼셉트론은 1일 경우 T..
1. 인공지능의 종류 인공지능을 설계할 때, 강한 인공지능(Strong AI)로 만들 것인가? 아니면 약한 인공지능(Weak AI)로 만들 것인가 기준을 잡고 만들게 된다. 강한 인공지능(Strong AI) 혹은 일반 인공지능(General AI)는 정의대로 하면 현재 만들 수 없는 기술이긴 하지만 분류를 하자면 Watson같은 존재가 Strong AI로 볼 수 있다. 약한 인공지능(Weak AI) 혹은 좁은 인공지능(Narrow AI)은 거의 대다수를 차지하는 인공지능인데 전문가 시스템적인 인공지능이라고 보면 된다. 예를 들면 추천시스템, 로봇 청소기, 번역 시스템, 그리고 최근의 알파고같이 특정 임무를 수행하는 인공지능이 바로 약한 인공지능이다. 2. 약한 인공지능 약한 인공지능을 만들기 위해서는 어..
1. 인공신경망과 딥러닝의 시작 "인공지능의 시작은 퍼셉트론(Perceptron)이 처음이다!"라고 말하기에는 힘들지만, "인공신경망(Neural Network)과 딥러닝(Deep Learning)은 퍼셉트론이 처음이다!"라고 말할 수 있을 것입니다. 많은 사람들이 "인공지능 = 신경망"이라고 생각하는 분들이 많은데 그 만큼 인간이 예측하기 힘든 부분을 신경망이 보여주기 때문에 인공지능이란 컴퓨터가 하는 행위(또는 생각)를 인간이 알아차리지 못하는 것으로 해석하는 분들이 많습니다. 바로 그 신경망의 시작이 퍼셉트론입니다. 신경망이 뭔지도 모르는데 퍼셉트론은 뭐지? 왠지 어려워 보이는데? 라고 생각하는 분들이 있을 수 있습니다. 컴퓨터를 아예 모르고, 컴맹이신 분은 쉬운 설명을 해도 이해가 안 될 수 있습..
K-평균(K-Means) 알고리즘은 기계학습(머신러닝, machine learning), 데이터마이닝에서 활용하고 있는 기법으로서, 대표적인 비지도학습이다. 비지도학습이란 어떤 결과를 예측하지 못해야 되는 것으로, 컴퓨터 스스로 어떠한 해답을 찾아내는 것을 말한다. 예를 들어, 남자와 여자를 분류하고 싶다라는 것은 이미 목적이 존재하고 값이 존재하기 때문에 비지도학습이 될수 없지만 컴퓨터 스스로 데이터를 분류하다가 남자와 여자의 특성 차이를 깨닫고 분류했다면, 비지도학습이 되는 것이다. K-Means는 중심값을 선정하고, 중심값과 다른 데이터간의 거리를 이용하여 분류를 수행한다. 다음 수행에서는 좀 더 중심에 위치한 중심값을 선정하고, 분류하고 이러한 과정을 반복하여 더이상 분류가 되지 않을 경우에 해당..
웹 마이닝 혹은 웹 데이터 마이닝은 일반적으로 웹으로 통한 모든 것들을 분석해서 얻는 마이닝을 뜻한다.예를 들어, 서버에서 쌓이는 웹로그 라든지, 사용자의 행동이라든지, 사용자들이 작성한 웹 콘텐츠 등 웹으로 얻어진 모든 것들을 포함한다. source, http://www.kdnuggets.com 이러한 Data 들을 분석하여 유용한 정보를 찾아내고, insight를 얻어내는 것이 핵심이라고 할 수 있다. 1. 웹으로부터 얻어지는 모든 데이터를 분석하는, 웹마이닝의 개요가. 웹마이닝(Web Mining)의 개념- 웹에서 발생하거나 웹 사이트에 저장한 데이터를 대상으로 유용한 패턴을 찾아내는 기법- 웹 환경에서 얻어지는 고객의 정보, 데이터로 부터 특정 행위, 패턴 등의 유용한 정보를 이용하여 마케팅 및 ..
우선 정규분포란, 가장 많이 주변에서 볼 수 있는 데이터 분포(데이터가 흩어져 있는 것)를 말한다. 예를 들면, 고3 남학생의 키의 분포라든지, 주식의 수익률이라든지... 흩어져 있는 데이터를 모와, 시각화했을 때, 산처럼 보여지는 것을 정규분포라고 한다. 정규분포는 위와 같은 그래프의 모습을 보여준다. 표준 정규분포는 가장 많이 발생하는 정규분포를 셋트로 만들었다고 보면 된다.정규분포중 기준이 되는 것이므로, 일반적으로 데이터 분포가 정규분포의 모습을 띄게 되면, 표준정규분포를 기준으로 예측등의 행위를 할 수 가 있다. 평균값은 뮤, 표준편차 기호는 시그마라고 부른다. 위 그래프는 표준정규분포를 보여주는 그래프이다.평균값을 기준으로 표준편차의 값에 따라서, 그래프의 값이 급격히 떨어지는 것을 볼 수 있..
A상품을 구매할 경우 어떤 상품을 추천해야 좋을까? 라는 질문은 수많은 현업, 통계학자, 데이터 분석 전문가들의 고민거리이다. 여러가지 방식의 추천시스템들이 존재한다. 1. 사용자의 프로파일링 기반2. 상품 기반3. Segment 기반4. 협업필터링 기반 여기서 설명하고자 할 것은, 가장 기초적이고 상식적인 추천 방식인 연관성 규칙(Association Rules)에 어떻게 보면, 가장 많이 사용하고 있는 방식이 지지도/신뢰도/향상도 방식이다. 그럼 지지도, 신뢰도, 향상도란 무엇일까? 어떤 사람이 맥주를 고르고, 그 이후 오징어를 구입했다고 가정해보자.그럼 우리는 사람들은 맥주를 마시는 사람은 오징어를 고를 수 있다고 판단을 하게 된다.그래서 맥주 주변에 오징어 상품을 배열하여, 나도 모르게 오징어까지..
통계학에서 금융상품의 샤프지수를 왜 설명을 하느냐라고 반문하는 분들도 계실것이나, 사실 샤프지수는 통계학에서 가장 중요한 표준편차로 만들어진 공식이자, 지수이다. 표준편차를 설명하면서, 하이 리스크 하이 리턴에 대해서 포스팅을 한 적이 있는데 표준편차 만으로 투자를 판단하기가 매우 힘들다. 하이 리스크(높은 표준편차)와 로우 리스크(낮은 표준편차)는 투자자의 성향, 그리고 판단에 따라서 하는 행동일 뿐이지. 하이 리스크가 로우 리스크보다 좋다 나쁘다를 단정 지을 수가 없다. 표준편차가 높으면 좋을까? 나쁠까? 편차, 분산의 의미와 표준편차 구하기 예를 들어, 대표적인 투자자인 워렌 버핏은 IT쪽은 투자를 하지 않기로 유명하다. IT쪽은 시장이 너무나 빨리 변하고, 판단하기가 힘들다는 이유에서 이다. 즉,..
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.