유클리드 거리(Euclidean Distance)와 함께 어떠한 값들이 얼마나 유사한지 가장 많이 사용하는 알고리즘 중 하나로 코사인 유사도가 있다. 그리고 유클리드 거리를 변형하여 실제 도시들의 모양을 감안해서 구하는 맨하탄 거리(Manhattan Distance)와 같은 알고리즘도 꽤 많이 활용하고 있다. 서울시와 수원시의 거리가 얼마나 가까운가? 예를 들어 도시들간의 거리가 얼마나 가까운지를 구하기 위해서는 유클리드 거리와 같은 알고리즘을 많이 활용할 수 있다. 서울시의 위도와 경도값과 수원시의 위도와 경도 값을 기반으로 둘간의 선을 그은 후, 거리를 구한다면 도시간에 거리를 구할 수 있게 된다. 그러나 한번 이런 문제가 있다고 가정을 해보자. 포유류간 키와 몸무게를 기반으로 얼마나 유사한지를 측정..
텐서플로우가 2.0 버전으로 들어서게 되면서, 많은 변화들이 생겨났다. 최근 프로젝트를 강제로 2.0으로 변환하고 있는데 아직 해당 버전에 대한 이해도가 낮기 때문에 많이 힘들어서 자구책으로 케라스(Keras)로 변환하여 사용하고 있다. 텐서플로우 2.0대부터는 케라스가 텐서플로우 프로젝트에 편입되었기 때문에 케라스로 구현하든 텐서플로우 2.0으로 코딩하든 사실 크게 상관이 없겠지만, 케라스의 쉬운 코딩은 소스의 길이를 대폭 감소하고 텐서플로우 2.0을 써도 크게 문제가 되지 않는 모델을 만들어준다. 우선 그러면 1.0과 2.0이 얼마나 차이가 나는지 한번 보도록 해보자. 아래 소스는 Packt 출판사에서 발매한 "Deep Learning with TensorFlow 2 and Keras"라는 도서에서 ..
같은 코로나 바이러스라고 하더라도 중국과 한국, 그리고 이탈리아, 이란까지 모두 다른 양상을 보이고 있다. 데이터가 많이 축적될수록 비슷해져야 하는 것이 통계이지만 데이터만 보고 해석하면 환경을 놓치는 실수를 저지를 수 있다. 국내 확진자 및 사망자 현황, 질병관리본부 국내에는 여성이 남성보다 약 2천명이 더 걸렸을 정도로 비율이 압도적으로 높다. 이럴 경우 단순히 코로나 바이러스19는 여성에게 취약한 병인가?라는 생각을 할 수 있다. 하지만, 기존에 유사했던 메르스의 경우 반대의 수치인 남성 6, 여성 4의 비율로 걸렸던 것을 기억하면 의문이 남게 된다. 결론적으로 보면, 신천지 사태(신천지에는 여성신도가 많기에)로 인해서 여성 감염자가 기하급수적으로 증가하였다. 그러면 우리는 신천지를 빼야 하는 것일..
얼마전부터 너를 보았다라는 영상의 예고편이 종종 SNS에 올라오기 시작하였고, 방송을 하기 전 주인공이신 어머님의 블로그를 보면서 VR로 위로가 되었다는 말에 믿기 힘들었었지만 방송 과정을 모두 보게 되면서 정말 많은 노력으로 만들어진 것을 알게 되었다. 사실, 필자 역시 VR에 꽤 많은 관심을 가지고 있고 VR 기기(오큘러스)를 사기도 한 VR 찬양론자이나 이 기술은 아직 불안전하다. 영상의 퀄리티가 올라가고, 정말 더 훌륭한 VR 기술이 나올지도 모르겠지만 VR의 기술은 한계가 있는 것이다. 위 그래프는 가트너가 발표한 기술에 관련된 트렌드 곡선이라 볼 수 있다. 정식 명칭은 가트너 Hype Cycle로 작년의 VR(Virtual Reality, 가상현실) 항목은 Mixed Reality와 Augme..
게일 섀플리 알고리즘(Gale-Shapley)은 대표적인 매칭 알고리즘으로 일반적인 추천 알고리즘과는 차이가 있다. 우리가 흔히 추천 시스템에 추천 알고리즘을 구현할 때는 1:1이라는 개념을 생각하지 못한다. 넷플릭스(Netflix)의 영화 컨텐츠 추천이라든지, 쇼핑몰에서 연관된 상품을 추천한다던지 혹은 요즘 유행 댓글처럼 "유튜브 알고리즘이 나를 여기로 인도했다"라는 말과 같은 유튜브 알고리즘이라든지 이런것들은 컨텐츠를 추천하는 일대다 추천 알고리즘이다. 기본적으로 추천 시스템은 1:N이라는 개념을 가지기에 배분이라는 개념이 사라진다. 그렇기에 특정 영상들이 쏠리게 되어 있고, 인기가 많은 컨텐츠에 더 많은 사람들이 몰리게 된다. 하지만 매칭 알고리즘 즉, 여기서 설명하는 게일-섀플리 알고리즘은 남녀가..
측정(measurement) - 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 행위를 뜻하며, 어떤 대상의 속성에 숫자를 부여하는 과정이다. 측정의 수준(level of measurement) 질적척도(qualitative scale)- 범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도이며 명목척도와 서열척도(순서척도)가 존재한다.- 자료를 평균으로 사용할 수가 없으며 측정하기는 쉽지만 고급 통계 분석 활용이 어렵다. 명목척도(nominal scale)- 속성을 분류하는 척도, 측정 대상이 어디에 속하는지, nominal(이름뿐인)이라는 의미처럼 값이 의미있는 데이터가 될 수가 없다. - 숫자로 바꿔도 그 값이 크고 작음을 나타내는 ..
확률 표본 추출(Probability Sampling)이란? 모집단을 구성하는 모든 추출 단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법이다. 확률적 표본추출을 사용하려면 표본을 추출하기 전에 표본추출단위가 표본으로 추출될 확률을 밝혀줄 수 있는 정보를 가지고 있어야 한다. 확률 표본 추출 방법에는 단순랜덤 추출, 계통추출, 층화추출, 집락추출이 있다. 단순랜덤 추출(Simple Random Sampling, SRS) 단순랜덤 추출은 단순확률 추출, 단순 무작위 추출 등으로도 불리며, 영어의 앞글자를 따서 SRS라고도 한다. 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다. = n/N 이 방식은 대규모 조사에서는 거의 사용되지 않지만 모든 표본..
한창 딥러닝 기술인 GAN(생성 적대 신경망, Generative Adversarial Networks)에 빠져 살 때가 있었다. 인공지능의 진정한 미래는 간이라는 생각에 회사에 접목할 부분이 없는지 고민을 했던 기억이 있다. 결과적으로는 간(GAN)을 써먹을 서비스(내가 다니는 회사에서)가 없다는 것에서 결론을 내고, 이 후 블록체인(Blockchain) 쪽으로 다시 연구를 턴(Turn)하였었다. 그러나 블록체인과 인공지능의 인력 Pool의 차이가 컸는지 인공지능의 발전을 블록체인이 따라가지 못하는 것 같다. 이제 인공지능은 딥페이크라는 기술로 영상과 다른 사람의 이미지를 매우 쉽고 자연스럽게 합성 시켜버리는 상황까지 와버렸다. Deepfakes (a portmanteau of "deep learnin..
총성없는 MLaaS 전쟁터 그야말로 세계적인 기업들(MS, IBM, Amazon, Google)의 AI 전쟁의 시대이다. fair 한 것처럼 보이는 인공지능 알고리즘은 사실 unfair(학습 데이터) 하기 때문에 MLaaS(Machine Learning as a Service) 시장의 강자는 현재 일류 기업들이 점령하고 있다. 국내로까지 확장하면 카카오와 네이버도 참전할 수 있겠지만, 이 둘은 별도로 다뤄보도록 하겠다. AWS(Amazone Web Service) AI 클라우드의 개념이 확립되던 시기, 물건만 팔던 아마존은 AWS라는 획기적인 서비스를 기업에게 내놓게 되었다. 많은 기업들은 우리의 민감한 데이터를 클라우드에 녹일 수 없다라는 입장을 표명했지만, 현재의 시장은 AWS가 점령하고 있는 상태이..
흑인 = 고릴라? 아직 딥마인드(Deep Mind)가 이세돌을 정복하지 않았던 2015년 AI(Artificial Intelligence) 진영에 많은 고민을 안긴 사건이 터져버렸다. 바로 전세계적 기업인 구글(Google)에서 제공하는 구글 포토 서비스에서 흑인을 고릴라(Gorillas)로 분류를 해버린 것이다. 이 서비스는 딥러닝(Deep Learning)으로 사진을 분석하여, 자동으로 분류해주는 서비스로 인공지능이 잘못 쓰이면 이러한 차별이 일어날 수 있구나라는 경각심을 이끌어준 사건이었다. 2015년 6월, 흑인을 고릴라로 분류한 구글 포토 서비스 알고리즘의 인종차별 문제로 구글은 해당 문제점을 인지하고 사과를 했으나, 문제점은 즉각 고쳐지지 않았다. 미국의 정보기술 전문지 '와이어드'가 2018..
블락비 박경이 마치 술김에 실수로 써내려갈 법한 가수들의 실명을 거론한 "사재기 연예인들"이라며 올린 트위터 글은 연예계에 대형 폭탄을 투하시켰다. 해당 글을 보면 마지막에 "^^" 웃는 이모티콘을 추가하였는데 이를 토대로 보면 박경은 실수가 아니라 "비꼬는 글"이라는 즉, 고의성이 다분한 연예계의 의사(義士)가 되어 버렸다. 혹자는 열사(烈士)라고 하지만, 박경은 열사보다 의사라는 표현이 좀 더 정확하다 생각한다. 왜냐... 비록 인터넷 공간이지만 충분히 데미지를 줄 수 있는 저격을 하였으니까!! 2019년 한해에는 정말 연예계에 숱한 사건들과 화제의 인물들이 많았다. 장성규로 시작한 화제의 인물은 펭수, 유산슬로 이어지며 정말 한해 동안 많은 "스타"들이 새로 등장했으며, 설리, 구하라라는 톱스타의 ..
맨하탄 거리(Manhattan Distance) 혹은 맨해튼 거리는 유클리드 거리(Euclidean Distance)와 함께 매우 기초적인 좌표간의 거리를 구하는 방식이다. 이름에서 뉘앙스가 풍기겠지만, 이 맨하탄은 미국 뉴욕시 행정 구역인 그 맨하탄이 맞다. 맨하탄은 인류 최초의 현대 대도시로 불리며, 맨하탄의 상징적인 이미지는 빌딩숲의 이미지이다. 그러다보니 지금은 매우 흔한 모습이지만, 주먹구구식 그리고 계획적이지 않던 기존의 도시와 달리 매우 체계적이고 계획적이다보니 건물들이 사각형으로 촘촘히 체계적으로 이루어진 잘 정돈된 모습으로 알고리즘 이름을 부여받게 되었다. 맨하탄 거리는 L1 Distance라고도 불린다. L2 Distance가 유클리드 거리인데 그만큼 유클리드보다 공식이 더 쉽기 때문이..