'유니코드' 태그의 글 목록

유니코드 (2)

한자 추출 및 인식하기

보통 문자열을 인식하는 기능등은 많은 라이브러리나 정규표현식으로 쉽게 가져올 수 있지만 한자만 가지고 오는 방법은 별도의 작업을 수행해야 한다. 사실 한자라는 것이 무궁무진한 글자이고 한글과 다르게 무한대로 확장이 가능한 글자라서 컴퓨터 영역에서는 표현하기가 상당히 까다로운데 이럴땐 유니코드를 이용해서 추출하거나 인식할 수 있다. Java 소스 코드 public static void main( String[] args ) { String text = "가불有大韓民國"; for(int i = 0; i = '\u2E80' && charAt = '\u3400' && charAt = '..

[Java] 자바 아스키코드및 유니코드로 문자 변환

아스키코드(ASCII) 아스키코드(American Standard Code for Information Interchange, ASCII)는 아스키의 말을 풀어 썼을 때 알 수 있는 것처럼 오로지 미국을 위한 표준 부호였다. 초창기 컴퓨터는 영어권에서 사용됐으며, 당시 그들은 전세계의 말을 쓸 필요가 없다 생각했기에 1bit의 체크섬(Checksum)용을 제외하고 라틴 문자, 숫자 그리고 특수 문자들을 128개 모와 7bit의 아스키코드를 만들었다. 그러나, 컴퓨터의 발달로 전세계가 각자 부호표를 만들어 수많은 캐릭터셋(ex: euckr, cp949)을 만들게 되었고 이 캐릭터셋은 최근 10년 들어서 UTF-8로 대동단결하게 된다. 참고로 10년전만 하더라도 수많은 국내 사이트들이 EUC-KR로 사이트를..

1

Sidebar - Right

블로그 정보

Steele

IT, 인공지능, 빅데이터, 블록체인, 정보처리기술사 그리고 과학 관련 포스팅을 적는 블로그입니다.

관리

Follow Me

검색

카테고리

자비스가 필요해 (777)

최근 글

태그

달력

보관함

링크

통계

전체 :
오늘 :
어제 :

04-04 07:10

Copyright © 자비스가 필요해 All Rights Reserved

Designed by JB FACTORY

티스토리툴바