Unicode
유니코드는 전 세계의 모든 문자들을 컴퓨터에서 표현하고 다룰 수 있도록 설계된 산업 표준이다.
이 표준은 유니코드 협회(Unocode Consortium)가 제정한다.
유니코드란 숫자와 글자, 즉 키와 값이 1:1로 매핑된 형태의 코드이다. 다시말해 아스키코드로 0x41 = A 로 매핑된 것 처럼, 아스키코드로 표현할 수 없는 문자들을 유니코드라는 이름 아래 전 세계의 모든 문자를 특정 숫자(키)와 1:1로 매핑한 것이다.
History
시간이 지남에 따라 여러 나라의 다양한 문자를 처리하려면 1바이트로 정의된 아스키 코드를 확장할 필요가 있게되었다.
유니코드는 이런 아스키코드의 한계성을 해소할 수 있는 체계로 만들어진 코드이다.
각 나라별 언어를 모두 표현하기 위해 나온 코드체계가 유니코드이다.
언어와 상관없이 모든 문자를 16비트(2바이트)로 표현함으로 65,536자까지 표현할 수 있다.
처음에는 65536개에 모든 문자를 담을 수 있을거라 생각했지만, 쓰지않는 고어, 아프리카 토속어 등의 모든 문자를 담기에는 부족하였다.
이를 해결하기 위해 유니코드 3.0 부터 보충언어판을 정의하였다.
유니코드 인코딩 방식으로는 UTF-7, UTF-8, UTF-16, UTF-32 인코딩 등이 있다.
유니코드 평면
Reference
- https://norux.me/31
- https://hyoje420.tistory.com/3
'Cryptography' 카테고리의 다른 글
DLL ( Dynamic Link Library) (0) | 2020.03.16 |
---|---|
DES (Data Encryption Standard) (0) | 2020.01.29 |
RSA 암호화 (0) | 2020.01.13 |
ASCII Code (0) | 2020.01.12 |
Base64 인코딩 (0) | 2020.01.10 |