2021. 7. 23. 20:09ㆍPython
컴퓨터의 데이터는 0, 1로 표현된다. 이러한 바이너리 데이터를 8비트씩 구분하여 나타내는 것이 바이트(bytes)이다.
바이트열 객체의 타입은 bytes 타입이며, 각 요소가 1바이트인(10진수로 0-255) 불변 균일 시퀀스이다.
바이트열 리터럴은
b" "
b' '
B" "
b' '
로 표현 가능하며,
각 요소가 1바이트이기 때문에 따옴표 안의 문자는 ASCII 문자(0-255)만 가능하다.
ASCII Code - The extended ASCII table
The following ASCII table with hex, octal, html, binary and decimal chart conversion contains both the ASCII control characters, ASCII printable characters and the extended ASCII character set Windows-1252.
www.ascii-code.com
▶ UTF-8 인코딩
유니코드는 전 세계의 여러 문자들을 표현할 수 있도록 만들어진 2바이트 체계의 코드이다.
이러한 유니코드를 컴퓨터로 표현하는 방법, 즉 인코딩 방법이 필요한데,
UTF-8은 유니코드를 나타기 위한 대표적인 인코딩 방법 중 하나이다.
UTF-8은 가변 인코딩 방식을 사용한다. 즉, 한 글자를 표시하기 위해 사용하는 메모리의 크기가 글자의 종류에 따라 다르다.
예를 들어 알파벳 'A'는 1바이트의 ASCII 코드 값으로 표현되고, 한국어의 '한'은 3바이트로 표현된다.
이와 같이 서로 다른 길이로 표현되는 문자를 구분하기 위해 각 바이트의 앞에 표식을 넣는데, 한글과 같이 3바이트로 표현되는 경우, 첫 번째 바이트는 '1110(16진수로 E)'으로 시작하고 나머지 두 바이트는 '10'으로 시작한다.
\xed\x95\x9c --> 16진수로 ed959c --> 2진수로 111011011001010110011100
바이트 | 이진수 | |
1 | 1110 | 1101 |
2 | 1001 | 0101 |
3 | 1001 | 1100 |
1101010101011100 한 U+D55C
'Python' 카테고리의 다른 글
python mariadb (0) | 2021.09.11 |
---|---|
파이썬 selenium을 이용한 웹페이지 조작을 통한 정보 추출 (0) | 2021.08.31 |
conda 에서 robobrowser, selenium 설치하기 (0) | 2021.08.28 |
python 2 설치 (0) | 2021.08.21 |
가상환경 사용하기 (0) | 2021.07.18 |