<?xml version="1.0" encoding="utf-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: 컴퓨터 속의 한글</title>
	<atom:link href="http://b.mytears.org/2005/01/101/feed" rel="self" type="application/rss+xml" />
	<link>http://b.mytears.org/2005/01/101</link>
	<description>평범한 일상 속의 보석찾기..</description>
	<lastBuildDate>Tue, 23 Feb 2010 12:30:47 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.1</generator>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		<item>
		<title>By: Mr.Dust</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-112334</link>
		<dc:creator>Mr.Dust</dc:creator>
		<pubDate>Fri, 19 Jun 2009 17:46:36 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-112334</guid>
		<description>정리하다가 허탈해하며 즐겨찾기에 등록했습니다.
감사히 사용하겠습니다. :)</description>
		<content:encoded><![CDATA[<p>정리하다가 허탈해하며 즐겨찾기에 등록했습니다.<br />
감사히 사용하겠습니다. :)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 푸른꿈</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-95130</link>
		<dc:creator>푸른꿈</dc:creator>
		<pubDate>Tue, 22 Apr 2008 08:55:32 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-95130</guid>
		<description>정태영님과 photon님.
덕분에 많이 배우고 갑니다.</description>
		<content:encoded><![CDATA[<p>정태영님과 photon님.<br />
덕분에 많이 배우고 갑니다.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Ecoz</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-94971</link>
		<dc:creator>Ecoz</dc:creator>
		<pubDate>Sun, 20 Apr 2008 13:54:37 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-94971</guid>
		<description>좋은글이에요.~잘보고갑니다~</description>
		<content:encoded><![CDATA[<p>좋은글이에요.~잘보고갑니다~</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Chan</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-91643</link>
		<dc:creator>Chan</dc:creator>
		<pubDate>Tue, 26 Feb 2008 15:23:07 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-91643</guid>
		<description>오래된 글이군요 ^_^
잘 읽었습니다. ^_^</description>
		<content:encoded><![CDATA[<p>오래된 글이군요 ^_^<br />
잘 읽었습니다. ^_^</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 디지츠</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-67304</link>
		<dc:creator>디지츠</dc:creator>
		<pubDate>Thu, 22 Mar 2007 10:02:28 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-67304</guid>
		<description>트랙백을 걸 수 없어 링크로 겁니다.
덕분에 좋은 가르침 받고 갑니다.</description>
		<content:encoded><![CDATA[<p>트랙백을 걸 수 없어 링크로 겁니다.<br />
덕분에 좋은 가르침 받고 갑니다.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 정태영</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-53973</link>
		<dc:creator>정태영</dc:creator>
		<pubDate>Tue, 26 Sep 2006 11:02:30 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-53973</guid>
		<description>nit 이란 건 처음 들어봤는데, 문서 오류 같은걸 nit 이라고 표현하나보네요. 덕분에 이것저것 많이 배우네요. 감사드립니다. :D </description>
		<content:encoded><![CDATA[<p>nit 이란 건 처음 들어봤는데, 문서 오류 같은걸 nit 이라고 표현하나보네요. 덕분에 이것저것 많이 배우네요. 감사드립니다. :D</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: photon</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-53959</link>
		<dc:creator>photon</dc:creator>
		<pubDate>Tue, 26 Sep 2006 04:18:44 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-53959</guid>
		<description>iconv에 넘기기 전에 normalization을 해서 NFC로 변환한 후에 넘기면 되겠지요. ISO 10646의 관점에서 보면 U+1100 U+1161은 U+AC00과 같지 않습니다. Unicode의 관점에서는 전자가 후자의 NFD form이고 후자는 전자의 NFC form으로 같은 글자의 다른 표현이지만요. 현재 GNU iconv는 ISO 10646의 입장을 취하고 있습니다. GNU option(POSIX에는 없지만)으로 Unicode/ISO 10646 기반 인코딩이 소스 혹은 타겟 인코딩인 경우 normalization 여부나 종류를 결정할 수 있도록 해 볼 수 있겠네요. 하지만, 그것은 명령행에서나 쓸 수 있지, iconv(3)에서는 쓸 수 없겠지요. iconv(3)에서도 그게 가능하도록 하려면 인코딩 이름에 NFC, NFD 등 꼬리표를 붙여야겠네요. 꼬리표가 안 붙었으면 normalization(정규화)에 신경 쓰지 않고, 붙은 경우엔 적절한 처리를 한다. ... GNU libc의 iconv 개발자인 Bruno Haible(sp?)에게  한번 얘기를 해 보겠습니다. 
 
표준 C lib.에 있는 API만으로는 사실 국제화 프로그램을 짜기가 쉽지 않지요. (손수 많은 일을 해야 하니까요.)  그래서, ICU도 있고, glib나 Windows, Mac OS X에서 제공하는 다른 라이브러리 에 여러 API들이 더해졌고요.</description>
		<content:encoded><![CDATA[<p>iconv에 넘기기 전에 normalization을 해서 NFC로 변환한 후에 넘기면 되겠지요. ISO 10646의 관점에서 보면 U+1100 U+1161은 U+AC00과 같지 않습니다. Unicode의 관점에서는 전자가 후자의 NFD form이고 후자는 전자의 NFC form으로 같은 글자의 다른 표현이지만요. 현재 GNU iconv는 ISO 10646의 입장을 취하고 있습니다. GNU option(POSIX에는 없지만)으로 Unicode/ISO 10646 기반 인코딩이 소스 혹은 타겟 인코딩인 경우 normalization 여부나 종류를 결정할 수 있도록 해 볼 수 있겠네요. 하지만, 그것은 명령행에서나 쓸 수 있지, iconv(3)에서는 쓸 수 없겠지요. iconv(3)에서도 그게 가능하도록 하려면 인코딩 이름에 NFC, NFD 등 꼬리표를 붙여야겠네요. 꼬리표가 안 붙었으면 normalization(정규화)에 신경 쓰지 않고, 붙은 경우엔 적절한 처리를 한다. &#8230; GNU libc의 iconv 개발자인 Bruno Haible(sp?)에게  한번 얘기를 해 보겠습니다. </p>
<p>표준 C lib.에 있는 API만으로는 사실 국제화 프로그램을 짜기가 쉽지 않지요. (손수 많은 일을 해야 하니까요.)  그래서, ICU도 있고, glib나 Windows, Mac OS X에서 제공하는 다른 라이브러리 에 여러 API들이 더해졌고요.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 정태영</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-53939</link>
		<dc:creator>정태영</dc:creator>
		<pubDate>Mon, 25 Sep 2006 19:04:04 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-53939</guid>
		<description>그렇군요. :)  아 그나저나 glibc 의 iconv (bsd 의 iconv 에도 마찬가지 문제가 있는 걸로 압니다.) 에서 첫가끝 코드를 euc-kr, iso2022-kr, uhc 로 변환하지 못하는 문제가 있는데... 저건 어쩔 수 없는 문제인가요?</description>
		<content:encoded><![CDATA[<p>그렇군요. :)  아 그나저나 glibc 의 iconv (bsd 의 iconv 에도 마찬가지 문제가 있는 걸로 압니다.) 에서 첫가끝 코드를 euc-kr, iso2022-kr, uhc 로 변환하지 못하는 문제가 있는데&#8230; 저건 어쩔 수 없는 문제인가요?</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: photon</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-53932</link>
		<dc:creator>photon</dc:creator>
		<pubDate>Mon, 25 Sep 2006 16:31:37 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-53932</guid>
		<description>앗... 조합형 설명에서도 nit이 있네요. nit picking을 너무 많이 한다고 미워하시지 마시길.... :-) 

 KS X 1001:1998(KS C 5601-1992)에 보조 인코딩으로 들어 있는 조합형은 지원하는 한자와 심볼이  KS X 1001:1998의 &#039;기본 문자 집합&#039;에 들어 있는 것과 같습니다. 물론, 1980년대 중후반에 쓰던 여러 가지 &#039;조합형의 변형&#039;들 가운데에는 한자와 심볼의 수가 더 적은 것도 있었을 수도 있습니다. 

참, ISO 2022 체계에 부합하는 EUC-KR이 그렇지 않은 조합이나 UHC보다 더 나은 점은  하나의 옥텟으로 나타내지는 글자와 2개의 옥텟으로 나타내지는 글자가 겹치는 옥텟을 쓰지 않아서 문자열 중에 어느 옥텟을 하나 주었을 때 그로부터 글자 경계를 알아내기가 비교적 쉽습니다. 조합이나 UHC는 2번째 옥텟이 하나의 옥텟으로 나타내지는 글자와 같은 값을 지니는 경우가 있어서 좀더 복잡한 과정을 거쳐야 합니다. 이런 EUC-KR의 장점은 UTF-8의 장점 중 일부와 같습니다.  물론, UTF-8은 EUC-KR이 지니지 않은 또다른 장점도 지녔습니다. (순전히 코드 배치 관점에서만 본다고 해도)</description>
		<content:encoded><![CDATA[<p>앗&#8230; 조합형 설명에서도 nit이 있네요. nit picking을 너무 많이 한다고 미워하시지 마시길&#8230;. :-) </p>
<p> KS X 1001:1998(KS C 5601-1992)에 보조 인코딩으로 들어 있는 조합형은 지원하는 한자와 심볼이  KS X 1001:1998의 &#8216;기본 문자 집합&#8217;에 들어 있는 것과 같습니다. 물론, 1980년대 중후반에 쓰던 여러 가지 &#8216;조합형의 변형&#8217;들 가운데에는 한자와 심볼의 수가 더 적은 것도 있었을 수도 있습니다. </p>
<p>참, ISO 2022 체계에 부합하는 EUC-KR이 그렇지 않은 조합이나 UHC보다 더 나은 점은  하나의 옥텟으로 나타내지는 글자와 2개의 옥텟으로 나타내지는 글자가 겹치는 옥텟을 쓰지 않아서 문자열 중에 어느 옥텟을 하나 주었을 때 그로부터 글자 경계를 알아내기가 비교적 쉽습니다. 조합이나 UHC는 2번째 옥텟이 하나의 옥텟으로 나타내지는 글자와 같은 값을 지니는 경우가 있어서 좀더 복잡한 과정을 거쳐야 합니다. 이런 EUC-KR의 장점은 UTF-8의 장점 중 일부와 같습니다.  물론, UTF-8은 EUC-KR이 지니지 않은 또다른 장점도 지녔습니다. (순전히 코드 배치 관점에서만 본다고 해도)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: photon</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-53931</link>
		<dc:creator>photon</dc:creator>
		<pubDate>Mon, 25 Sep 2006 16:20:26 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-53931</guid>
		<description>난데없이 옛 글에 커멘트를 장황하게 달았는데, 잘 읽어 주셔서 감사합니다. 

CJKV I.P가 출판된 게 2000년 초인 것으로 기억합니다. ISO/IEC에서 ISO 10646을 개정하면서 U+10FFFF 다음에 글자를 배정하지 않기로 선언한 것은 아마 더 뒤였습니다. 그렇게 해야 Unicode와 ISO 10646이 포함하는 글자나 글자 위치에서 현재에나 미래에도 완전히 동기될 수 있으니까요. 그에 따라 UTF-8을 규정한 IETF RFC도 새롭게 나왔습니다. (UTF-8은 물론 Unicode 표준에서도 규정합니다.) 

x-Windows-949/UHC/통합 완성형이 현대 한글 완성 음절 전부를 모두 다 포함한다는 사실은 CJKV I.P.에도 나왔고, 그 책이 아니라도 꽤  알려진 사실인데 어째서 착각을 하셨을까요? :-)  ftp.unicode.org에서 MS codepage와 Unicode의 대응표를 보아도 알 수 있고요. 그 파일을  받아다가 &#039;grep -v &quot;^#&#039; &#124; grep -i SYLLABLE &#124; wc -l&#039; ...  11172라고 나오지요 :-)</description>
		<content:encoded><![CDATA[<p>난데없이 옛 글에 커멘트를 장황하게 달았는데, 잘 읽어 주셔서 감사합니다. </p>
<p>CJKV I.P가 출판된 게 2000년 초인 것으로 기억합니다. ISO/IEC에서 ISO 10646을 개정하면서 U+10FFFF 다음에 글자를 배정하지 않기로 선언한 것은 아마 더 뒤였습니다. 그렇게 해야 Unicode와 ISO 10646이 포함하는 글자나 글자 위치에서 현재에나 미래에도 완전히 동기될 수 있으니까요. 그에 따라 UTF-8을 규정한 IETF RFC도 새롭게 나왔습니다. (UTF-8은 물론 Unicode 표준에서도 규정합니다.) </p>
<p>x-Windows-949/UHC/통합 완성형이 현대 한글 완성 음절 전부를 모두 다 포함한다는 사실은 CJKV I.P.에도 나왔고, 그 책이 아니라도 꽤  알려진 사실인데 어째서 착각을 하셨을까요? :-)  <a href="http://ftp.unicode.org에서" rel="nofollow"></a><a href='http://ftp.unicode.org에서'>http://ftp.unicode.org에서</a> MS codepage와 Unicode의 대응표를 보아도 알 수 있고요. 그 파일을  받아다가 &#8216;grep -v &#8220;^#&#8217; | grep -i SYLLABLE | wc -l&#8217; &#8230;  11172라고 나오지요 :-)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 정태영</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-53807</link>
		<dc:creator>정태영</dc:creator>
		<pubDate>Thu, 21 Sep 2006 14:35:37 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-53807</guid>
		<description>코멘트 하나가 모더레이트 된 상태였네요. 그나저나 cp949 가 한글음절 11172 자를 전부 지원하지 못한다는건 제가 잘못 알고 있었던 사실인가보군요. 긴 글 감사합니다. 

p.s) utf-8 바이트 수 관련해선 cjkv information processing 에는 6바이트 라고 적혀 있고, 인터넷에서 찾았던 다른 자료에는 또 다르게 적혀 있어서 그냥 책에 있는 내용대로 적었던 것인데, 그 책이 출판된 이후로 바뀐 것이었나보네요. :)</description>
		<content:encoded><![CDATA[<p>코멘트 하나가 모더레이트 된 상태였네요. 그나저나 cp949 가 한글음절 11172 자를 전부 지원하지 못한다는건 제가 잘못 알고 있었던 사실인가보군요. 긴 글 감사합니다. </p>
<p>p.s) utf-8 바이트 수 관련해선 cjkv information processing 에는 6바이트 라고 적혀 있고, 인터넷에서 찾았던 다른 자료에는 또 다르게 적혀 있어서 그냥 책에 있는 내용대로 적었던 것인데, 그 책이 출판된 이후로 바뀐 것이었나보네요. :)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: photon</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-53805</link>
		<dc:creator>photon</dc:creator>
		<pubDate>Thu, 21 Sep 2006 14:13:08 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-53805</guid>
		<description>UTF-7은 Unicode 표준에 들어 있지 않습니다. 앞으로 쓰지 않는 게 더 좋은 방법입니다. 유일하게 쓰이는 곳은 IMAP 서버와 클라이언트 사이의  폴더 이름 교환입니다. 이 경우에도 원래 UTF-7이 아니라 IMAP을 위해 변형된 UTF-7이 쓰입니다.</description>
		<content:encoded><![CDATA[<p>UTF-7은 Unicode 표준에 들어 있지 않습니다. 앞으로 쓰지 않는 게 더 좋은 방법입니다. 유일하게 쓰이는 곳은 IMAP 서버와 클라이언트 사이의  폴더 이름 교환입니다. 이 경우에도 원래 UTF-7이 아니라 IMAP을 위해 변형된 UTF-7이 쓰입니다.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: photon</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-53803</link>
		<dc:creator>photon</dc:creator>
		<pubDate>Thu, 21 Sep 2006 13:51:59 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-53803</guid>
		<description>UCS-4를 가리키는 MIME 이름은  UTF-32입니다. 

UTF-8은 최대 6바이트가 아니라 최대  4바이트입니다.  ISO 10646에서 처음에 2^16짜리 multilingual plane을 2^15개 만들어서 2^31자를 담을 수 있도록 할 계획이었지만, Unicode와 통합 과정에서 plane 수를 17개로 줄여서 담을 수 있는  글자의 총 수가 2^20 + 2^16자로 줄었습니다. (그래서, 유니코드 코드 포인트를 나타낼 때에 &quot;20.1 비트&quot;가 필요하다고 합니다.) 따라서, UTF-8 역시 U+10FFFF 이후의 부분을 나타낼 필요가 없기 때문에 최대 길이가 4바이트로 줄었습니다. 

EUC-KR=완성형이란 등식도 약간 어폐가 있습니다. EUC-KR이나 ISO-2022-KR은 모두 ISO 2022 체계에서 나온 KS X 1001과 US-ASCII/ISO 646:KR/KS X 1003을 묶어서 표현하기 위한 인코딩 방법입니다. EUC-KR이 널리 쓰이게 된 것은 MS DOS에서 채택한 탓도 없다고 할 수 없지만, 한국 표준 당국이 ISO 2022 체계에 부합하지 않아서 Unix에서 사용하기에 문제가 많은 조합형을 꺼린 탓도 매우 큽니다. 참, 아직 조합형을 그리워하시는 분도 계실지 모르지만, 유니코드가 널리 쓰이는 지금에 와서 과거의  조합형을 쓸 이유는 눈꼽만치도 없습니다.  (단, 조합형은 KS X 1001:1998 - KS C 5601-1992-에 보조 인코딩으로 들어 있습니다.)

또, UTF-16을  UCS-2와 UCS-4를 혼합해서 쓰는 방식이라고 하는 것은 오해의 소지가 너무 많습니다.  BMP의 영역 가운데 1024개씩을  high surrogate(0xD800 - 0xDBFF)와 low  surrogate(0xDC00 - 0xDFFF) 영역으로 따로 할당한 후  , 이 두 영역에서 각각 뽑은 16비트 코드 유니트 2개(각각이 16bit니까 둘을 더하면 32bit=4바이트겠지요)를 조합해서(이 조합을 surrogate pair라고 합니다) BMP 영역 밖의총 2^20개의  글자(즉, U+10000에서 U+10FFFF)를 표현합니다. 각 surrogate 영역이 1024=2^10이니까 둘을 조합하면 2^20자를 표현할 수 있겠지요.  UCV(Unicode Code Value)에서 UTF-16으로 변환하는 식은 다음과 같습니다. 

high surrogate = (ucv - 0x10000) &gt;&gt; 10 + 0xD800
low surrogate =  (ucv - 0x10000)  &amp; 0x03ff + 0xDC00

(위 식은 좀더 optimize할 수 있습니다. 예를 들어, 
http://lxr.mozilla.org/seamonkey/source/xpcom/string/public/nsCharTraits.h
를 보세요.)

예를 들어, U+10400 (Desert Alphabet의 첫번째 글자)는 UTF-32BE에서는 &quot;00 01 04 00&quot;이지만, UTF-16BE에서는 &#039;D8 01 DC 00&quot;입니다. 



유니코드 관련 용어에 대해 좀더 명확하게 알고 싶으시면  Unicode.org의 glossary를 읽어 보시기 바랍니다.</description>
		<content:encoded><![CDATA[<p>UCS-4를 가리키는 MIME 이름은  UTF-32입니다. </p>
<p>UTF-8은 최대 6바이트가 아니라 최대  4바이트입니다.  ISO 10646에서 처음에 2^16짜리 multilingual plane을 2^15개 만들어서 2^31자를 담을 수 있도록 할 계획이었지만, Unicode와 통합 과정에서 plane 수를 17개로 줄여서 담을 수 있는  글자의 총 수가 2^20 + 2^16자로 줄었습니다. (그래서, 유니코드 코드 포인트를 나타낼 때에 &#8220;20.1 비트&#8221;가 필요하다고 합니다.) 따라서, UTF-8 역시 U+10FFFF 이후의 부분을 나타낼 필요가 없기 때문에 최대 길이가 4바이트로 줄었습니다. </p>
<p>EUC-KR=완성형이란 등식도 약간 어폐가 있습니다. EUC-KR이나 ISO-2022-KR은 모두 ISO 2022 체계에서 나온 KS X 1001과 US-ASCII/ISO 646:KR/KS X 1003을 묶어서 표현하기 위한 인코딩 방법입니다. EUC-KR이 널리 쓰이게 된 것은 MS DOS에서 채택한 탓도 없다고 할 수 없지만, 한국 표준 당국이 ISO 2022 체계에 부합하지 않아서 Unix에서 사용하기에 문제가 많은 조합형을 꺼린 탓도 매우 큽니다. 참, 아직 조합형을 그리워하시는 분도 계실지 모르지만, 유니코드가 널리 쓰이는 지금에 와서 과거의  조합형을 쓸 이유는 눈꼽만치도 없습니다.  (단, 조합형은 KS X 1001:1998 &#8211; KS C 5601-1992-에 보조 인코딩으로 들어 있습니다.)</p>
<p>또, UTF-16을  UCS-2와 UCS-4를 혼합해서 쓰는 방식이라고 하는 것은 오해의 소지가 너무 많습니다.  BMP의 영역 가운데 1024개씩을  high surrogate(0xD800 &#8211; 0xDBFF)와 low  surrogate(0xDC00 &#8211; 0xDFFF) 영역으로 따로 할당한 후  , 이 두 영역에서 각각 뽑은 16비트 코드 유니트 2개(각각이 16bit니까 둘을 더하면 32bit=4바이트겠지요)를 조합해서(이 조합을 surrogate pair라고 합니다) BMP 영역 밖의총 2^20개의  글자(즉, U+10000에서 U+10FFFF)를 표현합니다. 각 surrogate 영역이 1024=2^10이니까 둘을 조합하면 2^20자를 표현할 수 있겠지요.  UCV(Unicode Code Value)에서 UTF-16으로 변환하는 식은 다음과 같습니다. </p>
<p>high surrogate = (ucv &#8211; 0&#215;10000) &gt;&gt; 10 + 0xD800<br />
low surrogate =  (ucv &#8211; 0&#215;10000)  &amp; 0&#215;03ff + 0xDC00</p>
<p>(위 식은 좀더 optimize할 수 있습니다. 예를 들어,<br />
<a href="http://lxr.mozilla.org/seamonkey/source/xpcom/string/public/nsCharTraits.h" rel="nofollow"></a><a href='http://lxr.mozilla.org/seamonkey/source/xpcom/string/public/nsCharTraits.h'>http://lxr.mozilla.org/se...ing/public/nsCharTraits.h</a><br />
를 보세요.)</p>
<p>예를 들어, U+10400 (Desert Alphabet의 첫번째 글자)는 UTF-32BE에서는 &#8220;00 01 04 00&#8243;이지만, UTF-16BE에서는 &#8216;D8 01 DC 00&#8243;입니다. </p>
<p>유니코드 관련 용어에 대해 좀더 명확하게 알고 싶으시면  Unicode.org의 glossary를 읽어 보시기 바랍니다.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 민선홍</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-13890</link>
		<dc:creator>민선홍</dc:creator>
		<pubDate>Wed, 24 May 2006 01:12:56 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-13890</guid>
		<description>도움 많이 되었습니다. 고맙습니다.</description>
		<content:encoded><![CDATA[<p>도움 많이 되었습니다. 고맙습니다.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 명진</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-7393</link>
		<dc:creator>명진</dc:creator>
		<pubDate>Sun, 29 Jan 2006 15:14:47 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-7393</guid>
		<description>글 잘보고 갑니다:)</description>
		<content:encoded><![CDATA[<p>글 잘보고 갑니다:)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: xaos</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-3973</link>
		<dc:creator>xaos</dc:creator>
		<pubDate>Thu, 13 Oct 2005 11:25:40 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-3973</guid>
		<description>http://ko.wikipedia.org/wiki/UTF-8 내용을 보충해 주십시오.</description>
		<content:encoded><![CDATA[<p><a href="http://ko.wikipedia.org/wiki/UTF-8" rel="nofollow"></a><a href='http://ko.wikipedia.org/wiki/UTF-8'>http://ko.wikipedia.org/wiki/UTF-8</a> 내용을 보충해 주십시오.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 정태영</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-3938</link>
		<dc:creator>정태영</dc:creator>
		<pubDate>Wed, 12 Oct 2005 04:24:50 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-3938</guid>
		<description>조합형은 과정이 어땠든간에 완성형과의 싸움에서 졌고... 요 근래 조합형을 쓰는 경우는 찾아보기가 힘들지 않나 싶습니다...

예전에 대강 써놓고... 다듬는다는게... 귀차니즘으로 인해 -_-;; 이렇게 방치되고 있군요...

하튼 제가 다시 생각해본다고 조합형이 현재 그다지 쓰이고 있지 않다는 사실이 뒤집히지는 않을거 같군요... 담 번엔 익명이 아니라 이름정도는 남겨주셨음 하는군요...</description>
		<content:encoded><![CDATA[<p>조합형은 과정이 어땠든간에 완성형과의 싸움에서 졌고&#8230; 요 근래 조합형을 쓰는 경우는 찾아보기가 힘들지 않나 싶습니다&#8230;</p>
<p>예전에 대강 써놓고&#8230; 다듬는다는게&#8230; 귀차니즘으로 인해 -_-;; 이렇게 방치되고 있군요&#8230;</p>
<p>하튼 제가 다시 생각해본다고 조합형이 현재 그다지 쓰이고 있지 않다는 사실이 뒤집히지는 않을거 같군요&#8230; 담 번엔 익명이 아니라 이름정도는 남겨주셨음 하는군요&#8230;</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Anonymous</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-3936</link>
		<dc:creator>Anonymous</dc:creator>
		<pubDate>Wed, 12 Oct 2005 01:20:02 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-3936</guid>
		<description>조합형이 그다지 쓰이지 않는다...
다시 생각해보셨으면 하는 바램입니다.</description>
		<content:encoded><![CDATA[<p>조합형이 그다지 쓰이지 않는다&#8230;<br />
다시 생각해보셨으면 하는 바램입니다.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: yser</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-1361</link>
		<dc:creator>yser</dc:creator>
		<pubDate>Sat, 12 Mar 2005 00:15:01 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-1361</guid>
		<description>음....
같이 한 번 대규모 정리와 가이드를 써보실 생각은 없으십니까...!!
-_-;; 케빌 님이랑 몇몇 분 모아서 뭔가 하고픈데.. 의지가 약하군요.</description>
		<content:encoded><![CDATA[<p>음&#8230;.<br />
같이 한 번 대규모 정리와 가이드를 써보실 생각은 없으십니까&#8230;!!<br />
-_-;; 케빌 님이랑 몇몇 분 모아서 뭔가 하고픈데.. 의지가 약하군요.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: asbubam</title>
		<link>http://b.mytears.org/2005/01/101/comment-page-1#comment-1186</link>
		<dc:creator>asbubam</dc:creator>
		<pubDate>Tue, 25 Jan 2005 00:26:50 +0000</pubDate>
		<guid isPermaLink="false">http://b.mytears.org/?p=101#comment-1186</guid>
		<description>앗 태영옹. 이런건 어디서 찾아서 공부해야 하는거에요?

저도 알려주세요!!</description>
		<content:encoded><![CDATA[<p>앗 태영옹. 이런건 어디서 찾아서 공부해야 하는거에요?</p>
<p>저도 알려주세요!!</p>
]]></content:encoded>
	</item>
</channel>
</rss>
