Unicode
効率を度外視すれば,内部で UTF-32 に変換 (+実文字列の offset とのマッピングを保持) した上で boost::regex を使うことによって, UTF-8 なり UTF-16 なりの文字列を TR18 の Level 1 の意味で扱える正規表現実装をかなり簡単に書けるような気がしてきた…
しかしバージョン上がるたびに6000円だか7000円払うのはなぁ.いやまぁ買うんだけれどっていうかさっき注文したところだけれど.あと,この本分厚すぎるの何とかしてくれっぽ.テーブル削って規格の文言だけ抜き出したバージョンきぼんにゅ.あの厚さだとど…
ICU の converter ってここの The converters write to the target all converted output as far as possible, and then write any remaining output to the internal services buffer. When the conversion routines are called again, the internal buffer…
文字コードって,どこまで追求しても結局「自分が今意識している(文字コードが絡む)問題領域でどこまで面倒見て,どこから面倒見るのを諦めるか」になるよーにゃ気がするにゃー. 例えば「UTF-32 で UCS の code point と文字配列の1要素が1対1対応でちょ…
この前買い込んだ本そっちのけで以下らへんを読み漁って Unicode 周りのおべんきょ. http://webstore.ansi.org/ansidocstore/product.asp?sku=INCITS%2FISO%2FIEC+10646%2D1%2D2000 http://www.amazon.co.jp/exec/obidos/ASIN/0321185781 http://www.amazon…
1昨日ブログで書いたことをコードで示すとこんな感じになります. #include <fstream> #include <locale> // Boost 1.32.0からBOOST_ROOT/boost/utf8_codecvt_facet.hppと // BOOST_ROOT/libs/serialization/src/utf8_codecvt_facet.cppを // 掘り出してきてカレントにコピー</locale></fstream>…
うん.なんていうかね.Boost.Serializationのutf8_codecvt_facet.hppとutf8_codecvt_facet.cppの実装を追ってたのよ.(RC枝から引っ張ってきたやつ)いやcoding変換の実装を追うのは楽しかったですよ?何せ実装が極めて素直だから,うにコード超初心者の自…
EmacsってそのまんまじゃUTF扱えなかったのね・・・.そりゃおかしくなるはずだ. いや,実際お世話になっているのはEmacsじゃなくてめどうさんなんだけど.
http://lists.boost.org/MailArchives/boost/msg04254.php (boost.devel 2004/04/16~) 過去の議論(・∀・)ハケーン. Unicode & Regex http://lists.boost.org/MailArchives/boost-users/msg01723.php (gmane.comp.lib.boost.user 2002/09/10~) http://lists.…
http://lists.boost.org/MailArchives/boost/msg73353.php (boost.devel 2004/10/19~) キタワ*・゜゜・*:.。..。.:*・゜(n‘∀‘)η゜・*:.。. .。.:*・゜゜・*!!!! #って,卒論かよっ!!
仕事場で(・∀・)ハケーン&(σ・∀・)σゲッツ! The Unicode Standard, Version 3.0 Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard Cjkv Information Processing 全部あわせて3000p弱あるよ・・・ひーん。・゜・(ノД`)・゜・。