Unicode

Unicode Regular Expression

効率を度外視すれば,内部で UTF-32 に変換 (+実文字列の offset とのマッピングを保持) した上で boost::regex を使うことによって, UTF-8 なり UTF-16 なりの文字列を TR18 の Level 1 の意味で扱える正規表現実装をかなり簡単に書けるような気がしてきた…

Unicode 5.0 & ICU 3.6

しかしバージョン上がるたびに6000円だか7000円払うのはなぁ.いやまぁ買うんだけれどっていうかさっき注文したところだけれど.あと,この本分厚すぎるの何とかしてくれっぽ.テーブル削って規格の文言だけ抜き出したバージョンきぼんにゅ.あの厚さだとど…

ICU の converter は blocking-preserving だよ

ICU の converter ってここの The converters write to the target all converted output as far as possible, and then write any remaining output to the internal services buffer. When the conversion routines are called again, the internal buffer…

à(<-ためしにやってみたら IE でちゃんと表示されてちょっと感動.当たり前なのかも知れないけれど)

文字コードって,どこまで追求しても結局「自分が今意識している(文字コードが絡む)問題領域でどこまで面倒見て,どこから面倒見るのを諦めるか」になるよーにゃ気がするにゃー. 例えば「UTF-32 で UCS の code point と文字配列の1要素が1対1対応でちょ…

うにこーどのおべんきょ

この前買い込んだ本そっちのけで以下らへんを読み漁って Unicode 周りのおべんきょ. http://webstore.ansi.org/ansidocstore/product.asp?sku=INCITS%2FISO%2FIEC+10646%2D1%2D2000 http://www.amazon.co.jp/exec/obidos/ASIN/0321185781 http://www.amazon…

UTF-8Nを吐くワイドストリーム

1昨日ブログで書いたことをコードで示すとこんな感じになります. #include <fstream> #include <locale> // Boost 1.32.0からBOOST_ROOT/boost/utf8_codecvt_facet.hppと // BOOST_ROOT/libs/serialization/src/utf8_codecvt_facet.cppを // 掘り出してきてカレントにコピー</locale></fstream>…

標準C++が想定するストリームによる入出力時の自動coding変換の枠組み

うん.なんていうかね.Boost.Serializationのutf8_codecvt_facet.hppとutf8_codecvt_facet.cppの実装を追ってたのよ.(RC枝から引っ張ってきたやつ)いやcoding変換の実装を追うのは楽しかったですよ?何せ実装が極めて素直だから,うにコード超初心者の自…

Emacs with UTF

EmacsってそのまんまじゃUTF扱えなかったのね・・・.そりゃおかしくなるはずだ. いや,実際お世話になっているのはEmacsじゃなくてめどうさんなんだけど.

BoostにおけるUnicodeに関する議論

http://lists.boost.org/MailArchives/boost/msg04254.php (boost.devel 2004/04/16~) 過去の議論(・∀・)ハケーン. Unicode & Regex http://lists.boost.org/MailArchives/boost-users/msg01723.php (gmane.comp.lib.boost.user 2002/09/10~) http://lists.…

Adding unicode support to boost

http://lists.boost.org/MailArchives/boost/msg73353.php (boost.devel 2004/10/19~) キタワ*・゜゜・*:.。..。.:*・゜(n‘∀‘)η゜・*:.。. .。.:*・゜゜・*!!!! #って,卒論かよっ!!

取り合えず入手

仕事場で(・∀・)ハケーン&(σ・∀・)σゲッツ! The Unicode Standard, Version 3.0 Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard Cjkv Information Processing 全部あわせて3000p弱あるよ・・・ひーん。・゜・(ノД`)・゜・。