が,仕事上そうも言っていられなくなってきた.っていうかこれって日本人としてC++をやる以上避けては通れない問題だしにゃ〜.とりあえず資料集めと勉強.
一応目標は以下.
- C++標準で定義されるバイト志向(char, string, stream)とワイド志向(wchar_t, wstring, wstream)の各処理の相違を理解し,それらとlocalizationとの関連を理解する
- C++標準で定義されるLocalization libraryを理解する
- C++標準がlocalizationのどこまでをカバーしていてどこから先がカバーできていないかを把握する
- 文字コード体系および各エンコード形式の現状を概観し,各体系・形式の得失を理解する
- 各文字列処理ライブラリ(特にBoost.Regex, Boost.Spirit)との連携における問題点の洗い出しと評価
とりあえず初っ端は資料集めから.
Localeライブラリ
- ISO/IEC 14882:1998(E) -- C++ -- Localization library - ISO/IEC 14882:1998のlocaleライブラリの標準文言全文
最初に一言.「でか過ぎ.」その上初見のクラスや関数だらけ.しかも,今手元にある書籍でこれらlocaleライブラリ群に関する詳細な記述のあるものは皆無.(一応C++に関する実装非依存な書籍の所有状況には自信があるのに・・・)TC++PLとESTLに申し訳程度に載ってるだけだし.ネット上でlocaleライブラリに関する網羅的な記述のある日本語のリソースも見当たらず.これすなわち自分で一から調べろということか.
"c++ locale"でググったら一番上にあった.っていうかよく見たら書いてるのNathan Myers氏だし.
文字コード体系および各エンコード形式
いくつかあるスレの中で一番情報量多そう
- ISO/IEC 2022(ISO 2022)とは - IT用語辞典
- JISコード(ISO-2022-JP)とは - IT用語辞典
- Shift JIS(シフトJIS)とは - IT用語辞典
- EUC(日本語EUC)とは - IT用語辞典
- Unicode(ユニコード)とは - IT用語辞典
- UCS-2(BMP)とは - IT用語辞典
- Unicode(ユニコード)とは - IT用語辞典
- UTF-8(UCS Transformation Format 8)とは - IT用語辞典
- UTF-16(UCS/Unicode Transformation Format 16)とは - IT用語辞典
文字コード体系・エンコード形式については本当にずぶの素人なので上のように基礎的な部分から.
とりあえず導入として参考になった.
検討中の書籍
- Unicode標準入門
- CJKV日中韓越情報処理 - 高っ!!