
![]()
![]()
TRONプロジェクト
E-mail:webmaster@tron.org http://www.tron.org/
TRONプロジェクト(プロジェクト・リーダー:坂村健東京大学教授)はパソコン、ワークステーション用OS仕様のBTRON3仕様に、150万文字を扱うTRON多国語言語環境を追加し、現在リリースされている主要な文字セット、文字コード規格の文字をTRONコードに割り当てた(1999年9月)。150万文字を混在して扱うOS仕様は世界初であり、また10万文字を超える具体的割当てのおこなわれた文字コードも世界初である。
TRONプロジェクトでは「あらゆる文字を扱うコンピュータ」を実現するため、1987年にTRON多国語言語環境の構想についての論文(*1)を発表して以来、BTRON仕様ならびにTAD(TRON Application Databus:TRONの高水準データ交換規約(*2)の規約の開発を進めていた。従来、通常のパソコンで扱える文字は事実上JISの第一水準第二水準と呼ばれる規格(JIS X0208)により6,879字(うち漢字6,355字)となっていて、人名や地名の文字、旧字体が扱えないという問題が起こっていた。コンピュータが漢字を扱えるようになったのは約20年前で、それ以来急激にコンピュータの性能向上と低価格化が進み、もっと多くの文字を扱うことにコンピュータの能力による制約はなくなった。
BTRONは従来から4万8千400字の空間に、28,935文字のコード割り当てを行い、多国語多漢字の機能を持っていたが、今回一挙に150万文字の空間に10万を超える文字の割り当てを行い、コンピュータで文字が出ない、あるいは文字が足らないという問題は解決することになる。さらに不足している文字があれば順次追加をしていく予定で、そのためのサーバーを用意し、追加文字の要望や登録を行う機構を用意する準備を進めている。
TRONではあらゆる文字にコードを割当て、外字を使わないという方針をとっているため、通信を介してデータを送っても文字化けや欠字を起こさない。この特徴はインターネットや電子ブックなど情報コンテンツが通信を介して流通することがますます重要になる21世紀に必須の機能である。
欧米では、歴史的文献の電子化が盛んに行われているが、漢字圏では必要な文字がコンピュータで扱うことができなかったということから、電子化することや文献データベースをつくることさえ支障を来たしていた。今回のTRON多国語言語環境は、この問題を解決できるOS仕様、文字コード仕様であり応用分野からの期待が大きい。
*1 K. Sakamura, ”Multi-language Character Sets Handling in TAD” TRON Project 1987, Springer-Verlag(1987) *2 文字、図形、音声、動画、物理単位、制御情報などコンピュータが扱う様々な情報をできるだけ高い水準で相互に交換するためのデータの形式を定める規約。文字については、文字コードセットのみならず文章で使われる修飾や言語の情報、組版情報などを含んでいる。
TAD(TRONコード)で扱える文字の内訳 |
文字種 文字数 文字セット名、規格名 JIS第一・第二水準 6,879 JIS X 0208 JIS第三・第四水準 4,344 JIS X 0213 JIS補助漢字 6,067 JIS X 0212 韓国語(漢字,ハングル) 8,224 KS X 1001 中国語(簡体字) 7,445 GB 2312 中国語(伝統字,繁体字) 13,735 CNS 11643-1986 (Big5) 六点点字 64 TRONイネーブルウェア 八点点字 256 TRONイネーブルウェア iモード絵文字 166 iモード絵文字 ホツマ文字 154 − 陰陽五行文字 86 − GT書体フォント 66,756 GT書体フォント2000* 大漢和辞典収録文字 51,053 大漢和辞典**修訂二版・補巻準拠 トンパ文字 1,362 − 記号 778 Unicode 2.0*** 数学・技術記号 492 Unicode 2.0 通貨記号 12 Unicode 2.0 IPA発音記号 89 Unicode 2.0 句読点類 312 Unicode 2.0 ラテン 778 Unicode 2.0 ギリシャ 322 Unicode 2.0 キリル 226 Unicode 2.0 アルメニア 85 Unicode 2.0 ヘブライ 82 Unicode 2.0 アラビア 927 Unicode 2.0 デーヴァナーガリ 104 Unicode 2.0 ベンガル 89 Unicode 2.0 グルムキー 75 Unicode 2.0 グジャラティ 78 Unicode 2.0 オリヤ 79 Unicode 2.0 タミール 61 Unicode 2.0 テルグ 80 Unicode 2.0 カンナダ 80 Unicode 2.0 マラヤーラム 78 Unicode 2.0 タイ 87 Unicode 2.0 ラオス 65 Unicode 2.0 チベット 168 Unicode 2.0 グルジア 78 Unicode 2.0 かな・漢文記号 200 Unicode 2.0 CJK用共通記号 799 Unicode 2.0 ハングル字母等 334 Unicode 2.0 合計 173,102 TRONコード
* 日本学術振興会未来開拓学術研究推進事業「マルチメディア通信システムにおける多国語処理の研究プロジェクト」の成果 ** 大漢和辞典 諸橋轍次著 大修館書店刊 *** Unicode:The Unicode Consoritium
TRONコードの構造 |
TRONコードは4万8千400字を収容する16ビットコードの面を複数面持ち、これを言語切り換えコードにより切り換えて利用する方式を取っている。4万8千字の面は31面あり、150万字が収容できる。この範囲では言語切り換えコードは16ビットであるが、さらの言語切り換えコードは長さを長くすることにより拡張可能となっているため、150万字で不足した場合は、拡張可能となっている。
言語指定コードは、それがどの言語と文字の種別(文字属)を示す機能(日本語でローマ字というような)と31面の文字セットの切り換えを行う機能(スクリプト指定)機能をもち、16ビットの特別なコード(付箋)である。文字セット(スクリプトと呼ぶ)の面を切り換えるためには言語指定コードを入れ、それに続きその面内の文字の位置を16ビットで指定する。通常文章は同じスクリプト中にある文字が集中して使われるので、言語切り換えコード方式は、32ビットコード(1文字をすべて32ビットで表す)方式より効率がよい。
言語指定コードの言語と文字属を指定する機能は、文章中の言語が何でかかれている情報を明示的に示す機能をもち、入力アルゴリズムや組版ルール、検索アルゴリズムなど言語の種類に依存するようなアルゴリズムをこれによって切り換えることができる。他の文字コードでは、このような言語を明示的に示す機能を規定していないため、文章を流通させる上で、正しく表示ができなかったり(*)編集するのにいちいち利用者がアプリケションに対して言語を指定するなどが必要となる。多国語をきちんと扱うためには、TRONの持つ言語指定コードなど必要な情報の規定とBTRON仕様のように処理系の規定が必要である。
* インターネットWebブラウザの記述言語HTML 4.0では、言語指定が必要として言語指定タグ<P LANG=" ">を用意した。このように処理系をつくる側は言語指定が必須であることを認識している。 現在割当てを行った文字セットは、現在リリースされている主要な文字セットや文字コード規格の文字を収容し割当ては下記のようになっている。各文字セットや文字コード規格で文字が追加された場合は追加がされる。また、新しい文字セットが作られた場合も導入する予定となっている。TRON独自の追加文字の追加も予定されている。
第1面 JIS X0208, X0213, X0212, GB2312, KSX1001, 点字 第2面 GT書体 第3面 GT書体 第4面 予約 第5面 予約 第6面 CNS 11643−1986(Big5) 第7面 予約 第8面 大漢和辞典収録文字 第9面 大漢和辞典収録文字、記号類 第10面 中国伝承文字、少数民族文字等 第11面 予約 第12面 予約 第13面 予約 第14面 予約 第15面 予約 第16面 Unicode* 第17面 Unicode* 第18面−31面 予約
* CJK統合漢字とハングルシラブルは除外されている
他の大文字コード規格との比較 |
○Unicode
米国のコンビュータ関連メーカー等で構成されるThe Unicode Consoritumにより作成された世界文字コード規格。 当初16ビットコード面1面(最大約6万5千字)で全世界の文字を取り扱おうとしたが、不足が指摘されUnicode2.0で、サロゲートペアという機構(16ビットコード2つを使うことにより拡張文字を指定する)により約100万文字まで拡張可能とした。このためUnicodeは16ビットコードと32ビットコードの混在するコードとなった。しかし、サロゲートベアを実現しているOSはまだ現れていない。また、Unicodeには包摂すなわちUnificationという考えのもとに日本、中国、韓国の漢字でルーツが同じものは1つにまとめてしまったため、各国の文字の形の違いを表現できないという問題がある。Unicode2.0では約3万9千字が割当てられている(サロゲートペアの部は使われていない)。2000年初めにはUnicode3.0がリリースされた。
○ISO 10646ISO(International Organization for Standardization:国際標準化機構)により規格化された世界文字コード。 本来は32ビットコード(16ビットコード面を約6万5千面持つ)がそのうちの第一面(BMP:基本多国語面 ISO 10646−1)のみ割当てが行われている。この翻訳版がJIS X0221として日本工業規格として発行されている。BMP面は、実際にはUnicodeそのままとなっていて、問題点はUnicodeと同様である。BMPのみを使う場合は16ビットコードとして使うことが許されている。今後の拡張の仕方についてはどんな文字を入れるのか、拡張の仕方などUnicodeと分かれていく可能性がある。なおISO 10646についてもそれを実現するOSが存在していない。
○JIS第三第四水準日本工業規格が2000年1月20日に制定した文字コード規格。JIS X0213と呼ばれ現状のJIS第一第二水準の文字不足を補完するものとして作られている。 第一水準第二水準に対する拡張としては1990年にJIS X0212(補助漢字)が規格化されたが、WindowsやMacOSをはじめとする米国製OSで採用されなかったため(BTRONでは利用できる)、補助漢字を捨て、第三第四水準の規格化を行った。従来米国製OSで採用していたシフトJIS方式のコードの空き領域を使い、そこに文字を5千字程度追加する。この空き領域といっている部分は外字領域として使われていた部分を含み、混乱が予想される。Unicodeを採用したOSでは、第三第四水準の文字の一部がUnicodeに含まれていないため採用が難しくなっている。またこの追加をおこなっても文字の合計は1万2千字程度でそれ以上の拡張性がない点に問題がある。
TRONのカバレージ |
上記のような他の文字コード系で新たな文字が追加された場合は、TRONでもその文字を採用していく。従って、世界で流通する文字コードで使われる文字を包含して扱うことができる。しかもリゾリューションはTRONの方が細かいので、情報を欠落させずに混在して扱うことができる。
文字セット |
コンピュータ用の具体的なコードをつけるのとは別に、ある基準で文字の収集を行ったもので、いわゆる漢和辞典もそれにあたる。
○大漢和辞典諸橋轍次著(大修館書店刊)の日本最大の漢和辞典で約5万字の親字を収容している。現在は修訂2版および補巻が発刊されていて、親字に番号が振られ大漢和検字番号として知られている。
○GTプロジェクト2000年12月にGT書体フォント2000として、日本の漢字66756字の文字セットのフォントが公開されている。また、コードブック「新撰漢字総覧」(小学館)が発刊されている。