テキストデータのゆくえ

[ 印刷用 ]
[06-12-20 加筆]


少し大袈裟なタイトルですが、Windows Vista の MS新書体(MS明朝、MSゴシック、新書体のメイリオ)が印刷標準字体に沿った字形に変更されたことで、テキストデータという考え方にも影響が出るのではないか、というのがこの雑文の趣旨です。
普段、テキストデータでお願いします、と言った場合、テキストデータとは、DOS TEXT のデータ、つまりシフトJISのプレーンテキストを指していると思います。
DOS TEXT でお願いしたいという場合には、それなりの理由があってのことだと思いますが、テキストデータ=DOS TEXT という暗黙の前提がいつまで通用するでしょうか。

と言うのも、Unicode のプレーンテキストも、テキストデータと呼ぶ習慣が出来てしまっているからです。

Windows や Mac OS X で、補助漢字や第三・第四水準の漢字を使う場合、Unicode のデータとして扱われます。

テキストデータでお願いします、と言われた場合には、第一・第二水準の範囲の漢字で済ませればそれでよいわけで、これまでは、そうしてきたと思います。(もし不足があれば、プリントアウトしたハードコピーに、赤字でも入れて補足していたでしょう)

しかし、Winows Vista の新フォントになると、少し状況が変わってくるように思えます。
というのも、漢字が印刷標準字体に変わってしまうからです。印刷標準字体の中には、第三水準を使うことになったものが少なくありません。しかも、第三水準を使うことになったものの中には、よく使う、あるいは有名なものが多く含まれています。
かの「森鴎外を冒涜する」の「鴎」も「涜」も、印刷標準字体は第三水準です。
なまじ第一・第二水準が印刷標準字体に変わっているだけに、第三水準を使うなというのは少し酷な話でしょう。
酷と言うよりも、第三水準を使うことになったものを避ければ、あるものは印刷標準字体、あるものは従来の字体といた、バランスを欠く、珍奇なものになってしまうでしょう。

(Windows Vista の MS-IME は、変換候補に「環境依存文字(unicode)」という表示がされるようですが)

こうして出来た文書をテキストデータで保存しようとするとこんな警告を目にするかも知れません。

「赤で示されたテキストは指定されたエンコードでは正しく保存されません」
「この文書は保存用に選択されたエンコードで保存すると失われてしまうUnicode形式の文字を含んでいます」

しかし、Unicodeテキストという保存形式(あるいは Unicode というエンコード)に気がつくのにそう時間はかからないでしょう。
悪いことに、拡張子も .txt です。

テキストデータでお願いします、と言って、さて何が送られてくるでしょうか。


  << もどる