トップ «前の日記(16-September-2015) 最新 次の日記(18-September-2015)» 編集

つれづれなるままに

これまでの訪問者人
本日の訪問者人  昨日の訪問者人
月齢24.0

AI | AIきりたん | Ast | Beat Saber | CeVIO | Cn | cover | de | Emacs | En | Es | fr | git | html | iPad | It | Just Dance | misc | MMD | MV | NEUTRINO | OVA | PC | PV | Ru | SF | SKK | stable diffusion | SynthesizerV | tDiary | Th | Vocaloid | VRC | VRChat MMD | Vsinger | Vtuber | was | YuNi | お茶 | アニメ | アメリカ | イラスト | オカリナ | カゲプロ | キズナアイ | テレビ | ノベル | ノーベル賞 | ビートセイバー | フィートセイバー | フランス | ラズパイ | ラノベ | 万葉語 | 世界 | 中国 | 予定 | 即売会 | 台湾 | 台風 | 合成してみた | 同人 | 地震 | 宇宙 | 家電 | 展示 | 描いてみた | 政治 | 旅行 | 日記 | 映画 | 時事 | 書道 | 歌ってみた | 歴史 | 海外 | 演奏してみた | 漫画 | 特撮 | 科学 | 英国 | 訃報 | 語学 | 踊ってみた | 陶笛 | 障害 | 音楽 | 飲み |

17-September-2015 わやわや [長年日記]

_ [日記] カウンター

157人。

_ [地震] チリ

日本時間の7時54分(現地時間で19時54分)、マグニチュード8.3の地震が。

震源の深さは25キロとのこと。

_ [PC] 文字コード関連

ちょっと文字コード関連でトラブルがあって。

元々はコーディングが不明の文書をShift-JISに変換したところ文字化けが発生していたことに端を発していたのですが。

iso-2022-jp-2004でも駄目っぽいんですよね。

色々と調べると、utf-16, utf-8, cp932では正常みたいです。

古いMeadow 3では cp942やutf-8でセーブしても文字化けしてしまいました。Meadowはもう内部コード的にもう駄目とうことみたいで。

で件の文字なのですが、左右のダブルクオーテーションマークと三点リーダーがMeadowでは駄目っぽくて、全角ダーシに至っては2004年以前の規格には変換できないようでした。

まぁ、文字集合が近年はかなり拡張されてきていて、古い規格では対応できなくなってきているということですね。

今更古い規格でしか使えない文字だけで表現するというのナンセンスだし、色々と変えていかないといけないということか。

ちなみに、iso-2022-jpに変換できないということは、メールで送信しようとすると7bit encodingを通過できないので、base64変換されMIME添付ファイルに変換されるはず。rfc2822ではUS-ASCIIキャラクターしか送信できないことになってるし。

iso-2022-jp (いわゆるJISコード)は全文字を7bit文字の組み合わせで表現できるようになっています。日本語はもちろん7bitでおさまりませんが、コントロールシーケンスで日本語の範囲を指定することで、日本語の文字列を表現できるようになります。それがあるため、昔からメールはiso-2022-jpで送れというように言われていたわけです。

Shift-JISはこのコントロールシーケンスを省略して、8bit目を使ってUS-ASCIIと重複しないエリアを使用することで文字列を表現できるようになっています。MSが採用して広まったコードですがMacも使っていました。同じ8bitのコーディングとしてUnixでは古くはEUCが使われていました。

メールでもShift-JISやEUCを直接送るような実装が増え、文字化けの時代がはじまったわけです。

英数字や漢字以外の文字を使う場合は別の規格が必要となり、それらを統一的に表現する手段としてユニコードが提案されました。当初は日本文化と関係ないところで選ばれたことから、上記の3つのコーディングシステムとの変換がややこしいことになっています。

ただ、多言語を扱う環境でユニコードを使うようになるのは自然のことで、Windowsでも内部コードでユニコードを使うようになりました。

今は色々なツールが標準でユニコードの規格のひとつであるutf-8に対応していて、内部コードとutf-8をほぼ自由に変換できるようになっています。(実際は色々と問題があるようですが。。。)

iso-2022-jpも文字が色々と拡張されてきたし、Shift-JISもそれを含んでいるcp932で色々と表現できるようになってきています。EUCもEUC-JP-2004とかあるようですね。

ただ、冒頭にあるような互換性の問題があるようですね。

昔はHTMLをコーディングするときはiso-2022-jpが推奨されていましたが、HTML5ではもはやutf-8を使うことがデフォになってるようです。最近のwebエディターは何もしないとヘッダー情報にutf-8が挿入され、本文もutf-8になります。

ちなみに、Windowsの内部表現はユニコードはユニコードでも16bit表現のutf-16leが使われてるらしいです。leは little endian のことのようで。インテル系のCPUでは2バイトのデータを取り込むときに2バイト単位のデータのバイトの順番を入れ換えるようになっています。AAAA BBBBというデータがBBBB AAAAとなっているわけです。それに対して、例えばHPのCPUなどではbig endianといってAAAA BBBBのままで取り込む形式になっています。16bit=2byteですね。

最近のエディターはbig endianでもlittle endianでもテキストを保存できるのですが、間違ったバイトオーダーのものでセーブすると、環境によっては読めなくなったりします。

文字コードの問題は今も昔も色々と悩まされるものです。

_ [政治] 安保法案

可決したようで。

今回のデモを、若者が政治に関心を持った結果だと評価する向きもありますが、本当にそうだったらいいのですがね。実体はデマゴークに突き動かされた集団ヒステリーだったと思います。誰かが書いていましたが、1年後にこのできごとを記憶してる人がいるか。リーダーの人たちの姿を見掛けることはなくなるでしょう。

まぁ、日本の民主主義は元々勝ち取ったものでなく、世界的に見ても特種なのは事実なんですがね。

国会の議決もなんか見るに耐えない展開でした。物理的な手段で強行的に議事の進行を妨害し、議決の瞬間にも野党議員が暴徒と化してるようにしか見えなかったりして。

まぁ、問責決議案を提出したりするのは、しっかりとルールに則ってるのでまっとうな手段だとは思いますが。。

でも、説明不足だとは言いますが、与党は実のところかなり以前から段階を追って説明を続けてきていたわけで。

ちゃんと理を以って反論するなら筋が通っていますが、感情にまかせて反対するのはいかがなものかと。

それぞれの立場を取った結果として何が起きるかを分析して判断しなくてはいけないのではないかと。

ちなみに、かつてはアメリカが共産主義に対する防波堤として日本を利用していたので、そこに軍事力を投入して日本を守ることに意味があったのですが、今はむしろ中国の方がアメリカに対する前線基地として日本を利用する可能性の方が高いわけで、その場合矢面に立たされるのは日本人となる可能性があるんだよ、とだけ言っておきましょう。アメリカは今はアジアに戦力を投入するよりもアジア諸国自体の力で守ることの方を優先していて、中国が勢力をのばすことに対して静観する方法を取っているので。

そういう世界情勢のときに、日本はどうするべきなのか、ということは考える必要があるかと思います。

今回の野党やデモの人達のような行動原理の国が日本に押し寄せてきたときに、日本は平和主義だから、と言って何もしなかった場合どうなるか。


【PR】ブログへ記事を投稿して報酬ゲット!アフィリエイトのA8.net