2018-08-26

日本語の文字数を数える方法

UTF-8になって、全角文字が2バイトでなくなったこともあり、文字数を数えるのが面倒になった。

やや面倒だが、以下のコマンドで、日本語混じりの文字数をカウントできる。

$ python -c 'import sys; print len(sys.stdin.read().decode("utf-8"))'
標準入力からUTF-8のテキストを流し込む。

なお、この方法の場合は、ひらがな・漢字が1文字とカウントされるが、同時に、数字など半角文字も1文字と数えられる。