2018-08-26

日本語の文字数を数える方法

UTF-8になって、全角文字が2バイトでなくなったこともあり、文字数を数えるのが面倒になった。

やや面倒だが、以下のコマンドで、日本語混じりの文字数をカウントできる。

$ python -c 'import sys; print len(sys.stdin.read().decode("utf-8"))'
標準入力からUTF-8のテキストを流し込む。

なお、この方法の場合は、ひらがな・漢字が1文字とカウントされるが、同時に、数字など半角文字も1文字と数えられる。

3 件のコメント:

  1. このコメントは投稿者によって削除されました。

    返信削除
  2. utf8でよければ wc -m はどうですか?私の環境だと終端文字もカウントしているのか1文字多くなりますが.

    返信削除
  3. wc -mでできるんですね。知りませんでした。

    返信削除