日本語の自然言語処理で使われるソフトとしては、Mecab と Juman(++) というのがメジャーなんだそうだ。
需要が多いと思われるのが ”分かち書き” だが、Mecab の方はそのやり方がいろんなところで紹介されている。
では、Juman では・・・とちょっと調べたが、「できない」とかいったん外部出力したファイルをさらにテキスト処理してとかというネガティブな/まわりくどい記事が散見された。
いやあ、そんなことはないだろうと思ってドキュメントなどを眺めたら、”分かち書き”の実現方法はしれっと書いてある。
jumanpp の後にパラメータとして –format=segment を渡してあげれば、以下のように実現できる。
一番簡単には
echo “渡したい文字列” | jumanpp –format=segment
とすればOKです。