juman++ で分かち書き

日本語の自然言語処理で使われるソフトとしては、Mecab と Juman(++) というのがメジャーなんだそうだ。

需要が多いと思われるのが ”分かち書き” だが、Mecab の方はそのやり方がいろんなところで紹介されている。
では、Juman では・・・とちょっと調べたが、「できない」とかいったん外部出力したファイルをさらにテキスト処理してとかというネガティブな/まわりくどい記事が散見された。
いやあ、そんなことはないだろうと思ってドキュメントなどを眺めたら、”分かち書き”の実現方法はしれっと書いてある。
jumanpp の後にパラメータとして –format=segment を渡してあげれば、以下のように実現できる。

一番簡単には
echo “渡したい文字列” | jumanpp –format=segment 

とすればOKです。

 

猪股弘明           
医師(精神科):精神保健指定医

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です