nltk

『伝道の書』の動詞の Lemmatize を試みる

前回はテキストの品詞分解を試してみました。動詞には時制があり、形容詞や副詞には比較級があり、と分類すると、品詞のタグが英文の場合、36 にも上ることは、ある意味当然なのかもしれません。しかし、辞書で単語を調べる時のように、各単語をその基本形に…

『伝道の書』を品詞分解する - pos_tag によるカウント -

先日テキストのトークン化を試してみました。内容によって大きく変わりそうですが、英文は、どういった品詞がどのような割合の下に成り立っているのでしょうか。前回に引き続き、『伝道の書』を品詞分解してみました。 目次 1.nltk の品詞取得 1-1.品…

日本語の自然言語処理 - nltk と Janome -

前回英文を nltk で読み込んだ際、言葉の集計や描画に matplotlib 等のライブラリが使えたので、日本語についてもそのつもりでいたのですが…。 何日かの印象でしかありませんが、(少なくとも私にとって)Python 自体の恩恵を簡単に受けられるという点では、…

『伝道の書』を自然言語処理する - nltk の install、トークン化、使用頻度の plot まで -

先日の記事を書き、とにかく始めようということで、ライブラリを Install、あれこれいじっていると…、こんなところにも matplotlib が使われているんですね。 目次 1.まずは Install 2.テキストデータの準備、読み込みあれこれ 2-1.別にデータは何で…