『伝道の書』を品詞分解する - pos_tag によるカウント -
先日テキストのトークン化を試してみました。内容によって大きく変わりそうですが、英文は、どういった品詞がどのような割合の下に成り立っているのでしょうか。前回に引き続き、『伝道の書』を品詞分解してみました。
目次
1.nltk の品詞取得
1-1.品詞取得の command
1-2.品詞タグの種類
2.『伝道の書』の品詞構成
3.品詞別高使用単語上位 20
4.まとめと課題
1.nltk の品詞取得
1-1.品詞取得の command
トークン化したテキストの、単語の品詞は次のように取得できます。ついでに、どんな結果になるのか、print してみました。
左が単語、右が品詞を表すタグのリストが得られます。
1-2.品詞タグの種類
では、品詞タグにはどのようなものがあるのでしょうか?公式ページにもありますが、次の command でタグの一覧や説明が見られます。
tag は全部で 36 に分けられています。一覧は、上の command、あるいは例えば以下のページをご参照頂くとして、
大まかに次のように分けてみました。
①名詞系(NN、NNS、NNP、NNPS)
②動詞系(VB、VBD、VBG、VBN、VBP、VBZ)
③形容詞系(JJ、JJR、JJS)
④副詞系(RB、RBR、RBS)
⑤疑問詞系(WDT、WP、WP$、WRB)
⑥その他(接続詞など)
果たしてかなりザックリですが、トークン化した『伝道の書』がどのような品詞比率になっているか、実際に図示してみました。
2.『伝道の書』の品詞構成
トークン化では、大文字を小文字にして単語を統一し、カンマ等の記号は省きました。先ほどの pos_tag を使って上位 20 のタグを図示したものが下のグラフです。
一目見て分かるように、圧倒的に名詞(NN)が多く、続いて形容詞(JJ)、次に聖書特有の、文頭につく"1:1" のような基数(CD)が続きます。その後は、副詞(RB)、動詞系(VBD、VBP、VB、VBN、VBZ、VBG)が目立ちます。先日トークン化した際には、一番多く使われていた単語は、"shall"、続いて"man" でしたが、全体としては名詞が一番多いようですね。
上の script はこんな感じです。
3.品詞別高使用単語上位 20
やや繰り返しになりますが、単語全体の使用頻度の上位ではなく、品詞別に使用率の高い単語上位 20 をまとめてみました。
まずは名詞から。
有難い言葉が並びますが、hath は動詞ですし、wise は形容詞ですね。
続いて形容詞です。
こちらも、sun、god、labour など名詞と思われる単語が混じっています。
では動詞はどうでしょう。
こちらも、god、labour、king といった名詞が混じっていますね。
最後に副詞を調べてみます。
こちらもやはり、数単語は副詞で無さそうなものが混じっています。ちなみに、品詞別の図示は、Dataframe を作った 2 行を以下の script に変えただけです。
4.まとめと課題
以上、『伝道の書』を品詞分解してみました。大筋はかなり納得、繰り返される言葉から、内容が垣間見られる想いがしますが(ちょっと言い過ぎですね)、どの品詞分解に関しても、違う品詞の単語が混じってしまうということは、トークン化からタグ付けの間にもう一手間必要なようですね。
ライブラリの使い方にとどまらず、英語の構造や語源自体の理解も必要なようで、やはりなかなか奥が深そうです。
最後までお付き合いありがとうございました。