こんばんわ!Keisukeです!
今日は, 以前記述したJanomeを実施に使用したいと思います!
pyscriptから
>>>pip install janome
でJanomeをインストールします!
公式サイトに従って…
すももももももものうちを形態素分析してみたいと思います!
http://mocobeta.github.io/janome/
>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer()
>>> for token in t.tokenize(u’すももももももものうち’):
… print(token)
…
実行結果
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
>>>
出てくる名詞のカウント
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.tokenfilter import *
if __name__ == ‘__main__’:
text = u’すもももももももものうち’
token_filters = [POSKeepFilter(‘名詞’), TokenCountFilter()]
a = Analyzer(token_filters=token_filters)
for k, v in a.analyze(text):
print(‘%s: %d’ % (k, v))
実行結果
すもも: 1
もも: 2
うち: 1
できましたね!
まぁ, 公式サイト通りですからね!
あとはここに, ネガティブワード, ポジティブワードを組み込めば….ふふふ.
数日中に組み込むぞ!!
[今日の達成]
・実施にJanomeを使用した!
[今日の未消化]
・ ネガティブワード, ポジティブワード