君寻 说: 找到了一个在线的工具: http://www.cncorpus.org/CpsTongji.aspx
th3ta "Paradox" 说: 这个对中文/日文没问题,但是对英语词会拆成字母,而且还case sensitive,墙外大概能找到处理英语的语料库(
君寻 说: 这个很好用 中文的有没有推荐的?
Franklin Yu 说: 中文要不要分詞?
君寻 说: 不用的,就纯粹统计单字
Franklin Yu 说: 那我覺得挺多都可以的…… 你上面找到那個用得怎樣
#!/usr/bin/python3 import sys if len(sys.argv) >= 2: f = open(sys.argv[1], "r") else: f = sys.stdin s = f.read(); stat = dict() def addword(stat, word): v = stat.get(word, 0) + 1 stat[word] = v word = str() for c in s: if c.isalpha() and ord(c) < 128: word += c else: if word: addword(stat, word) word = str() if c.isprintable(): addword(stat, str(c)) if word: addword(stat, word) print(stat)
csslayer 说: 写个程序不就完事了…都不要几行。我就瞎这么一写。 #!/usr/bin/python3 import sys if len(sys.argv) >= 2: f = o...
epix 说: 不用collections.Counter嘛
君寻 说: 嘿嘿,比如好好爱用的词,喵呜~
chitanda 说: 统计字好做,统计词涉及到分词,很麻烦的。。普通的小程序比较难搞定
Neko_Aria 说: 不是说锤子出的那个BigBang能分词嘛,不过我没实际用过。
http://www.cncorpus.org/CpsTongji.aspx
英文的下面那个writewords 很好
中文的有没有推荐的?