#1 - 2017-5-24 11:10
君寻 (已淡出bgm38)
如何统计一篇文章用了多少个字,或者英文单词,以及每个字出现的次数?
Word能做到这个功能吗?
#2 - 2017-5-24 11:22
(Rigidity and Uncertainty~☆)
网上有很多在线编程的网站,可以写个程序,把整篇文章放到一个string里面,然后按顺序一个个循环抽字,循环里面写道:每抽到一个新的字符(事先排除标点符号)就录入一个命名为“appeared”的list里面,然后在循环外面写一行print(len(appeared)),然后run就得到出现了多少不同的字
#2-1 - 2017-5-24 11:25
君寻
找到了一个在线的工具:
http://www.cncorpus.org/CpsTongji.aspx
#2-2 - 2017-5-24 11:38
th3ta "Paradox"
君寻 说: 找到了一个在线的工具:
http://www.cncorpus.org/CpsTongji.aspx
这个对中文/日文没问题,但是对英语词会拆成字母,而且还case sensitive,墙外大概能找到处理英语的语料库(
#2-3 - 2017-5-24 14:17
君寻
th3ta "Paradox" 说: 这个对中文/日文没问题,但是对英语词会拆成字母,而且还case sensitive,墙外大概能找到处理英语的语料库(
这个处理的字数还是太少了,中文的现在没找到比较好的在线统计工具
英文的下面那个writewords 很好
#3 - 2017-5-24 11:27
(Enjoy your (real) life!)
tr -sc 'A-Za-z' '\012' < input | sort | uniq -c
#3-1 - 2017-5-24 12:11
#4 - 2017-5-24 12:19
(讓一切都自動化!)
英語在線詞頻統計,或者 Bing 搜索 online word counter
#4-1 - 2017-5-24 14:18
君寻
这个很好用
中文的有没有推荐的?
#4-2 - 2017-5-25 01:43
Franklin Yu
君寻 说: 这个很好用
中文的有没有推荐的?
中文要不要分詞?
#4-3 - 2017-5-25 09:36
君寻
Franklin Yu 说: 中文要不要分詞?
不用的,就纯粹统计单字
#4-4 - 2017-5-25 12:13
Franklin Yu
君寻 说: 不用的,就纯粹统计单字
那我覺得挺多都可以的…… 你上面找到那個用得怎樣
#4-5 - 2017-5-25 12:14
君寻
Franklin Yu 说: 那我覺得挺多都可以的…… 你上面找到那個用得怎樣
那个超过5000字就不行了
#4-6 - 2017-5-25 12:46
csslayer
君寻 说: 不用的,就纯粹统计单字
写个程序不就完事了…都不要几行。我就瞎这么一写。


#!/usr/bin/python3
import sys

if len(sys.argv) >= 2:
    f = open(sys.argv[1], "r")
else:
    f = sys.stdin
s = f.read();

stat = dict()

def addword(stat, word):
    v = stat.get(word, 0) + 1
    stat[word] = v

word = str()

for c in s:
    if c.isalpha() and ord(c) < 128:
        word += c
    else:
        if word:
            addword(stat, word)
            word = str()
        if c.isprintable():
            addword(stat, str(c))

if word:
    addword(stat, word)

print(stat)
#4-7 - 2017-5-25 16:46
epix
csslayer 说: 写个程序不就完事了…都不要几行。我就瞎这么一写。


#!/usr/bin/python3
import sys

if len(sys.argv) >= 2:
&nbsp; &nbsp; f = o...
不用collections.Counter嘛
#4-8 - 2017-5-26 00:55
csslayer
epix 说: 不用collections.Counter嘛
python 不熟
#5 - 2017-5-24 17:21
突然觉得好好玩~可以整理出很多好玩的数据啊~比如人民日报爱用的词之类的~还有网络文学标题爱用的词啊~让后再对比一下,应该可以看出人性的双面性吧~
#5-1 - 2017-5-24 19:56
君寻
嘿嘿,比如好好爱用的词,喵呜~
#5-2 - 2017-5-24 20:29
好好
君寻 说: 嘿嘿,比如好好爱用的词,喵呜~
唔,好复杂~
#5-3 - 2017-5-24 20:37
chitanda@Lv2
统计字好做,统计词涉及到分词,很麻烦的。。普通的小程序比较难搞定
#5-4 - 2017-5-24 20:39
𝒩𝑒𝓀𝑜_𝒜𝓇𝒾𝒶
chitanda 说: 统计字好做,统计词涉及到分词,很麻烦的。。普通的小程序比较难搞定
不是说锤子出的那个BigBang能分词嘛,不过我没实际用过。
#5-5 - 2017-5-24 21:09
chitanda@Lv2
Neko_Aria 说: 不是说锤子出的那个BigBang能分词嘛,不过我没实际用过。
没用过锤子那个。。不过分词主要还是准确度问题而不是表面上看起来的实现。。毕竟中文本身就有很多因为断句不同而引起歧义的句子
#6 - 2017-5-24 18:17
(BGMのTrinitas<=>婊冈妈<=>补冈妈<=>拜冈妈 三位一体 ...)
python?
#7 - 2017-5-24 22:36
(Q, Σ, Γ, δ, q0, Z0, F)
诶?竟然想到C程序设计语言那本书里面有个这个样的例子。
#8 - 2017-5-29 22:28
关键要分词吧 日语的可用 mecab
#9 - 2017-5-30 00:27
(大変に気分がいい)
中文直接写代码用个HashSet完事