博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计
阅读量:5014 次
发布时间:2019-06-12

本文共 504 字,大约阅读时间需要 1 分钟。

1.下载一中文长篇小说,并转换成UTF-8编码。

2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

3.排除一些无意义词、合并同一词。

import jiebatxt = open('wkz.txt', 'r', encoding='UTF-8').read()for i in ',。!?:“”……()你我他她是没有一什么这为那这':    txt = txt.replace(i, '')words = list(jieba.cut(txt))dic = {}for i in words:    if len(i) == 1:        continue    else:        dic[i] = dic.get(i, 0) + 1wc = list(dic.items())wc.sort(key=lambda x: x[1], reverse=True)# print(a)for i in range(20):    print(wc[i])

《悟空传》

 

转载于:https://www.cnblogs.com/GAODASHANG/p/7612852.html

你可能感兴趣的文章
linux shell 发送email 附件
查看>>
人群密度估计 CrowdCount
查看>>
JSON.parse()和JSON.stringify()
查看>>
.net 常用正则表达式
查看>>
Java泛型中的标记符含义:
查看>>
初遇GitHub
查看>>
[C# 网络编程系列]专题八:P2P编程
查看>>
Jsの练习-数组常用方法 -forEach()
查看>>
动态绑定treeview的方法
查看>>
jvm参数
查看>>
3-1 案例环境初始化
查看>>
读《构建之法》第四章和十七章有感
查看>>
01背包
查看>>
开发一个12306网站要多少钱?技术分析12306合格还是不合格
查看>>
Selenium 入门到精通系列:六
查看>>
HTTP与TCP的区别和联系
查看>>
android 实现2张图片层叠效果
查看>>
我个人所有的独立博客wordpress都被挂马
查看>>
html5——动画案例(时钟)
查看>>
调用Android系统“应用程序信息(Application Info)”界面
查看>>