主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用亲测可用, 谢谢支持。
2022-01-06 21:58:11 70KB 词频计算
1
这几天写了一个基于C语言对文本词频进行统计的程序,开发及调试环境:mac集成开发环境Xcode;测试文本,马丁.路德金的《I have a dream》原文演讲稿。 主要运行步骤: 1. 打开文本把文本内容读入流中并且开辟相应空间放入内存 2 .对文本内容进行处理,去除大写字母(转化为小写),去除特殊字符 3. 基于单链表对词频进行统计 4. 把统计结果进行归并排序 5.打印输出全部词频或者频率最高的10个单词和其出现次数 6.释放所有结点消耗的内存 废话不多说,上代码! // // main.c // word_frequency_statistic // // Created by t
2022-01-06 21:39:46 110KB
1
此词典为综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 词典结构为:词语\t词性\t词频
2021-12-29 20:08:26 23.44MB 中文词表 词性 词频
1
coca 词频表 词汇上万 中英对照 有需要的拿去 翻译过的
2021-12-27 23:09:26 262KB 词频表
1
ctf中用来统计词频的工具
2021-12-22 13:18:02 2.94MB CTF 词频
1
Python3绘制词云,同时实现 文章分析,分词统计,文本检索,并制作词云
2021-12-21 09:07:51 621KB Python 词云 词频
360万中文词库+词性+词频词典结构为:词语\t词性\t词频词频是用ansj分词对270G新闻语料进行分词统计词频获得。
2021-12-18 09:05:45 22.96MB txt 中文词库 词语
1
统计文本词频并输出为Excel表格形式——Python实现 本次实例主要是熟练对中文分词库_jieba库,以及二维数据存储_csv库的使用。 目录 简单介绍两个库的使用 实例问题及问题分析 Python实现 一、简单介绍两个库的使用 jieba库:中文分词库,将中文文本分解为单个词语进行处理。 jeba.lcut(s):精确模式,对原文本进行词语拆分,无冗余。 jieba.lcut(s,cut_all=True):全模式,对文本进行拆分,列出所以可以组成的词语,存在冗余。 jieba.lcut_for_search(s):搜索引擎模式,在词库中进行搜索并对文本进行拆分,列出所以可以组成的词语,
2021-12-17 21:47:21 93KB c ce csv
1
mapreduce编程实例(1)-统计词频-附件资源
2021-12-15 23:49:57 23B
1
ctf工具-离线词频统计,暴力破解自由替换密文,自带分词语料库frequency_dictionary_en_82_765.txt,完美替代在线https://quipqiup.com/
2021-12-13 11:09:55 5.58MB ctf 解密 词频统计 词频分析
1