PLSI Implementation How to extract features for the dataset 特征矩阵为t_d[V,D], V表示单词的数目,D表示文档的数目。过滤掉文档中包含的stopwords中的单词。 Source Code Explanation 在源代码中,包含如下几个文件: plsa.py : plsa的具体实现和一些用到的函数,如loglikelihood的计算公式,normlize的计算。 pprocess.py : 对data.txt的预处理,包括stopword的过滤,构造term_document矩阵,构造word到word_id的影射,doc到doc_id的影射。 main.py : 程序的入口,调用plsa.py和pprocess.py,按照topic从3到D便利,每次pLSA计算的loglihood和每个topic对应的10个关键词以及
2022-04-27 21:43:58 616KB Python
1
论坛程序的微信小程序版本,将帖子按话题分为精华、热门、沙发等几大类,用户注册后可浏览话题、参与讨论、收藏话题、管理自身资料等。 本话题圈微信小程序运行界面如测试截图所示,界面以简洁风格为主。
2022-04-24 00:57:27 215KB 小程序 话题 论坛
1
总结了基于LDA 话题模型的话题演化方法。
2022-04-19 12:05:03 275KB LDA模型
1
基于LDA模型的新闻话题分类研究,适合数据挖掘,分析。
2022-04-19 12:04:32 1.39MB 聚类,分类
1
针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA 模型的子话题划分方法. 首先应用LDA 模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA 模型拟合文档性能达到最佳
2022-04-19 12:01:59 433KB LDA 新闻分类
1
针对目前互联网“富信息化”现象,提出了基于机器学习的网络热点话题预测的思想。该思想通过总结能尽量准确描述热点话题的一组特征,得到每篇新闻各自的特征向量,并针对大量近期已知是否热门的随机新闻样本内容进行聚类处理。基于健壮精准的分类算法,利用支持向量机将向量映射到高维空间达到分类目的。在机器学习过程中,采用大量试验的方法修改并完善特征向量的组成、度量及权重,最终达到准确作出热点话题预测的目的。
2022-04-17 14:50:57 266KB 机器学习
1
2022年中考模拟作文【命题+半命题+话题+材料作文】
2022-04-06 00:43:56 27KB 2022年中考模拟作文【命题+半
博弈:关于策略的63个有趣话题,pdf格式
2022-03-30 10:42:02 4.97MB game 博弈
1
当前新闻工作主要围绕着热点话题进行信息传播,而在采集新闻信息过程中,新闻机构主要通过网上及记者四处走访获取信息。然后这种方式并不能第一时间有效获取当前热点内容
2022-03-15 22:33:18 7.43MB 热点话题发现
1
茫茫文档中找寻,特此献给有需要的哥们,好与不好仅供参看,自己觉得有用!
2022-03-10 14:28:09 1.93MB selenium
1