1、对微博数据进行信息采集。 2、对微博数据进行文本特征项抽取。 3、对文本进行向量化。 4、采取相似度公式进行相似度计算和对比。 5、采用K均值聚类算法进行聚类。 6、结合导致微博热点话题产生的各个因素提出了一个用来计算话题热度的公式,进行热度评估。
2020-02-25 03:09:26 45KB 聚类 微博 Python 人工智能
1
这是从东方财富网,平安银行股吧爬取的股吧评论数据,包括发言人author,发言人的影响力power,发言人的吧龄age,阅读量,评论量,还有帖子内容,可以用于构建词典,或者构建舆情指数,训练nlp模型。
2019-12-21 20:51:11 6.18MB 股吧语料 爬虫 东方财富 舆情
1