为了快速地获取到海量微博中的数据,根据微博网页的特点,提出了一种基于Python爬虫程序设计方法.通过模拟登录新浪微博,实时抓取微博中指定用户的微博正文等内容;该工具利用关键词匹配技术,匹配符合规定条件的微博,并抓取相关内容;最后使用该工具对部分微博数据作了一个关于雾霾问题的分析.实验结果表明:本程序具有针对性强、数据采集速度快、易嵌入开发、简单等优点,为不善于编程的研究者提供了快速获取微博的方法,有利于对微博的后续数据挖掘研究.
2021-05-06 12:22:27 214KB Pyhon;爬虫
1
如题。爬取网站公告,和附件。对内容简单分析记录
2021-04-10 22:00:54 16KB pyhon 爬虫 公告 分析
1