通过python爬去豆瓣网的数据,用大数据基础对数据进行清洗,然后对清洗的数据可视化,更直观的展示出来
2019-12-21 20:53:23 367KB 数据爬取 数据分析  数据可视化
1
主要是通过R语言,对网页上的数据进行进行爬取,并且整理成文本格式,或者excel格式。 Sys.setlocale("LC_TIME", "C") ## [1] "C"----------------------------------------------------------- ## Create a function,the parameter 'i' means page number. getdata <- function(i){ url <- paste0("www.cnblogs.com/p",i)##generate url combined_info %html_session()%>%html_nodes("div.post_item div.post_item_foot")%>%html_text()%>%strsplit(split="\r\n") #对日期数据的处理------------------------------------------------------------- post_date %str_sub(9,24)%>%as.POSIXlt()##get the date post_year <- post_date$year+1900 post_month <- post_date$mon+1 post_day <- post_date$mday post_hour <- post_date$hour post_weekday <- weekdays(post_date) #对主题数据的读取 文本的格式的读取 title %html_session()%>%html_nodes("div.post_item h3")%>%html_text()%>%as.character()%>%trim()
2019-12-21 20:46:50 4KB R语言 爬取数据 整理归类
1
汽车之家爬取数据集超过30000条数据
2019-12-21 19:35:24 2.21MB 数据集
1