一、需求分析
目标:利用R语言 rvest包 抓取网贷天眼数据平台表格数据。
抓取url:http://www.p2peye.com/shuju/ptsj/
二、抓取步骤讲解:
1、安装rvset包 install.packages(“rvest”)
2、加载rvest包 library(“rvset”)
3、read_html()函数下载网页源代码
4、html_table()函数解析表格数据为数据框
5、数据处理、标题重命名
6、写出数据到excel
二、r语言爬虫源代码:
rm(list=ls())
gc()
options(scipen = 200)
library('rvest')
timestart<-Sys.time()
url="http://www.p2peye.com/shuju/ptsj/"
#########从网站中读取HTML代码
webpage <- read_html(url)
data <- html_table(webpage)
name1 <-data.frame(data[1])[-11]
data1 <- data.frame(data[2])[-11]
names(data1) <- colnames(name1)
###############写出数据到excel
library(xlsx)
write.xlsx(data1,"C:\\mydata.xlsx",row.names = F)
timeend<-Sys.time()
runningtime<-timeend-timestart
print(runningtime)