加盟网 |移动站| 招商名企 广告合作:13148487947 全国服务热线:13148487947 客服QQ:307291899
加盟导航
餐饮加盟
奶茶加盟 汉堡加盟 麻辣烫加盟 火锅加盟 甜品店加盟 咖啡加盟 串串香加盟 炸鸡店加盟 面包加盟 酸菜鱼加盟 鸡排加盟 烧烤加盟 糖水加盟 特色餐饮加盟 特色小吃加盟 铁板烧加盟 土豆粉加盟 新奇特餐饮 湘菜加盟 小吃加盟 小吃车加盟 小笼包加盟 小龙虾加盟 西餐加盟 西式快餐加盟 休闲食品加盟 鸭脖加盟 羊蝎子加盟 鸭血粉丝加盟 饮品加盟 鱼火锅加盟 早餐店加盟 中式快餐加盟 自助火锅加盟 石锅拌饭加盟 刨冰加盟 煲仔饭加盟 包子加盟 便当加盟 冰淇淋加盟 冰糖葫芦加盟 披萨加盟 茶餐厅加盟 茶馆加盟 炒货加盟 茶叶加盟 重庆小面加盟 酸奶加盟 贡茶加盟 大米加盟 蛋糕店加盟 刀削面加盟 豆浆加盟 饭团加盟 夫妻肺片加盟 干锅加盟 糕点加盟 锅盔加盟 韩国料理加盟 日本料理加盟 果汁加盟 肉蟹煲加盟 黄焖鸡米饭加盟 馄饨加盟 煎饼加盟 鸡公煲加盟 进口食品加盟 筋头巴脑加盟 烤鸡加盟 烤肉加盟 烤鸭加盟 烤鱼加盟 烤猪蹄加盟 快餐加盟 拉面加盟 凉茶加盟 凉皮加盟 零食加盟 卤菜加盟 麻辣香锅加盟 冒菜加盟 焖锅加盟 面馆加盟 面食加盟 调味品加盟 米线加盟 牛排加盟 牛肉饼加盟 牛肉面加盟 牛肉汤加盟 巧克力加盟 热干面加盟 热狗加盟 肉夹馍加盟 砂锅加盟 烧鹅仔加盟 石锅鱼加盟 寿司加盟 水饺加盟 熟食加盟 酸辣粉加盟
母婴加盟
儿童乐园 婴儿游泳馆 奶粉加盟 童车加盟 玩具加盟 母婴用品加盟 儿童摄影加盟 月嫂加盟
珠宝加盟
黄金首饰加盟 水晶加盟 玉器加盟 钻石加盟 银饰加盟 彩宝加盟 珍珠加盟
女性加盟
彩妆加盟 化妆品加盟 护肤品加盟 美容美发加盟 美甲加盟 美容院加盟 女性项目 手工皂加盟 卫生巾加盟
教育加盟
早教加盟 少儿英语培训加盟 幼儿园加盟 电脑培训 教育培训加盟 作文培训 体育用品加盟 艺术培训 潜能培训 特长培训加盟 写作培训 学生用品加盟 机器人教育培训
饰品加盟
仿真花加盟 发饰加盟 工艺品加盟 家居饰品 精品饰品 民族饰品 女性饰品 情侣饰品 饰品店加盟 饰品加盟 十字绣加盟 手表加盟 眼镜加盟
家居加盟
床上用品 净水器加盟 家居装饰 窗帘加盟 整体厨房 衣柜加盟 橱柜加盟 卫浴加盟 电器加盟 家纺加盟 家具加盟 家居用品加盟 洁具加盟 节能灯加盟 空调加盟 楼梯加盟 墙纸加盟 热水器加盟 生活馆加盟 桶装水加盟 鞋柜加盟 led灯具加盟 装修加盟 布艺加盟 厨房电器 灯饰加盟 房产加盟 汗蒸房加盟
建材加盟
背景墙加盟 瓷砖加盟 吊顶加盟 地板加盟 门窗加盟 木门加盟 涂料加盟 砖厂加盟 集成墙板加盟
服装加盟
女装加盟 童装加盟 男装加盟 内衣加盟 运动服装 衬衣加盟 皮具加盟 箱包加盟 品牌服装 女包加盟 户外用品 家居服 裤业加盟 牛仔加盟 情侣装 亲子装 染衣加盟 少年装加盟 睡衣加盟 丝袜加盟 T桖加盟 休闲装 孕妇装 羽绒服加盟
汽车加盟
汽车美容 汽车维修 电动车加盟 洗车加盟 汽车4S店加盟 补胎液 节油器 汽车零部件 轮胎加盟 汽车导航 汽车用品加盟 汽车装饰 汽车项目 润滑油加盟 停车场系统 洗车器 汽车租赁连锁
当前位置:  > 创业资讯 > 零售加盟资讯 > 人人贷网(人人贷网的数据爬取)
温馨提示:投资有风险,36加盟网提示多做项目考察!
人人贷网(人人贷网的数据爬取)
更新时间: 2020-05-04 12:08 作者: 36创业加盟网 点击次数: 
人人贷
人人贷 ¥0-1万

所属行业: 理财

品牌源地: 北京市

公司名称: 人人贷商务顾问(北京)有限公司

之前看到过网上有一篇有关爬取P2P网站上散标投资数据和借贷人的信息数据的博文,后应他人请求,帮忙实现。发现存在不少问题,先整合前人资料(),说一下爬取中遇到的问题:

(一)首先分析"散标投资"这一个模块,共有51个页面

进入首页,调用360浏览器的F12(界面如下)选择Network->XHR

后在上图中左侧点击到第2个页面,右侧那一栏会弹出3个事件(对其中Method为GET的那一个事件进行分析)

点击Header,对General->Requesl URL, 和Request Headers->User-Agent 进行分析(后文中会用到)

仔细观察Request URL:!json.action?pageIndex=2&_=1474379219318,你会发现数据是Json格式,查看下一页,发现也是如此,不同页面的数据格式是相同的。对此,我们的抓取思路就是:获取网页源代码,从源代码中提取数据。

数据来自于类似这样的地址:!json.action?pageIndex=2&_=1457395836611,删除&_=1457395836611后的链接依然有效人人贷网,打开链接发现是json格式的数据,而且数据就是当前页面的数据。至此,我们就找到了真正的数据来源

以下就是爬取"散标列表"数据的代码(Python 3.5.2 |Anaconda 4.0.0 (64-bit),低版本好像不能解析utf-8)

要想配置高版本见

import pandas as pd
import numpy as np
import requests
 
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
#headers得根据自己的浏览器F12下自行修改调整,具体可见步骤c
#自定义了一个解析网页的函数
def parse_html(i):
    url = "http://www.we.com/lend/loanList!json.action?pageIndex=%s&" % i #数据的真正来源(Request URL)
    resp=requests.get(url,headers=headers) #获取页面
    html=resp.json() #页面文字
    data=pd.DataFrame(html['data']['loans'])
    data.to_csv('loans%s.csv' % i) #将整理后的数据写入csv格式文档
    print("%s successsed" % i)
 

(页面总共51个,可自己写个循环语句,但循环过程中可能出错,我自己就是一个个页面爬取的,然后再把51个页面的数据loan整合)

总的来说,第一步为得是给第二步做铺垫,因为第二步需要用到第一步中loans.csv中的loanId,可自行将其单独整理为一个csv文档

(二)如何获取借贷人信息

a.点击其中一栏即可进入借贷人信息

为什么看不到借贷人信息呢,首先你的搞到一个帐号登录即可见(自己随便注册一个啦)

b.帐号登录后,按F12,刚开始又是空白,如下图

这时只要刷新一下页面,然后找到Method为Get的事件人人贷网,点击打开

记住Request Headers->Cookie, 后面代码需要用到它

c.爬取借贷人信息的源代码

import pandas as pd
import re
import numpy as np
import requests
import time
import random
from bs4 import BeautifulSoup
s=requests.session()
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
#根据浏览器下自行修改
headers['Cookie'] = 'gr_user_id=022d0f46-4981-4224-9895-18bfe32d9276; rrdLoginCartoon=rrdLoginCartoon; pgv_pvi=905847926; Hm_lvt_16f9bb97b83369e62ee1386631124bb1=1474288518,1474332677,1474336816,1474368269; Hm_lpvt_16f9bb97b83369e62ee1386631124bb1=1474372985; JSESSIONID=7EB90C9967D8C42B08DFB18EB9A9F74ED2ACC468B7D56B9372E2A20684713847; jforumUserInfo=bEAY23pgyLLLjII69w9oS%2BtK2jljmxa8%0A; IS_MOBLIE_IDPASS=true-false; activeTimestamp=5195275; gr_session_id_9199126ed94d770d=70bbe285-4ac6-42c9-a49b-9255d0eb9c46; gr_cs1_70bbe285-4ac6-42c9-a49b-9255d0eb9c46=user_id%3A5195275'
#根据浏览器F12下的Request Headers->Cookie自行复制上去即可
def parse_userinfo(loanid):#自定义解析借贷人信息的函数
    timestamp=str(int(time.time())) + 'd' % random.randint(0,999)
urll="http://www.we.com/lend/detailPage.action?loanId=%.0f&timestamp=" % loanid+timestamp
#这个urll我也不知道怎么来的,貌似可以用urll="http://www.we.com/loan/%f" % loanid+timestamp
#(就是页面本身,我也没试过)

    result = s.get(urll,headers=headers)
    html = BeautifulSoup(result.text,'lxml')
    info = html.find_all('table',class_="ui-table-basic-list")
    info1= info[0]
    info2 = info1.find_all('div',class_="basic-filed")
    userinfo = {}
    for item in info2:
        vartag = item.find('span')
        var = vartag.string
        if var == '信用评级':
            var = '信用评分'
            pf1 = repr(item.find('em'))
            value = re.findall(r'\d+',pf1)
        else:
            valuetag = item.find('em')
            value = valuetag.string
        userinfo[var]=value
    data = pd.DataFrame(userinfo)
    return data
rrd=pd.read_csv('loanId.csv') #loanId是之前散标数据中的loanId,将其单独整理为一个csv文档
loanId=rrd.ix[:,'loanId']
user_info = ['昵称', '信用评分',
            '年龄', '学历', '婚姻',
            '申请借款', '信用额度', '逾期金额', '成功借款', '借款总额', '逾期次数','还清笔数', '待还本息', '严重逾期',
            '收入', '房产', '房贷', '车产', '车贷',
'公司行业', '公司规模', '岗位职位', '工作城市', '工作时间']
table = pd.DataFrame(np.array(user_info).reshape(1, 24), columns=user_info)
i = 1
for loanid in loanId:
    table = pd.concat([table, parse_userinfo(loanid)])
    print(i)
    i += 1 #看一下循环多少次
table.to_csv('userinfo.csv',header=False)

整理出来的数据可能会有点乱,但总的来说还是不错的。(相信大家还是能清理的)

十大品牌排行榜

更多+
  • 一点点奶茶
    咨询数:209 门店数:135

    一点点奶茶加盟详情:一点点奶茶连锁品牌创立于1994年。起初仅是台湾台南地区路边的饮料摊位,尚未有专属之品牌名称,后因营业状况蒸蒸...

  • CoCo奶茶
    咨询数:173 门店数:105

    CoCo奶茶加盟详情:绿色是激情的颜色,更是青春的颜色,用绿色影响每一个人,创造绿色的成功梦想; 活力时尚奶茶品牌激情coco奶茶成功梦想...

  • 张亮麻辣烫
    咨询数:145 门店数:102

    张亮麻辣烫加盟详情:哈尔滨市张亮餐饮有限公司,是一家集美食研发、品牌管理、餐饮连锁、原料供应、特许经营于一体的的餐饮管理机构...

  • 骄阳兰多
    咨询数:58 门店数:106

    骄阳兰多加盟详情:重庆新骄阳健康产业股份有限公司(以下简称新骄阳)成立于2009年3月17日,总部坐落在美丽的直辖市重庆。经过了7年的...

  • 巴黎贝甜
    咨询数:57 门店数:152

    巴黎贝甜加盟详情:ParisBagutte巴黎贝甜是韩国历史悠久的食品企业SPC集团旗下的韩国优秀烘焙品牌。目前在韩国,美国,中国(上海、北京...

  • 琉璃鲸
    咨询数:48 门店数:332

    琉璃鲸加盟详情:为投资加盟者提供了很好的创造财富的机会,琉璃鲸在奶茶加盟行业中有着非常多的投资青睐着,可以说是一个很好的奶茶加...

  • 周大生
    咨询数:42 门店数:140

    周大生加盟详情:婚礼是人一生中非常重要的日子,除了一个爱自己的另一半,一套美丽的婚纱,当然也是少不了一对独特的婚戒和一套时尚的珠...

  • 华泰保险
    咨询数:40 门店数:130

    华泰保险加盟详情:一、共赢模式:分享经济时代新运营模式,以互联网为基础快速打开市场,传播品牌声誉,华泰保险提供精准的客户大数据。 ...

  • 百滋百特甜甜圈
    咨询数:36 门店数:113

    百滋百特甜甜圈加盟详情:甜甜圈是一种由面粉、白砂糖、奶油和鸡蛋混合后经过油炸的甜食。普遍的形状是中间是中空的,但还有一些是中...

  • 快乐柠檬奶茶
    咨询数:36 门店数:120

    快乐柠檬奶茶加盟详情:快乐柠檬奶茶加盟详情 - 快乐柠檬奶茶是国内知名奶茶品牌,2006年01月快乐柠檬采用特许经营模式进行运作。 Ha...

创业故事

更多+

我对人人贷加盟感兴趣,马上免费通话留言!

(24小时内获得企业的快速回复)

温馨提示:
1.此次通话将不会产生任何费用, 请放心使用

*姓名:
*电话:
QQ/Email:
投资金额:
加盟地区:
留言:

*为必填

7x24小时电话咨询

13148487947

您可以根据下列意向,快捷留言

  • 想要加盟煲饭堂,请尽快联系
  • 煲饭堂加盟流程怎样的?
  • 煲饭堂加盟费是多少钱?
  • 煲饭堂有哪些扶持政策?
  • 煲饭堂能实地考察吗?
在线
咨询
在线
留言
关注
微信
APP下载
返回
顶部