当前位置：主页 > 查看内容

爬取上市公司数据、分析数据，并用可视化现实全国各地区公司数量

发布时间：2021-05-17 00:00| 有位朋友查看

简介：前言在很多网站上，都会以表格的形式展示数据，而我们获取这种数据只需通过十几行爬虫代码就可以搞定，轻松搞定网页爬虫，实现高效办公知识点：爬虫基本原理 requests的简单使用 pandas库 pyecharts可视化工具第三方库： requests pandas 开发环境： Pyt……

前言

在很多网站上，都会以表格的形式展示数据，而我们获取这种数据只需通过十几行爬虫代码就可以搞定，轻松搞定网页爬虫，实现高效办公

知识点：

爬虫基本原理
requests的简单使用
pandas库
pyecharts可视化工具

第三方库：

requests
pandas

开发环境：

Python 3.6
Pycharm

这里就只展示部分代码了

爬虫代码

1.导入工具

from urllib.parse import urlencode 
import requests 
import csv 
from bs4 import BeautifulSoup 
import pandas as pd

2.网页提取函数

def get_one_page(i): 
    paras = { 
        'reportTime': '2019-12-31', 
        # 可以改报告日期，比如2018-6-30获得的就是该季度的信息 
        'pageNum': i  # 页码 
    } 
    url = 'http://s.askci.com/stock/a/?' + urlencode(paras) 
    response = requests.get(url, headers=headers) 
    if response.status_code == 200: 
        return response.text

3.提取表格数据

def parse_one_page(html): 
    tb = pd.read_html(html)[3] 
    return tb

4.保存数据

def save_csv(): 
    pass 
 
if __name__ == '__main__': 
    html = get_one_page(1) 
    parse_one_page(html)

运行代码，效果如下图

数据可视化代码

ffrom pyecharts import options as opts 
from pyecharts.charts import Map 
from pyecharts.faker import Faker 
df = pd.read_csv('1.csv') 
 
 
data = [['北京',331], ['西藏',18], ['湖北',103], ['上海',298], ['天津',50], ['陕西',51], ['安徽',106], ['河北',58], ['贵州',29], ['河南',79], ['山东',206], ['广东',603], ['江西',41], ['江苏',420], ['浙江',443], ['湖南',105], ['黑龙江',37], ['辽宁',78], ['福建',134], ['四川',125], ['重庆',50], ['广西',38], ['新疆',54], ['云南',37], ['山西',38], ['宁夏',14], ['海南',30], ['甘肃',33], ['吉林',42], ['内蒙古',25], ['青海',12]] 
c = ( 
    Map() 
    .add("上市公司数量 ", data, "china") 
    .set_global_opts( 
        title_opts=opts.TitleOpts(title="上市公司数量分布"), 
        visualmap_opts=opts.VisualMapOpts(max_=700), 
    ) 
) 
 
c.render_notebook()

最后运行代码，效果如下图

【责任编辑：未丽燕 TEL：（010）68476606】
本文转载自网络，原文链接：https://www.toutiao.com/a6862232193964442123/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：2020大数据十大关键词 下一篇：在数据统计分析面前，R语言是“王者”，Python只能当“小弟”

随机推荐

怎样才能成为一名合格的微服务构架师？

阿里巴巴、腾讯、支付宝、网易、IBM、谷歌、京东、百度、滴滴等一线互联网公司...
构建前瞻性应用架构的优秀实践

【51CTO.com快译】不知道您是否听说过软件架构师最讨厌意大利面这个梗?它是指软...
数据分析师必备的6项技能

【51CTO.com快译】数据分析是对数据进行判断、细化、更改和建模的过程，目的是...
删除镜像_镜像服务 IMS_用户指南_管理私

操作场景您可以删除不需要的私有镜像。删除私有镜像后，将无法找回，请谨慎操...
长沙营智：PolarDB助力长沙营智提速资讯

公司介绍长沙营智信息技术有限公司旗下易撰网，2017年10月份上线以来，基于数据...
一日一技：你怎么总是搞不清反斜杠的问题

大家在开发Python的过程中，一定会遇到很多反斜杠的问题，很多人被反斜杠的数量...
2020年大数据给企业带来的5大好处

大数据市场如今正在呈爆炸式增长。根据调研机构Markets and Markets公司的调查，...
稻香小镇新建数字农业基地

案例背景永安稻香小镇的体验式数字农业基地是余杭街道依托“阿里以西10分钟”的...
DataWorks 2021-03 产品月刊

本月DataWorks产品月刊为您带来产品活动 1.参与阿里云DataWorks问卷调研 (Aliyu...
百度开放离线人脸识别SDK，活体识别率超

人脸识别是目前商业应用最成熟、最广泛的人工智能技术之一，成为开发者、企业接...

爬取上市公司数据、分析数据，并用可视化现实全国各地区公司数量

推荐图文

Flink on Zeppelin 系列之：Yarn Application 模式

TRTC Web端仿腾讯会议麦克风静音检测

跨境医疗走向后疫情时代：门槛提高、专业化、平台化

网络视频服务器的优势

在Python中搭建币价树形图

使用顶层await简化JS代码

随机推荐

怎样才能成为一名合格的微服务构架师？

构建前瞻性应用架构的优秀实践

数据分析师必备的6项技能

删除镜像_镜像服务 IMS_用户指南_管理私

长沙营智：PolarDB助力长沙营智提速资讯

一日一技：你怎么总是搞不清反斜杠的问题

2020年大数据给企业带来的5大好处

稻香小镇新建数字农业基地

DataWorks 2021-03 产品月刊

百度开放离线人脸识别SDK，活体识别率超

关于我们