doraemon的python 爬虫 http和https的区别

番茄炒蛋548542 2020-11-26

栏目: python ·

来源: 番茄炒蛋548542

作者:番茄炒蛋548542

简介  这篇文章主要介绍了doraemon的python 爬虫 http和https的区别以及相关的经验技巧,文章约4649字,浏览量212,点赞数5,值得参考!

1.http和https

  • http:

    • 概念:clinet和Server进行数据交互的某种形式

  • 常用的头信息:

    • User-Agent:请求载体的身份标识

    • Connection:close

    • content-type:

  • https:

    • 概念:安全的http协议

    • 证书

      • 对称秘钥加密

        • 在本地用公钥进行加密,然后将数据和私钥发送给服务端

      • 非对称秘钥加密

        • 由服务端提供公钥,客户端进行加密后在传送给服务端

      • 证书秘钥加密方式

        • 服务端将公钥发送给证书机构,然后给公钥打标记,在发送给客户端

爬虫相关概述

  • 爬虫概念:

    • 通过编写程序模拟浏览器上网,然后让其去互联网上爬取/抓取数据的过程

      • 模拟:浏览器就是一款纯天然的原始的爬虫工具

  • 爬虫分类:

    • 通用爬虫:爬取一整张页面中的数据. 抓取系统(爬虫程序)

    • 聚焦爬虫:爬取页面中局部的数据.一定是建立在通用爬虫的基础之上

    • 增量式爬虫:用来监测网站数据更新的情况.以便爬取到网站最新更新出来的数据

  • 风险分析

    • 合理的的使用

    • 爬虫风险的体现:

      • 爬虫干扰了被访问网站的正常运营;

      • 爬虫抓取了受到法律保护的特定类型的数据或信息。

    • 避免风险:

      • 严格遵守网站设置的robots协议;

      • 在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;

      • 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

  • 反爬机制

  • 反反爬策略

  • robots.txt协议:文本协议,在文本中指定了可爬和不可爬的数据说明.


以上就是本文的全部内容,希望对大家的学习有所帮助,本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文地址:https://www.cnblogs.com/doraemon548542/p/11964356.html

相关文章

doraemon的python django框架的路由详解(国庆大更新)

doraemon的python ORM必会操作(国庆大更新)

doraemon的python django的中间件(国庆大更新)

doraemon的python form组件(国庆大更新)

doraemon的python csrf校验(国庆大更新)

doraemon的python centos的入门

doraemon的python centos的入门(二)文件目录操作

doraemon的python MongoDB的基础 增删改查和$用法