NGP
Is life always this hard or is it just when you're a kid
当你老了,回顾一生,就会发觉:什么时候出国读书,什么时候决定做第一份职业、何时选定了对象而恋爱、什么时候结婚,其实都是命运的巨变。只是当时站在三岔路口,眼见风云千樯,你作出选择的那一日,在日记上,相当沉闷和平凡,当时还以为是生命中普通的一天。
[TOC]
一. http:
1 当用户在地址输入入了网址发送网络请求的过程是什么
2 http的请求方式
1 2 3 4
| get请求 优点: 比较便捷 缺点: 不安全 → 明文 参数的长度有限制
|
1 2 3 4 5 6 7 8 9
| post请求 ⑴比较安全 (2)数据整体没有限制 ⑶上传文件 put(不完全的) delete(删除一些馆息) 发送网络请求(需要带一定的数据给服务器,不带数据也可以) 请求头里面requestheader 返回数据:response
|
1 2 3 4 5 6 7 8
| head(请求头) (1)Accept:文本的格式 (2)Accept-Encoding:编码格式 (3)Connection:长链接短链接 (4}Cookie:证明身份用的 (5)Host:域名 (6)Referer:标志从哪个页面跳转过来的 ⑺User-Agent:浏览器和用户的信息
|
二. 爬虫入门:
使用代码模拟用户批量的发送网络请求, 批量的获取数据
1 2 3 4 5 6 7 8 9 10 11
| 1 爬虫的价值; (1)买卖数据(萵镝的领域价格特别贵) (2)数据分析:出分析报告 (3)流量 (4)指数阿里指数.百度指数 2 合法性:灰色产业 政府没有法律现定爬虫是违法的,也没有法律现定爬虫是合法的 公司概念:公司让你爬数据库(窃取商业机密)贾任在公司 3 爬虫可以爬取所有东西?(不是)爬虫只能爬取用户能访问到的数据 爱奇艺的视頻(vip/非vip) (1)普通用户,只能看非vip. 爬取非vip的的视频 (2)vip爬取vip的视頻 (3)普通用户想要爬取vip视频(黑客)
|
三. 爬虫的分类:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
| 1 通用爬虫 (1) 使用捜索引擎:百度、谷歌、360、雅虎、搜狗 优势:开放性、速度快 劣势:目标不明确 返回内容:基本上%90是用户不需要的 不満楚用户的需求在娜里 2. 聚焦爬虫(学习) 1.目标明确 2.对用户的需求非常准 3.返回的内容固定 增量式: 翻页(从第一页请求到最后一页) Deep深度爬虫: 静态数据:html css 动态数据: js代码.加密的js robots:是否允许其他爬虫(通用爬虫)爬取某些内容 聚焦爬虫不遵守robots 爬虫和反扒做斗争: 资源对等(人、技术)的情况下, 胜利的永远是爬虫
|
四. 爬虫的工作原理;
1 2 3 4 5
| 1. 确定你抓取的目标url是哪一个(找) 2. 使用python代码发送请求获取数据(java Go) 3. 解析获取到的数据(精确数据) 找到新的目标(url)回到第一步(自动化(重点)) 4. 数据持久化
|
This article just represents my own viewpoint. If there is something wrong, please correct me.