文章目录
什么是爬虫?
为什么需要爬虫?
企业获取数据的⽅式?
为什么选择python
爬虫原理
爬虫分类
通⽤⽹络爬⾍
聚焦⽹络爬⾍
增量式⽹络爬⾍
深层⽹络爬⾍:
robots协议
什么是爬虫?
简单⼀句话就是代替⼈去模拟浏览器进⾏⽹⻚操作
爬虫 (又叫蜘蛛、网络机器人),是一种按照一定规则,自动地抓取网络信息的程序或者脚本,
它另外还有一些不常使用的名字:蚂蚁、自动索引、模拟程序、蠕虫。 爬虫」(又叫蜘蛛、网络机器人),是一种按照一定规则,自动地抓取网络信息的程序或者脚本,
从本质上来说,「爬虫」就是利用自动化程序从网上获取我们需要的数据。
我们常用的百度,就是一个很大的「爬虫」。
你有没有想过为什么百度搜索会这么强大?
这是因为百度会把各个网站的数据爬取下来,存储在自己的服务器上。
而检索之后会得到一些超链接,点击各个超链接跳转,就可以访问其他网站了。 爬虫就是利用自动化程序从网上获取我们需要的数据。
网络就像一张巨大的蜘蛛网,而爬虫则像这只蜘蛛一样在网络上收集需要的数据
为什么需要爬虫?
为其他程序提供数据源 如搜索引擎(百度、Google等)、数据分析、⼤数据等 等
当今世界是大数据时代,每时每刻都有大量的数据在交互,那么数据从何而来