当前位置:首页 > 专栏 > 产品经理 > 正文内容

搜索产品经理(2):认识网络爬虫

张小龙2周前 (04-24)产品经理36

因为我本身并不从事技术岗位,本篇文章的读者,我也默认是与我一样,不从事技术岗位,但对技术有一定感知的同学,我将尽力将文章写得简单、易懂。

索引引擎系统由多个子模块组成,先来了解第一个模块,网络爬虫。

一、网络爬虫是什么?

用一个程序自动地将所有的网页下载到本地,在本地形成互联网的镜像备份。

二、通用爬虫框架

了解通用爬虫框架之前,让我们再次回顾上个章节讲过的超链接(hyperlinks)。

浏览网页时,点击超链接,浏览器就可跳转到相应的网页。有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动地访问每一个网页并把他们存起来。

(图的遍历算法,在这里不做解释,有兴趣的同学,可以自己查询)

上述说法较为抽象,让我们通过一个实例来了解。

网络爬虫如何下载整个互联网呢?

参考上图,从一家门户网站的首页开始。我们任意选择一家门户网站的首页,将其内容下载下来,并对内容进行分析,于是,我们能获取门户网站首页的所有超链接。接着,我们分别进入不同的超链接,比如,进入超链接一,重复对该网站进行内容下载。

当然,也需要记载哪个网页被下载过了,避免重复。

三、网络爬虫的特性

实用的爬虫系统应该具备如下几种特性:

3.1 高性能

互联网网页浩如烟海,因此爬虫的性能至关重要。性能定义为爬虫下载网页的速度,具体评价指标为爬虫每秒能下载的网页数量。单位时间能够下载网页数量越多,性能越高。

3.2 可扩展性

因为互联网网页数量巨大,即使单个爬虫性能很高,要完成爬虫任务,所耗费的时间也是极长。为了尽可能缩短抓取周期,爬虫系统应该有很好的可扩展性,可以通过增加爬虫数量来达到此目的。

3.3 健壮性

爬虫要访问各种类型的网站服务器,可能会遇到很多种非正常情况,比如网页HTML编码不规范,被抓取服务器突然死机。爬虫对各种异常情况能够正确处理非常重要,否则可能会不定期停止工作。

3.4 友好性

爬虫的友好性包含两方面的含义:
1. 保护网站的部分私密性
2. 减少被抓取网站的网络负载

四、爬虫质量的评价标准

从用户体验角度,我们需要对爬虫质量进行衡量,有以下3个指标:
1. 抓取网页覆盖率
2. 抓取网页时新性
3. 抓取网页重要性

4.1 覆盖率

覆盖率 = 爬虫抓取的网页数量 / 互联网所有网页数量的比例
覆盖率高,等价于搜索引擎的召回率越高。

上图中,互联网有5个网页,爬虫系统抓取了其中3个,因此召回率 = 3 / 5 = 60%

4.2 时效性

对很多抓到本地的网页来说,很多网页可能已经发生变化,或者被删除,爬虫完整抓取一轮需要较长的时间周期,所以抓取到的网页中必有一部分是过期的数据,即不能在网页变化后第一时间反映到网页库中,所以网页库中过期的数据越少,则网页的时效性越好,这对用户体验的作用非常重要。

4.3 重要性

互联网网页众多,但是每个网页重要性差异很大,比如来自雅虎新闻的网页和某个作弊网页相比,重要性有很大差异。如果搜索引擎爬虫抓回来的网页大都是比较重要的网页,则其在抓取网页重要性方面做得很好。

本章介绍了,搜索引擎的第一步,网络爬虫,分别从网络爬虫系统,网络爬虫的性能,以及网络爬虫的评价指标三大模块,对网络爬虫进行了讲解。

下一章,我们讲搜索引擎索引。

参考

  1. 数学之美

  2. 智能时代

  3. 这就是搜索引擎核心技术详解


来自:人人都是产品经理

扫描二维码推送至手机访问。

版权声明:本文由字母汇发布,如需转载请注明出处。

本文链接:https://www.izzi.cn/post/153982.html

分享给朋友:

“搜索产品经理(2):认识网络爬虫” 的相关文章

产品要快速迭代吗

在互联网行业,快速迭代是非常重要的。以下是一些原因:1 抢占市场:互联网行业竞争激烈,市场变化迅速。通过快速迭代,可以更快地推出新功能或产品,抢占市场份额,确保自己处于竞争的前沿。2 用户反馈:快速迭代使得产品能够更快地获得用户反馈。通过收集用户的意见和建议,可以及时调整产品,提高用户体验,满足用户...

产品经理需要掌握什么知识

作为产品经理,需要掌握以下知识:产品理解:深入了解所负责的产品,包括产品的功能、目标用户、市场竞争情况等。通过对产品的全面理解,能够更好地制定产品策略和规划。用户研究:了解用户需求和行为,通过用户调研、用户访谈、数据分析等方法,获取对用户的深入洞察。这有助于产品经理更好地理解用户需求,设计出更符合用...

怎么理解产品的糙快猛

"糙快猛"是一种常用于描述产品开发和迭代过程的概念,它强调了在快速迭代中的三个关键要素:糙:指的是产品在初期阶段可能会存在一些不完善或粗糙的特性或设计。这是因为在快速迭代中,产品经理和团队可能会采用"先行动,再完善"的策略,即快速推出产品的初版,然后根据用户反...

为什么有些产品逐渐消失了

有些产品逐渐消失的原因可能包括以下几个方面:技术进步:随着技术的不断发展和进步,新的产品和解决方案可能会取代旧有的产品。新技术的出现可能会提供更高效、更便捷、更具创新性的解决方案,从而导致旧有产品的逐渐淘汰。变化的市场需求:市场需求是不断变化的,消费者的偏好和需求也在不断演变。如果一款产品无法适应市...

如何了解产品市场空间大小

了解产品的市场空间大小可以通过以下几种方式:市场调研:进行市场调研是了解产品市场空间大小的重要手段之一。通过调研目标市场的规模、增长趋势、竞争情况、用户需求等信息,可以初步评估产品在市场中的潜在空间。竞争分析:进行竞争分析可以帮助了解产品在市场中的位置和潜在空间。研究竞争对手的产品特点、市场份额、用...

解读产品能力有哪些方法

产品经理需要掌握多种方法来开展产品能力的相关工作。以下是对产品能力的不同方面的详细解读以及相关的方法:商业分析方法:SWOT分析:评估产品或企业的优势、劣势、机会和威胁,帮助制定战略和决策。PESTEL分析:分析政治、经济、社会、技术、环境和法律等因素对产品或企业的影响。竞争对手分析:调研和分析竞争...