搜索引擎是怎样读取图片的

201109月05日

搜索引擎是怎样读取图片的 2011-09-05　2203次阅读出处：

目前主流图片搜索引擎中，大多数都是以文本链接或图像的ALT标签等HTML元素来辨别图像内容的，当然，也有根据图片本身的内容来做图像内容发掘。下面我们就详细讨论一下两种不同形式的图像搜索引擎的实现原理。 1．通过文本等第三方因素来辨别图片内容的图像搜索引擎当一个搜索引擎爬虫( spider)在网络中通过URL寻找新的网页时，它会通过HTTP协议来提取网页，并把网页的HTML代码传输给内容分析器。内容分析器会根据特定的HTML 代码（例如<img>标签）来寻找网页中所包含的图片。之后，搜索引擎爬虫会根据网页HTML代码中的title.heading标签、keywords标签、 discretion标签以及<img>标签中的<Alt>属性来判断这张图片的内容。同时，搜索引擎爬虫还会通过链接到该网页的外部链接来判断这张图片的内容。当搜索引擎能够基本判断本图片内容后，就会按照图片的内容对其进行归类，并以图片与关键词的相关度进行排序。以上实例，是一个单独的图片展示页面的HTML代码。这里添加了几乎所有以供网页爬虫分析内容的标签，主要目的就是为了让搜索引擎爬虫更便捷地了解图片的内容。在确定了图片的内容、分类后，搜索引擎将分析好的数据放置到索引数据库中，并自动为图片生成缩略图。当用户进行搜索时，搜索引擎根据图片的内容、相关度等因素对图片进行排序，将最准确的结果展示给用户。

2．通过分析图片本身来确定图像内容的搜索引擎目前通过图片本身的内容进行内容分析的搜索引擎并不多，其中最著名的就是华盛顿大学的Chuck Jacobs、Adan Finkelstein和David Salesin于2005年推出的Refflevr系统。Retrievr 系统的网络展示地址为：http://labs.systemone.aUretrievr/。 Retrievr系统的图像内容来自www.flickr.com网站用户上传的图片。该系统的原理是：对每张Flickr用户上传的图片进行色阶图相似性的分析，并利用色阶图和图谱差异对图片进行分类。当用户进行搜索时，只需要在Retrievr系统的涂鸦板上绘制一定的形状，系统就可以自动将所有与该涂鸦相似的图片推荐给用户。

首页

PC站

微网站

大数据

维护

邮箱

优化

推广