百科全书  > 所属分类  >  互联网   
[1] 评论[0] 编辑

深网

深网深网

深网(英语:Deep Web、Dark Web,又称、不可见网、隐藏网、暗网)是指互联网上那些不能被标准搜索引擎索引的非表面网络内容。

迈克尔·伯格曼将当今互联网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,巨量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎"看"不到,也获取不了这些存在于深网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,深网就隐藏了起来。据估计,深网要比表面网站大几个数量级。


目录

基本解释编辑本段

在文献中常见Deep Web连写的形式

整个Web看似杂乱无章,但如果按其所蕴涵信息的"深度"可以划分为Surface WebDeep Web两大部分。Surfaceweb是指通过超链接可以被传统搜索引擎索引到的页面的集合。Deep Web是指Web中不能被传统的搜索引擎索引到的那部分内容。广义上来说,Deep Web的内容主要包含4个方面:(1)通过填写表单形成对后台在线数据库的查询而得到的动态页面;(2)由于缺乏被指向的超链接而没有被搜索引擎索引到的页面,大约占整个比例的21.3%;(3)需要注册或其它限制才能访问的内容;(4)Web上可访问的非网页文件,比如图片文件、PDF和Word文档等。

而在实际中应用中,人们则更关注于Deep Web中的第一部分内容。其原因不难理解。这部分内容对结构化数据的集成更有意义,可以采用的技术也更丰富。Deep Web数据集成也主要是指对结构化信息的集成。我们同时把Web中可访问的在线数据库称为Web数据库或WDB。这些内容只有在被查询时才会由W eb服务器动态生成页面,把结果返回给访问者,因此没有超链接指向这些页面,这是和那些可以被直接访问的静态页面的根本区别。随着Web相关技术的日益成熟和Deep Web所蕴含信息量的快速增长,通过对web数据库的访问逐渐成为获取信息的主要手段,而对Deep Web的研究也越来越受到人们的关注。

深网资源编辑本段

  • 动态内容
  • 未被链接内容
  • 私有网站
  • Contextual Web
  • 被限制访问内容
  • 脚本化内容
  • 非HTML/文本内容

抓取方式编辑本段

​研究人员探寻了如何自动抓取深网内容。

2001年, Sriram Raghavan 和 Hector Garcia-Molina 发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的 Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程序。

商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap协议(始创于Google)和mod oai是允许搜索引擎和其他网络服务探索深网解决方法。以上两种解决方法允许网络服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网络表面的链接。Google的深网探寻系统预先计算每个 HTML 表单并且添加结果 HTML 页面到 Google 搜索引擎索引。在这个系统里,使用三种方法计算提交词: (1) 为输入搜索选择关键词允许的输入值、(2) 确定是否只接受特定的值(例如时间)和 (3) 选择少量的组合生成适合纳入网站的搜索索引网址。


特征现状编辑本段

与Surface Web相比,Deep Web蕴藏了更加丰富,更加"专业"(专注于某一领域)的信息。在2000年7月,Brightplanet对Deep Web做了一次较为全面的宏观统计,发布了Deep Web的白皮书 (在该文中Brightplanet对Deep Web的定义主要指的是Web数据库),指出整个Web上大约有43000~96000个Web数据库,并从宏观上对DeepWeb做了定量的调查统计,下面列出其中部分的调查结果:

  1. Deep Web蕴含的信息量是Surface Web的400~500倍。
  2. 对Deep Web数据的访问量比Surface Web要高出15%。
  3. Deep Web蕴含的信息量比Surface Web的质量更高。
  4. Deep Web的增长速度要远大于Surface Web。
  5. 超过50%的Deep Web的内容是特定于某个域的,即面向某个领域。
  6. 整个Deep Web覆盖了现实世界中的各个领域,比如商业、教育、政府等等。
  7. Deep Web上95%的信息是可以公开访问的,即免费获取。

整个Web是开放的、不断变化的,有效地评估当前整个DeepWeb的规模,即当前Deep Web上Web数据库的数量以及变化情况是十分重要的。

Deep Web 目录的覆盖率Deep Web 目录的覆盖率

UIUC大学在2004年4月对整个DeepWeb做了一次较为准确的估算,推测整个Web上有307000个提供Web数据库的网站、450000个Web数据库,比Brightplanet在2000年估计的50000个数据库网站的数目增长了6倍多。


DeepWeb中的Web数据库不但数量众多,而且覆盖了现实世界的各个领域。一些专门的机构,像CompletePlanet和InvisibleWeb等,构建了DeepWeb目录,按现实世界的领域对DeepWeb的内容做了分类,主要包括商业与经济、计算机与互联网、新闻媒体、娱乐等一共十几个分类。这只是宏观的分类,每个分类下面还有小的分类,比如科学可以继续分为社会科学与自然科学,而自然科学又可分为若干学科。在表1中可以看出,尽管这些网站对Web数据库进行了细致的分类,但所列出的Web数据库仅仅只是整个web数据库的很小的一个比例(即使最大的CompletePlanet也只有15.6%。因此从宏观上对Web数据库按现实世界的领域分类做一个定量的分析是十分迫切而且必要的工作。


对网站中所提供的查询接口提交查询来获得,图2是Amazon网站提供的查口。

查询接口示例查询接口示例


每个查询接口支持在若干个属性上进行查询,比如要查询某一本图书,可以根据书名、作者、价格等。这些属性就构成了查询接口的模式(Schema)信息。查询接口模式的大小是指属性的数目。查询接口顾名思义是外部访问Web数据库的门户,是从Web数据库中获取数据的主要途径,因此在web数据库研究领域,对查询接口的模式信息的研究占有极其重要的地位。

对DeepWeb信息的访问是通过在查询接口上提交查询,这和对搜索引擎的访问在某种程度上来说是相似的,但DeepWeb数据和搜索引擎二者之间是有着很大区别的:

(1)搜索引擎搜索结果是网页,而Deepweb中的搜索结果主要是结构化的数据。

(2)Web数据库通常有复杂的接口,而搜索引擎的接口较为简单,一般是关键字搜索。

(3)搜索引擎对结果的排序是根据搜索结果与所提交查询的相似性,Web数据库则是根据结果中对DeepWeb中信息的获取主要的途径是通过某个属性的值。

附件列表


1

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 Telegram    下一篇 Surface Web

标签

暂无标签

同义词