《2024.搜索引擎:原理、技术与系统(第2版)》.pdf

《2024.搜索引擎:原理、技术与系统(第2版)》.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《2024.搜索引擎:原理、技术与系统(第2版)》.pdf

搜索引擎:原理、技术与系统(第2版) 猛点这里下载全部内容 目录: 第二版前言 第一版前言 第一章引论 第一节搜索引擎的概念 第二节搜索引擎的发展历史 第三节一些著名的搜索引擎 第四节小结 上篇web搜索引擎基本原理和技术 第二章Web搜索引擎工作原理和体系结构 第一节基本要求 第二节网页搜集 第三节预处理 第四节查询服务 第五节体系结构 第六节小结 第三章web信息的搜集 第一节概述 一、超文本传输协议 二、一个小型搜索引擎系统 第二节网页搜集 一、定义URL类和Page类 二、与服务器建立连接 三、发送请求和接收数据 四、网页信息存储的天网格式 第三节多道搜集程序并行工作 一、多线程并发工作 二、控制对一个站点并发搜集线程的数目 第四节如何避免网页的重复搜集 一、记录未访问、已访问URL和网页内容摘要信息 二、域名与IP的对应问题 第五节搜集信息的类型 第六节小结 第四章对搜集信息的预处理 第一节索引网页库 第二节网页编码识别 一、基本而重要的概念 二、常用字符编码 三、常用字符编码算法 四、字符的输入和显示 五、编码识别 第三节中文自动分词 第四节分析网页和建立倒排文件 第五节小结 第五章信息查询服务 第一节检索的定义 第二节查询服务的实现 一、结果集合的形成 二、查询结果显示 第三节小结 中篇对质量和性能的追求 第六章可扩展搜集子系统 第一节天网系统概述和集中式搜集系统结构 一、天网系统结构 二、集中式搜集系统 第二节利用并行处理技术高效搜集网页的一种方案 一、节点间15RI。的划分策略 二、关于性能的讨论 三、性能测试和评价 四、系统的动态可配置性设计 第三节天网分布式搜集系统 第四节对DeepWeb的认识 一、DeepWeb的成因 二、搜索DeepWeb的方法 第五节小结 第七章网页净化与消重 第一节网页净化与元数据提取 一、DocView模型 二、网页的表示 三、提取DocView模型要素的方法 四、模型应用及实验研究 第二节网页消重算法 一、消重算法 二、算法评测 第三节小结 第八章高性能检索子系统 第一节检索系统基本技术 一、系统设计与结构 二、索引创建 三、检索过程 第二节适于查询的网页索引结构 一、倒排索引结构 二、平面位置索引 第三节倒排索引压缩 一、倒排索引压缩技术 二、词典与倒排表的压缩 第四节索引剪枝 一、静态索引剪枝方法 二、动态索引剪枝方法 第五节混合索引技术 一、混合索引的原理 二、混合索引的实现 第六节倒排文件缓存机制 一、倒排文件缓存 二、负载特性 三、缓存策略的选择 第七节小结 第九章相关排序与系统质量评估 第一节传统IR的相关排序技术 第二节链接分析与相关排序 一、链接分析 二、Web查询模式下的新信息 第三节相关排序的一种实现方案 一、形成网页中词项的基本权重 二、利用链接的结构 三、收集用户反馈信息 四、计算最终的权重 第四节信息检索技术评估 一、信息检索技术评估指标 二、TREC和CWlRF信息检索评估 三、搜索引擎技术评估 第五节小结 下篇web信息资源的组织与应用服务 第十章大规模web历史网页仓储系统的构建 第一节国外web历史网页保存现状 一、IntemetArchive 二、PANDORA 三、其他相关Web保存项目 第二节中国web信息博物馆的系统设计 一、WebInfoMall的设计目标 二、’WebInfoMall的体系结构 第三节历史网页的存储 一、数据的组织 二、存储结构 三、数据管理与压缩 四、存储性能 第四节数据访问 一、PageID的索引 二、URL的索引 三、数据服务 四、性能与优化 第五节网页的格式保存 第六节小结 第十一章大规模web非网页信息仓储系统的构建 第一节网络资源库藏相关工作 一、Ibiblio 二、InternetArchive 二、W1kimedia 四、中国互联网数字资源财富库藏 第二节CDAL系统概况 第三节CDAL系统设计 一、系统体系结构 二、可扩展的存储组织方案 第四节网络资源描述信息获取 一、0ntology概述 二、描述信息获取机制 三、改进查询的方法 四、改进排序的方法 第五节基于局部聚类思想的共现词汇算法 一、基本定义 二、H)C共现词汇算法 第六节小结 第十二章中文网页自动分类与聚类 第一节文档自动分类算法的类型 第二节实现中文网页自

文档评论(0)

wgvi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档