智能计算助力互联网的进化.pptx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
智能计算助力互联网的进化 2009年11月24日公司简介海量公司是一家从事中文智能计算和数据挖掘的理论研究及技术开发的知识性创新企业,长期致力于智能计算的研究及其在互联网的应用从字符到语义从非结构化到结构化行为分析在核心技术基础上,提供智能计算基础件产品和互联网内容挖掘服务 互联网现状(1) CNNIC的最新报告显示,截止今年6月30日,我国网民规模、宽带网民数、国家顶级域名注册量三项指标持续稳居世界第一,其中: 国家顶级域名注册量达 1296万网民规模达 3.38亿,较去年底增长 13.4%宽带网民规模达 3.2亿,占总网民数的 94.3%手机上网用户达 1.55亿,半年内增长了 32.1%网络普及率达 25.5% 互联网现状(2) 纵观全球: 互联网每天的点击数有 1000亿 次全球所有的网页之间有 55万亿 个连接互联网中有 10亿 个芯片每秒 2百万 封邮件;3.1万 条短信246HB 的存储空间 -- 多么大的一个磁盘互联网上每秒产生的流量有 7TB 之多互联网消耗了全球电力的 5% 互联网现状(3) 数据累积量急剧增长、大量有价值的信息被淹没,呈现“信息过剩”信息是异域、异构、非结构化的,呈现“信息孤岛“ 实质“资源利用率低”:Google VS 百度互联网阴霾之概括:多 – 信息过量、难以消化杂 – 信息真假、难以识别乱 – 信息安全、难以保证难 – 信息形式不一、难以统一处理互联网未来转量变为质变依赖网站模式创新: 原创型、专业性、地域性、互动性。。。网站技术创新:智能计算、数据挖掘、信息融合。。。 以内容为纽带,将整个互联网搭建成一个语义逻辑整体 从字符到语义应用层次知识网络:实体属性-关系库新词发现知识网络:概念树自动消重基于命名实体的分类半监督自动分类技术基于命名实体的聚类有指导自动分类(层级分类)基于命名实体的关联无指导自动聚类半监督学习NLP搜索机器翻译关键词技术命名实体识别分词命名实体、事件、主题标注研究层次 从非结构化到结构化H2X信息抽取技术视觉还原技术版式识别技术 创建知识网络弱链接与强链接:发现潜在的信息桥梁NBACBA麦迪科比王治郅刘玉栋乔丹姚明朱芳雨链接中国男篮与美国男篮的桥梁姚明即是NBA的强链接,又是NBA群与CBA群间的桥梁——结构洞通过命名实体识别、实体间关系挖掘获得关系统计数据,从而在互联网的海量数据中发现潜在的规律解决方案:海纳在线数据挖掘服务TXT, XML, HTML…DOC, XLS, PDF, DB…图像, 音频, 视频形式化分析自然语言分析结构化信息RDF、RDF Scheme解决方案:延伸阅读-用户体验和智能对应某发布网页,通过增加一些相关的文章题目与摘要,引导读者阅读更多的内容利用实体识别与关系分析等智能计算手段,实现 聚类、实体与主题提取精彩计算,随需而变点亮阅读、增加粘度 降低制作成本、盘活已有资源更精准,更易于互动、实现个性化解决方案:热点发现、跟踪与预测(1)传统的方法:热点词 -- 只有发生了很久,才能通过统计得知是热点现在的方法:时间维度与类别维度 --满文军 是明星,萧淑慎 是明星,吸毒只要和这些人相关就是敏感新闻未来的方法: 时间维度, 同现维度及敏感维度 -- 大批银行倒闭之后,必然是经济危机的开始,于是可以预测未来解决方案:热点发现、跟踪及预测(2)未来的方法乔布斯 披露健康状况 苹果 股票应声上涨乔布斯 宣布要休病假 苹果 股票应声下跌10%… 乔布斯与苹果股价:一种稳定的关系股票人物乔布斯的健康情况直接影响到了苹果股价中石化苹果乔布斯巴菲特中石油杨惠妍解决方案:智能检索与推送用户行为分析、意图识别、智能引导时序统计房地产命名实体属性库0.1房产名称0.40.5房贷房价买房0.2专家预测新盘用户行为分析实体关系库 解决方案:舆情分析与跟踪基于知识网络的智能计算:实现通过网络了解民情、汇聚民智别克昂克雷在论坛、博客等识别出的命名实体将可以获取民间的产品评价为什么要识别?句子中会有歧义,错误的提取产品名将会导致错误的分析解决方案:个性化服务通过用户行为分析,采用相应的多维度的兴趣描述、多方面的推送策略词群资讯分类知识树父节点敏感性T男女喜好年龄偏好…总频率姚明、火箭NBA当下不敏感偏男性/80%14~40…4117932贷款、房产房地产当下敏感偏男性/75%24~50…562144…………………LV,PRADA流行当下不敏感偏女性/90%16~35…3127针对男性、24~40进行聚类,获得一个个子群体,通过更多的词群予以表示解决方案:网站净化服务解决方案:网站净化服务(案例)“和讯网”垃圾帖过滤净化 --》疏导助力客户增效,即提升清除效果、网站运营、品牌价值省力,即节省人力、财力、心力创建稳定、和谐的网站环境达到客户期望的效果人员等成本节

您可能关注的文档

文档评论(0)

文档收藏爱好者 + 关注
官方认证
内容提供者

事业编考题需要答案请私聊我发答案

认证主体莲池区卓方网络服务部
IP属地广东
统一社会信用代码/组织机构代码
92130606MA0GFXTU34

1亿VIP精品文档

相关文档