咨询电话:023-88959644    24小时服务热线:400-023-8809
NEWS CENTER ·
新闻动态
关注中技互联 关注前沿

中文分词及文字的索引

发表日期:2013-06-25    文章编辑:    浏览次数:17    标签:

  搜索引擎抓取了大量的原始页面后并不能直接用来排名,用户搜索的时候开程序来计算排名无法在1秒2秒内算出结果,是以抓取了之后必须先预处理这样来为存库之后的查询做准备。重庆网站建设

  首先进行的第一步就是提取文字,搜索引擎发展至今还是主要以文字为主,当一大串代码的时候,搜索引擎一般会抓取Mete标签中的文字,图片ALT文字,锚文字,网页中的文字等。重庆专业建站

  中文分词是针对中文特有的一种分词方式,英文来说一般都有分隔符,搜索引擎可以直接根据分隔符来判断词。而中文一般一句话都是连接在一起的是以需要分词。比如SEO基础服务这个词,就有可能被分为SEO、基础、服务这三个词。

  分词有两种基于词典的方式讲一段汉字吧按照事先准备好的词典按照扫描长度混合匹配最后出来最大的匹配度,而统计的方法则是在于根据几个相邻次在这个互联网上出现的次数比例来分词。重庆网站设计

  通过谷歌搜索搜索引擎优化查看快照会发现谷歌会把词分成 搜索 殷勤 优化 三个词,而百度则会显示为搜索引擎优化显然百度的出现更为合理。重庆网站优化

如没特殊注明,文章均为中技互联原创,转载请注明来自www.zjcoo.com
上一篇:视频推广方法详细介绍 下一篇:已经是最后一篇了
相关新闻

CopyrightZJCOO technology Co., LTD. All Rights Reserved.    

渝ICP 备11003429号

  • qq客服
  • 公众号
  • 手机版
  • 新浪微博