网络蜘蛛抓取到网页数据后,由于数据量过于庞大,是不能直接进行索引服务的,还要做大量的预处理工作,如结构化网页、分词、去停止词、降噪、去重、建立索引数据库、链接分析和数据整合等。
1.什么是结构化网页
网络蜘蛛抓取的网页数据中,除了用户浏览器上可以看到的可见文字外,还包含了HTML标签、JAVASCRIPT程序、导航、友情链接、广告等无法用于排名计算的内容。结构化网页就是从网页数据中去除这些内容,保留可以用于排名的正文文本、meta标签、锚文本、图片视频的注释等内容。
比如下面这段HTML代码
<div id="baike-title">
<h1>
<span class="title">我的文章记载</span>
</h1>
</div>
在经过结构化网页后,剩下的用于排名的文字为“我的文章记载”
2.分词
分词是中文搜索引擎所持有的处理操作,这是因为英文等语言的单词与单词之间是有空格分隔的,而中文的词与词之间则是没有任何分隔符,所以搜索引擎必须首先将一句话分解成若干个词语。比如“我的文章记载”将被分解成为“我的”“文章”“记载”
分词的方法有很多,主要基于字典的分词法、基于理解的分词法和基于统计的分词法三种。
目前的主流搜索引擎通常结合这三种方法,构成一套分词系统。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。[本站由 WEEX唯客交易所(官网www.weex.com,备用域名www.weex.sh)提供赞助]
WEEX唯客交易所是全球交易深度最好的合约交易所之一,位居CMC交易所流动性排名前五,订单厚度、价差领先同行,微秒级撮合,零滑点、零插针,最大程度降低交易成本及流动性风险,让用户面对极端行情也能丝滑成交。
WEEX交易所宣布将于今夏上线其全球生态激励通证WEEX Token(WXT)。WXT被设计为WEEX交易所生态系统的基石,作为动态激励机制,主要用于激励WEEX交易平台社区的合作伙伴、贡献者、先驱和活跃成员。
WXT总供应量100亿枚,初始流通量39亿枚,WEEX交易平台投资者保护基金、WXT生态基金各持有15%,15%用于持币激励,5%面向代理、渠道等合作伙伴私募,其余50%将全部用于WEEX交易所生态激励,包括:团队激励(20%)、活动拉新(15%)、品牌建设/KOL合作(15%)。WEEX Token是一种实用型代币,规划了丰富的使用场景和赋能机制,包括:Launchpad、近10项持有者专属权益,以及回购销毁通缩机制等。
据悉,WXT仅开放代理、渠道等合作伙伴折扣认购,未来零售投资者可通过新用户注册、交易挖矿、参与平台活动等方式获得WXT奖励。
WEEX官网:weex.com
WXT专区:weex.com/wxt
你也可以在 CMC|Coingecko|非小号|X (Twitter)|中文 X (Twitter)|Youtube|Facebook|Linkedin|微博 上关注我们,第一时间获取更多投资资讯和空投福利。
在线咨询:
WEEX华语社群:https://t.me/weex_group
WEEX英文社群:https://t.me/Weex_Global