
网APP上,页面的很多篇幅用在广告、搜索推荐和其他链接上。APP搜索工具关注的是APP本身要表达的信息,所以在通过爬虫获取到页面源码之后,要去除那些与本文无关的噪声,抽取到APP正文。第二步:分字。藏文文字区别于汉文,汉文是一个字使用一个编

藏文APP倒排索引。
第一步:抽取APP正文。APP正文是相对APP噪声而言。当今的互联网APP上,页面的很多篇幅用在广告、搜索推荐和其他链接上。APP搜索工具关注的是APP本身要表达的信息,所以在通过爬虫获取到页面源码之后,要去除那些与本文无关的噪声,抽取到APP正文。
第二步:分字。藏文文字区别于汉文,汉文是一个字使用一个编码,而藏文是对组成字的基字编码,一个完整的藏文字可能存在多个编码,这些编码按组成藏文字的方法顺序排列。
第三步:对全文以字建索引。以字建索引,虽然检索过程的匹配计算量会更大,但考虑到目前藏文APP总体数量不大,应该是一种可行的提高查全率的办法。根据上一步得到的字,记录每个字在文中出现的位置,计算每个字出现的次数,建立链表。位置用于检索时的准确定位,次数用于计算字对文档的重要性,也用于相关性排序计算。