首页
业务
关于
客户
服务
联系
13520390899
资 深 的 互 联 网 开 发 服 务 商
专注于 网站开发 / 小程序开发 / APP开发 / 软件开发
网十科技 > 动态

手机APP开发APP正文内容抽取方法

因此,高乐等人提出一种改进的VIPS算法,算法针对<table>标签的处理进行优化处理,并通过实验证明了改进算法正确率得到了提升。此外,还有一些不基于DOM树对APP文本提取的方法,例如《

APP正文内容抽取方法,该算法思路是先需要对Web页面进行分块处理,处理结果同样利用DOM树原理进行解析,然后集合阈值计算和正则表达式,对于处理APP正文准确率较高。

非基于DOM的Web页面提取技术比较著名就是微软亚洲研究院提出的VIPS基于视觉的APP分块算法。该算法从用户的视觉感官体验出发,根据Web页面的背景色、前景色、元素之间的间距来对Web页面进行视觉划分,建立相应的分割条和APP分块集,基于此基础再进行文本信息的抽取,算法规则十分复杂。目前很多Web页面的视觉特点也很复杂,VIPS算法针对此类页面时准确率和效率较差。因此,高乐等人提出一种改进的VIPS算法,算法针对<table>标签的处理进行优化处理,并通过实验证明了改进算法正确率得到了提升。

此外,还有一些不基于DOM树对APP文本提取的方法,例如《基于权值优化的APP正文内容提取算法》的通过统计分析Web页面正文内容特点,得到页面中各个文本内容块属性特征,并使用粒子群优化算法对特征权值及阈值进行了确定及优化。

7x24
售后服务支持
10
故障时长赔付
16
16年行业服务经验
20
售后服务人员
70
设计、开发团队
10
国内顶尖技术专家
1000
大型及上市企业
版权所有 © 北京网十互动科技有限公司 动态 知识 数据 XML 索引 备案号:京ICP备16050073号-2

电话咨询