摘要:深网入口自动识别是深网数据集成的前提和基础。由于表单在设计上具有较大的随意性,使得深网入口缺乏统一的构建标准,难以利用确定性的规则对其进行判断。首先基于统计特征,抽取了部分表单属性作为深网入口与非深网入口的可区分特征,在此基础上,提出了一种利用神经网络进行深网入口自动识别的方法。不同于基于规则的判断方法,
神经网络是被训练的,不需要任何先验知识,这种特性使其非常适合于对具有复杂表现形式的深网入口进行判定。实验结果表明了该方法的有效性。
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)