本文研究了从网络获取到“三农”概念簇生成的整个过程。文中应用基于DOM的网页抽取的方法从网络版的《农业大词典》中抽取“三农”词条、释义;应用基于正则表达式抽取信息的方法抽取“三农”概念的口语名称;依据《农业大词典》中词条的释义部分的内容,提出了一个“三农”词表的构建结构和“三农”概念簇的概念,并通过利用KNN分类方法形成“三农”概念簇,为以后的“三农”知识研究提供了基础;通过实验的方法验证了本书人工选择特征的方式和利用布尔权重和KL变换作为特征权重的有效性。但是,“三农”概念簇的分类是一个平面结构,“三农”概念簇的树型结构分类还需要进一步研究。
<<
张军亮:张军亮,1983年生,河南省林州市人,南京大学情报学博士,新乡医学院副教授。主要研究方向为信息资源管理和信息服务等。在《情报学报》《情报杂志》等期刊发表论文10余篇,其中6篇被CSSCI收录,获河南省科技情报成果奖一等奖1项,参与国家社科基金3项、省部级课题3项,目前主持国家社科基金青年项目“基于语义关联的多源医学信息资源发现服务体系研究”。
<<