机读格式显示(MARC)

000 01195nam0 2200253 450

001 0000549998

005 20210616085900.0

010 __ |a 978-7-03-063546-4 |d CNY130.00

092 __ |a CN |b 人天943-0615

100 __ |a 20200824d2020 em y0chiy50 ea

101 0_ |a chi

102 __ |a CN |b 110000

105 __ |a y z 000yy

106 __ |a r

200 1_ |a Web中文舆情信息挖掘 |A Web Zhong Wen Yu Qing Xin Xi Wa Jue |f 王天志著

210 __ |a 北京 |c 科学出版社 |d 2020.08

215 __ |a 192页 |d 26cm

330 __ |a 首先论述网页提取：对网站链接进行过滤以缩小搜索范围，提高搜索准确度、效率和可行性；通过选择精当检索词、遴选相关主题词，增强搜索的精度和效率；根据HTML生成DOM树，根据不同模板类型进行正文抽取和正文过滤。其次阐述了文本的特征向量表示，用分词词典将中文文本进行分词，分词的过程中进行了歧义分析，将分词后的文本用特征向量表示，通过去停用词、进行词性标注、同义词替换等进行文本的特征降维。再讲述文本聚类与分类，包括文本特征加权、主成份分析和基于模糊矩阵的蚁群聚类。最后讲述文本的倾向性分析。

333 __ |a 互联网络舆论信息处理技术人员

606 0_ |a 互联网络 |A Hu Lian Wang Luo |x 舆论 |x 信息处理

690 __ |a G202 |v 5

701 _0 |a 王天志 |A Wang Tian Zhi |4 著

801 _0 |a CN |b 人天书店 |c 20200826

905 __ |a WXCSXY |d G202/199