机读格式显示(MARC)
- 000 01195nam0 2200253 450
- 010 __ |a 978-7-03-063546-4 |d CNY130.00
- 092 __ |a CN |b 人天943-0615
- 100 __ |a 20200824d2020 em y0chiy50 ea
- 200 1_ |a Web中文舆情信息挖掘 |A Web Zhong Wen Yu Qing Xin Xi Wa Jue |f 王天志著
- 210 __ |a 北京 |c 科学出版社 |d 2020.08
- 330 __ |a 首先论述网页提取:对网站链接进行过滤以缩小搜索范围,提高搜索准确度、效率和可行性;通过选择精当检索词、遴选相关主题词,增强搜索的精度和效率;根据HTML生成DOM树,根据不同模板类型进行正文抽取和正文过滤。其次阐述了文本的特征向量表示,用分词词典将中文文本进行分词,分词的过程中进行了歧义分析,将分词后的文本用特征向量表示,通过去停用词、进行词性标注、同义词替换等进行文本的特征降维。再讲述文本聚类与分类,包括文本特征加权、主成份分析和基于模糊矩阵的蚁群聚类。最后讲述文本的倾向性分析。
- 606 0_ |a 互联网络 |A Hu Lian Wang Luo |x 舆论 |x 信息处理
- 701 _0 |a 王天志 |A Wang Tian Zhi |4 著
- 801 _0 |a CN |b 人天书店 |c 20200826
- 905 __ |a WXCSXY |d G202/199