情感词库当中包括中文停用词库(chineseStopWords),利用进行分词处理。包括程度级别词语(中文)、否定词、正面情绪词和负面情绪词,停用词是指在信息检索中频繁出现但没有太多实际含义的词汇,如“的”、“是”、“在”等。去除这些词汇有助于减少噪音,提高文本处理效率。例如,在构建词袋模型或TF-IDF矩阵时,去除停用词能更准确地反映文本特征。程度级别词语指的是表示程度的副词,如“非常”、“极其”、“稍微”等。这些词语在情感分析中尤为重要,因为它们能够增强或减弱后续词语的情感强度。正确识别并处理这些词语有助于更准确地评估文本的情感倾向。否定词如“不”、“没”、“无”等,在情感分析中同样关键。一个否定词可能会改变其后词语的情感极性。例如,“不好”表达的是负面情感,而不是正面情感。因此,正确处理否定词对于情感分析准确性至关重要。 情绪词库包含了表达正面或负面情感的词汇,如“好”、“快乐”、“坏”、“悲伤”等。这些词汇直接反映了文本的情感倾向,在情感分析中用于计算文本的整体情感得分。结合程度级别词语和否定词一起使用,可以更准确地捕捉文本中的复杂情感变化。
1