Textpipe:文本清洗与元数据提取
2022-04-23 15:14:48 55KB Python开发-自然语言处理
1
爬虫框架和文本清洗和文本向量化
2021-11-09 18:00:35 42KB 爬虫框架 文本清洗
1
HarvestText Sow with little data seed, harvest much from a text field. 播撒几多种子词,收获万千领域实 在和上同步。如果在Github上浏览/下载速度慢的话可以转到上操作。 用途 HarvestText是一个专注无(弱)监督方法,能够整合领域知识(如类型,别名)对特定领域文本进行简单高效地处理和分析的库。适用于许多文本预处理和初步探索性分析任务,在小说分析,网络文本,专业文献等领域都有潜在应用价值。 使用案例: (实体分词,文本摘要,关系网络等) (实体分词,情感分析,新词发现[辅助绰号识别]等) 相关文章: 【注:本库仅完成实体分词和情感分析,可视化使用matplotlib】 (命名实体识别,依存句法分析,简易问答系统) 本README包含各个功能的典型例子,部分函数的详细用法可在文档中找到: 具体功能如下: 基本处理
1
停词文件
2021-06-28 16:31:42 20KB 文本清洗 数据
1