只为小站
首页
域名查询
文件下载
登录
使用python进行文本预处理和提取特征的实例
如下所示:
文本过滤
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点 result = re.sub(r'[^\u4e00-\u9fa5]', ,content)#只保留中文 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点和数字 r
2022-12-20 13:07:40
40KB
jieba
python
python实例
1
上市公司年报_Python中
jieba
_数字化_关键词词频统计_程序+年报样例
上市公司年报_Python中
jieba
_数字化_关键词词频统计_程序+样例
2022-10-13 18:48:03
245KB
python
词频统计
上市公司年报
数字化
基于
jieba
、gensim.word2vec、LogisticRegression的搜狐新闻文本分类-附件资源
基于
jieba
、gensim.word2vec、LogisticRegression的搜狐新闻文本分类-附件资源
2022-09-23 14:39:28
106B
1
《中文
jieba
分词》总结
针对
jieba
分词作业做一个总结,方便以后查看。 中文分词 分词,即切词,在NLP文本预处理中经常使用一些方法来对文本进行分词,从而使文本从“字序列”升级到“词序列”。 为什么要进行分词?在中文中,一个个汉字有其自身的含义,但是组成词语时,其含义可能会发生很大的变化,使得之后进行文本处理任务时不能很好的理解句子的含义。(比如“和”,“平”,“和平”,三者的含义有很大的不同。)另外,从字序列升级成词序列,可以使模型能够得到更高级的特征。 分词算法有很多,比如正向最大匹配算法,逆向最大匹配算法,双向最大匹配算法,基于统计的分词方法,隐马尔可夫模型分词法,神经网络分词法等等。
jieba
分词 ji
2022-06-27 16:44:41
60KB
ie
jieba
中文分词
1
jieba
词库+百度词库 (2).zip
包含
jieba
中文分词词库和百度中文分词词库,十分全面完整,总共有六十多万个词
2022-06-13 09:28:23
2.51MB
自然语言处理
人工智能
词库
1
Python统计西游记主要人物出场次数(使用
jieba
分词).zip
#Python统计西游记主要人物出场次数(使用
jieba
分词) 1. 建立西游记主要人物表及其别名; 2. 读入西游记原文txt文件并使用
jieba
分词; 3. 统计所有分词中出现各人名的次数。
2022-05-09 12:58:31
800KB
python
jieba
西游记
统计
Python编写的支持中文词云(wordcloud)GUI界面程序
Python编写的词云分析界面程序: 调用第三方库wordcloud
jieba
,生成介面操作的可执行文件。
2022-05-07 10:03:13
37.85MB
Python
wordcloud
GUI
jieba
1
news-search-engine:新闻搜索引擎
新闻搜索引擎 使用方法 安装python 3.4+环境(推荐或 ) 安装lxml html解析器,命令为pip install lxml 安装
jieba
分词组件,命令为pip install
jieba
安装Flask Web框架,命令为pip install Flask 进入web文件夹,运行main.py文件 :浏览器,访问输入关键字开始测试 如果想抓取最新新闻数据并编制索引,一键运行./code/setup.py ,再按上面的方法测试。 2020.4.5:添加抓取的爬虫程序。先运行./code/spider.chinanews.com.py爬取最近5天新闻(约2500条);然后注释./
2022-05-03 12:21:54
7.9MB
search-engine
flask
news
jieba
1
flask
jieba
切词 api + swaggerui
使用flask框架的完整python api. 关于
jieba
分词的使用。并且使用swagger ui良好的展示api文档。
2022-04-13 23:56:51
5KB
flask
swagger
ui
flask
1
jieba
青春有你2自定义python分词词典
jieba
青春有你2自定义分词词典,青春有你2评论爬取,青春有你2视频饭圈自定义分词词典,
jieba
分词Python分词词典
2022-03-28 09:45:31
499B
jieba
分词词典
自定义
Python
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
Vivado永久激活license(亲测可用)包(搜集的全部可用LICENSE)
模型预测控制MPC(模型预测电流控制,MPCC)的simulink仿真,2016b版本
凯斯西储大学(CWRU)轴承数据集(含数据包+整理Python程序+使用说明)
画程(版本6.0.0.127)setup个人版
2021华为芯片研发岗位笔试题
基于VMD算法的信号降噪.rar
拾荒者.exe同时ID扫描器IP扫描器
倒立摆的模糊控制(基于simulink仿真,适合初学者).rar
知网情感词典(HOWNET)
采用K-means聚类,实现多维矩阵的聚类,并进行可视化展示(matlab)
毕业设计:基于Python的网络爬虫及数据处理(智联招聘)
Microsoft Visual C++ 2015-2019 运行库合集,包含32位64位
故障诊断数据集及实现代码
先进PID控制Matlab仿真第4版-PDF+代码.zip
神经·模糊·预测控制及其MATLAB实现PDF + MATLAB程序
最新下载
opencv_python-4.1.0.25-cp37-cp37m-win_amd64.whl
ROBOPro 4.2.3汉化包
wampserver3.2.3安装包64位.rar
ZKM 12.0.1 Cracked.rar
魔兽 世界 TBC 怀旧服 防离线 跳跳 可隐藏窗口
Qt creator各版本下载
psp排序工具
深度学习抠图Composition-1k数据集
matlab洛伦兹代码-ring_resonator_analysis_Matlab:ring_resonator_analysis_Matl
一个基于vueadmintemplate的hexo博客后台管理项目采用SpringBootVue开发
其他资源
nRF52840开发指南-上册.pdf
基于MFCC和SVM的说话人性别识别
蚁群算法路径规划
图像分类残差网络-pytorch实现
wifi密码弱口令字典(使用频率最高)
道路交通标志识别,图像处理,代码,示例以及1000+高清原图样张(已经对里面50+类标志进行标注)
John数字通信第五版 英文原版PDF,附带书签
jsp库存管理系统
PHP微信转盘抽奖前后台+数据库(完整版)
uniapp js调用Android代码.zip
C++MFC实训_计算器_附实训报告
联想应用用户手册.doc
多级离心泵滚动轴承烧毁原因分析.rar
块状-源码
冷原子系统中的希格斯激发
Comparison of indoor robot localization techniques in the absence of GPS.pdf
parcial1:Parcial Practico Desarrollo网站-源码
猜拳小游戏(升级版)
重启式恶搞软件
基于Android平台的无线点餐系统的设计与开发
STK/Matlab