只为小站
首页
域名查询
文件下载
登录
jieba-lucene-analiysis:jieba的lucene中文分析器和令牌生成器
捷巴-lucene分析 jieba使用的lucene中文分析器和Tokenizer( )。
2023-01-24 17:11:16
5KB
tokenizer
analyzer
chinese
lucene
1
使用python进行文本预处理和提取特征的实例
如下所示:
文本过滤
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点 result = re.sub(r'[^\u4e00-\u9fa5]', ,content)#只保留中文 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点和数字 r
2022-12-20 13:07:40
40KB
jieba
python
python实例
1
上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例
上市公司年报_Python中jieba_数字化_关键词词频统计_程序+样例
2022-10-13 18:48:03
245KB
python
词频统计
上市公司年报
数字化
基于jieba、gensim.word2vec、LogisticRegression的搜狐新闻文本分类-附件资源
基于jieba、gensim.word2vec、LogisticRegression的搜狐新闻文本分类-附件资源
2022-09-23 14:39:28
106B
1
《中文jieba分词》总结
针对jieba分词作业做一个总结,方便以后查看。 中文分词 分词,即切词,在NLP文本预处理中经常使用一些方法来对文本进行分词,从而使文本从“字序列”升级到“词序列”。 为什么要进行分词?在中文中,一个个汉字有其自身的含义,但是组成词语时,其含义可能会发生很大的变化,使得之后进行文本处理任务时不能很好的理解句子的含义。(比如“和”,“平”,“和平”,三者的含义有很大的不同。)另外,从字序列升级成词序列,可以使模型能够得到更高级的特征。 分词算法有很多,比如正向最大匹配算法,逆向最大匹配算法,双向最大匹配算法,基于统计的分词方法,隐马尔可夫模型分词法,神经网络分词法等等。 jieba分词 ji
2022-06-27 16:44:41
60KB
ie
jieba
中文分词
1
jieba词库+百度词库 (2).zip
包含jieba中文分词词库和百度中文分词词库,十分全面完整,总共有六十多万个词
2022-06-13 09:28:23
2.51MB
自然语言处理
人工智能
词库
1
Python统计西游记主要人物出场次数(使用jieba分词).zip
#Python统计西游记主要人物出场次数(使用jieba分词) 1. 建立西游记主要人物表及其别名; 2. 读入西游记原文txt文件并使用jieba分词; 3. 统计所有分词中出现各人名的次数。
2022-05-09 12:58:31
800KB
python
jieba
西游记
统计
Python编写的支持中文词云(wordcloud)GUI界面程序
Python编写的词云分析界面程序: 调用第三方库wordcloud jieba,生成介面操作的可执行文件。
2022-05-07 10:03:13
37.85MB
Python
wordcloud
GUI
jieba
1
news-search-engine:新闻搜索引擎
新闻搜索引擎 使用方法 安装python 3.4+环境(推荐或 ) 安装lxml html解析器,命令为pip install lxml 安装jieba分词组件,命令为pip install jieba 安装Flask Web框架,命令为pip install Flask 进入web文件夹,运行main.py文件 :浏览器,访问输入关键字开始测试 如果想抓取最新新闻数据并编制索引,一键运行./code/setup.py ,再按上面的方法测试。 2020.4.5:添加抓取的爬虫程序。先运行./code/spider.chinanews.com.py爬取最近5天新闻(约2500条);然后注释./
2022-05-03 12:21:54
7.9MB
search-engine
flask
news
jieba
1
flask jieba切词 api + swaggerui
使用flask框架的完整python api. 关于jieba分词的使用。并且使用swagger ui良好的展示api文档。
2022-04-13 23:56:51
5KB
flask
swagger
ui
flask
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
西安问题电缆-工程伦理案例分析.zip
粒子群多无人机协同多任务分配.zip
transformer_pytorch_inCV.rar
基于LSTM模型的股票预测模型_python
机械臂避障路径规划仿真 蚁群算法 三维路径规划
中国地面气候资料日值数据集(V3.0)-201001201912.rar
多目标优化算法(二)MOEAD(附带NSGA2)的文档和代码(MATLAB)
2020年数学建模B题穿越沙漠全部代码全国赛二等奖.zip
elsevier 爱思唯尔 系列期刊的word模板,template,单栏,双栏
2019西门子杯六部十层电梯群控参考程序.zip
算法设计(中文版)和习题解答 Jon_Kleinberg著,张立昂译
基于matlab扩频通信系统仿真(整套代码)
毕业设计:基于Python的网络爬虫及数据处理(智联招聘)
大学生网页设计大作业-5个网页设计制作作品自己任选
基于MATLAB的水果图像识别
最新下载
Proxmark 3离线嗅探详细教程及工具
PM3离线嗅探数据分析.exe
Delphi and C++Builder 2010 update4/5 独立升级包
某宝支付SDK转H5及APP支付方法[代码]
基于树莓派4B与STM32的UART串口通信实验代码
天地图--矢量.zip
机器码修改
掌讯车机SD8227 新UI车速版-1024x600 版本6.6 ROM 带root
永磁无刷直流电机计算与仿真
【电机仿真设计】基于RMxprt的永磁直流有刷电机建模与性能五轴曲线分析系统
其他资源
SVPWM仿真详解
nios ii显示lcd1602程序
基于MATLAB的两输入两输出DMC控制教程整理
行人再识别Deep-reID_郑哲东
点餐小程序
AT89C51原理图
QT_PLC_MX_ACTIVE_LOOKING.zip
钢筋根数统计 matlab
线性和非线性方程以及常微分方程求解器Polymath Pro 6.0
Huawei_CodeFormatter.xml
Matlab把bmp彩色图片转成mif或者coe文件
读取Tiff文件中CMYK色彩模式存储的图像数据,并转换为RGB色彩模式
000001_DDD领域建模知识分享.pptx
智能家用插座的硬件设计开题报告(1).doc
迅捷FWR310 V4.0升级固件20141014
汽车TCS系统建模及控制逻辑研究
可以看看 刀光 粒子
AD16视频教程和封装库和原理图库
广联达深思S4全国版写锁+广材助手+552授权
西门子S7-200 PLC从入门到实践【程序源代码】
Unity3D武士2源码扩展插件
合肥工业大学数据结构试验五树和森林