PostgreSQL jieba中文分词器安装与使用

作者：崔鹏

原创

发布时间：2023-12-19 10:08

浏览量：3183

作者：崔鹏,曾获得中国PostgreSQL数据库管理高级工程师(PGCM),是PostgreSQL官方认证讲师,Mysql 5.7/8.0 OCP,Oracle 11g OCM。

windows下安装匹配版本python-3.4.3.amd64.msipostgresql-10.1-2-windows-x64.exelinux下安装python3unzip python3.4.3.zip压缩包./configure --prefix=/opt/python34/ --enable-shared CFLAGS=-fPIC ALLUSERS=1$ make && make altinstallmv /usr/bin/python /usr/bin/python2.7.5这里有两个路径: /usr/bin/python 是原位置，所以备份一下。ln -s /opt/python3410/bin/python3.4 /usr/bin/python安装结束 查看版本python –V解压jieba-master.zip压缩包,进入目录执行安装命令。该包可以在github上下载到。Python setup.py install –安装jieba分词器测试是否安装成功psql -h 127.0.0.1 -p 5432 postgres postgrespsql -h 127.0.0.1 -p 5432 postgres postgrescreate language plpython3u; --创建python语言支持select * from pg_language;--创建测试函数create or replace function to_tsv(i_text text) returns tsvector as $$  import jieba seg_list = jieba.cut(i_text, cut_all=True); return("".join(seg_list))$$ language plpython3u;select to_tsv('我爱北京天安门');

jieba.cut 方法接受三个输入参数: 需要分词的字符串；
cut_all 参数用来控制是否采用全模式；
HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数：需要分词的字符串；
是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。
注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。
jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

登录
手机号
密码
	注册忘记密码

找回密码
手机号
图形验证码
短信验证码
新密码
确认新密码

注册
手机号
图形验证码
短信验证码
密码
确认密码

操作系统

数据库

云计算

大数据

人工智能

网络安全

管理

软考

PostgreSQL jieba中文分词器安装与使用

操作系统

数据库

云计算

大数据

人工智能

网络安全

管理

软考

PostgreSQL jieba中文分词器 安装与使用

PostgreSQL jieba中文分词器安装与使用