【2023.05】XN-AI人工智能工程师-NLP必备技能-完结-无课件(15.43G)

01-自然语言处理基础知识与操作

第一章自然语言处理基础

概述

文本数据、字、词、term【www.itzyku.com】






字符串处理【www.itzyku.com】

# 1. 清理与替换
en_str = ' hello world, hello, my name is HanXiaoyang! '
# 去空格及特殊符号
# strip() 去除首尾空格
# lstrip: 首
# rstrip: 尾
res = en_str.strip().lstrip().rstrip()
print(res)

# 字符替换 (精准匹配) -> 返回替换后的字符串
res = en_str.replace('hello', 'hi')
print(res)

zh_str = ' 大家好,我叫陆超 '
# 去空格和特殊字符
res = zh_str.strip().lstrip().rstrip()
print(res)

# 字符串替换
res = zh_str.strip().replace('陆超', '寒小阳')
print(res)

# 删除
res = zh_str.strip().replace('大家好,', '')
print(res)

# 2. 截取
my_str = '大家好,我是李雪琴,我在北京大学,你吃饭没呢?'

# 从左到右index从0开始,可以用index进行切片(左闭右开)
res = my_str[0:3]
print(res)

# 从左到右index从0开始,可以用index进行切片(左闭右开)
res = my_str[4:4 + 5]
print(res)

# 从右到左index从-1开始,可以用index进行切片(左闭右开)
res = my_str[-1 - 5:-1]
print(res)

# 间隔截取
res = my_str[::2]  # 隔一个取一个
print(res)

# 翻转
res = my_str[::-1]
print(res)

# 3. 连接与分割
str1 = '大家好,我是陆超,真好!'
str2 = '大家好,我是李雪琴,你吃饭没呢?'
print(str1 + str2)

# 通过join方式连接
strs = ['我是陆超', '我是李雪琴', '我是xxx,好high哟,感觉人生已经达到了高潮,感觉人生已经达到了巅峰']
res = ';'.join(strs)  # 连接strs里的句子,用;隔开
print(res)

# split切分
tmp_str = '我是陆超;我是李雪琴;我是xxx,好high哟,感觉人生已经达到了高潮,感觉人生已经达到了巅峰'
print(tmp_str.split(';'))

# 4. 比较与排序
en_strs = ['ABc', 'aCd', 'CdE', 'xYz']

# 以字母序排列,不改变原list,返回排序后结果
print(sorted(en_strs))


# 自定义排序方式
def sort_fun(x):
    return x[1].lower()


# ['ABc', 'aCd', 'CdE', 'xYz']
print(sorted(en_strs, key=sort_fun))

# ['ABc', 'aCd', 'CdE', 'xYz']
print(sorted(en_strs, key=lambda x: x[2].lower()))

# 5. 查找与包含(精确查找)

# 查找可以用index和find
zh_str = '我是陆超;我是李雪琴;我是毛毛姐,好high哟,感觉人生已经达到了高潮,感觉人生已经达到了巅峰'

# 2
print(zh_str.index('陆超'))
# 13
print(zh_str.index('毛毛姐'))
# error
# print(zh_str.index('来了老弟'))

# 13
print(zh_str.find('毛毛姐'))
# -1
print(zh_str.find('来了老弟'))

# 6. 大小写及其他变化
en_str = 'hello, my name is Patrick'
print(en_str.lower())
print(en_str.upper())
# 首字母大写
print(en_str.capitalize())

help(str)

模式匹配与正则表达式【www.itzyku.com】

字符串基本处理与正则表达式文本匹配与替换【www.itzyku.com】

一章小结【www.itzyku.com】


 上一篇
【2023.04】SDZY-AI大赛年度视频-无课件(28.08G) 【2023.04】SDZY-AI大赛年度视频-无课件(28.08G)
打造舒适的 AI 开发环境01-【kaggle 新赛】酶稳定性预测大赛05-【01 课】赛题介绍 + Kaggle 平台学习 + 开发环境搭建 + 比赛数据探索性分析_ev 8 步进行建模 kaggle 比赛 比赛目的
2023-08-23
下一篇 
【2023.07】GP-人工智能深度学习系统班-完结-课件齐全(189.14G) 【2023.07】GP-人工智能深度学习系统班-完结-课件齐全(189.14G)
01 直播课回放02 深度学习必备核心算法01 神经网络算法解读03 深度学习核心框架 PyTorch01 PyTorch 框架介绍与配置安装01 PyTorch 框架与其他框架区别分析 2015 caffe 写配置文件就能搭网络,安装麻烦
2023-08-21
  目录