时间:2021-05-28 08:00:57 | 栏目:Python代码 | 点击:次
最近在文本预处理时遇到这个问题,解决方法如下:
import re
str1 = ' rwe fdsa fasf '
str1_after = re.sub(' +', '', str1)
print(str1_after)
进一步的,可以将多个数字转换为特定符号,如‘num',这一步在自然语言预处理中也常用,因为有时候我们并不关心是什么数,只关心是不是数字。
import re
str1 = '我的电话18888888888,邮箱1111111@qq.com'
str1_after = re.sub('\d+', 'num', str1)
print(str1_after)