提取数据-格式化数据教程
2017-06-30 15:45:45 阅读量: 28458
本章主要介绍在提取数据步骤中,如何利用格式化数据对需要的字段进行修改。
示例网址:http://www.skieer.com/guide/demo/genremoviespage1.html
定义:格式化数据指对提取到的数据字段进行格式的改变使数据更加满足你的需求。
下面对格式化数据进行演示:
步骤一:点击自定义采集下的立即使用→输入网址并保存
步骤二:点击采集位置→循环采集元素→补充并修改提取元素步骤
说明:循环采集元素会采集所有信息,我们在补充并修改提取元素步骤进行了删除第一个字段操作,同时添加了我们需要的正确字段。
步骤三:格式化数据
选中要修改的字段→点击高级选项中自定义数据字段(如下图)→格式化数据→添加步骤
使用格式化数据的统一步骤,打开格式化数据并点击添加步骤后,可以看到有多个选项,下面我们分别对其进行讲述。
(1)替换
说明:替换是将字段替换为其他字段的步骤,例如示例中将肖申克的救赎中的救赎替换为月亮,在替换下输入需要替换的内容,在为下输入需要替换的内容,即将XX替换为XX。设置完成可以点击下方的计算验证是否替换。除了文字、数字、符号外,替换还可以替换空格、换行符等内容,假如只输入替换内容不输入替换为的内容,则形成替换的删除作用,将替换中的内容进行删除。
(2)正则表达式替换
说明:正则表达式替换是利用正则表达式匹配字段并进行替换,八爪鱼自带正则表达式工具,打开正则表达式替换后,点击下方 不懂正则?试试正则工具 打开正则表达式工具
如上图,源文本中显示字段内容,右侧勾选开始和结束操作规定需要匹配内容的边界,包含开始或包含结束负责判断是否将输入的边界页包含进去,勾选包含则如图匹配出肖申克,假如不勾选则匹配 。
包含一个即匹配出的内容必须包含此输入框中的内容才进行匹配,如:
将包含一个中“的”修改成“得”则匹配不到任何内容,因为肖申克的救赎中使用的是“的”。
正则表达式编写完成后,点击应用,表达式就会出现在正则匹配的匹配栏中,在替换为一栏中输入需要替换成的内容,点击计算预览替换效果,点击确定就可以完成匹配操作了。
(3)正则表达式匹配
正则表达式匹配是利用正则表达式完成对字段内容的匹配和提取,正则工具的使用方法参考正则替换。
如图,使用正则表达式匹配出肖申克内容。点击确定即可完成正则表达式匹配。
(4)去除空格
功能即是去除字段前后端的空格。
如图,字段开头有一串空格,选中去除两头空格后点击计算八爪鱼会去除两头的空格,也可以使用前两个选项去除开头或者结尾处的空格。点击确定便应用于字段中。
(5)添加前缀
功能即是在字段开头添加前缀。
如图,在前缀中输入要添加的内容,点击计算查看输出结果。示例中输入这是内容,点击计算后可以看到字段变为这是肖申克的救赎。点击确定后应用于字段当中。
(6)添加后缀
与添加前缀功能类似,添加内容在字段结尾部分。
如图,在后缀处输入要添加的后缀内容,点击计算查看输出结果。示例中输入才怪内容,计算后呈现肖申克的救赎才怪内容。点击确定后应用于字段当中。
(7)日期时间格式化
如图,点击日期时间格式化后,在格式处选择所需格式,可以将日期转化成你说需要的格式或者仅提取日期时间中的某一部分。选中格式后点击计算即可预览,从中选择适合的格式来使用。
(8).Html转码
Html语言是一种超文本标记语言,Html转码是将Html标记转化为普通文本,教程里不做过多介绍。
说明:格式化数据可以对同一字段进行多次格式化来达成需求,比如我们对示例网址进行格式化,下面进行示范
示例网址:http://www.skieer.com/guide/demo/genremoviespage1.html
格式化:提取genremoviespage1字段,并将其中movies单独提取出来,加上前缀使之变成示例movies.
步骤1.正则匹配,提取genremoviespage1字段
步骤2替换,将movies两端多余字段去除(此步骤也可用正则匹配完成)
注意:第一张图片为正则表达式替换,第二张图片为替换,两个都可以达成需求。
步骤3添加前缀
完成需求
灵活的使用格式化数据功能可以使你的数据提取工作更加适用。
步骤四:保存并启动→数据导出