
大数据价值挖掘的难点和重点:非结构
化数据处理
大数据分析和应用得到了各个行业的关注,人们试图从大量数据中发现蕴含的模
式和规律,进而产生更多的价值,“数据”作为分析对象在这个过程中所起到的
作用是决定性的。本文对结构化数据、非结构化数据、数据结构、关系型数据库、
实体关系图、数据模型等我们熟悉的概念进行剖析,说明它们之间的联系和区别。
指出非结构化数据处理是大数据分析技术的难点和重点,是提升大数据价值挖掘
深度的宝剑,在大数据的教学、研究、学习和应用开发中,围绕非结构化数据处
理应当成为核心和重点。
数据这个概念对于每个人来说,是再熟悉不过的,我们生活在数据的世界
里,在将来智能发达的时代里更是一刻也离不开数据。然而在千变万化的各种数
据中,是否存在一些稳定不变的本质?在变化中寻
找不变是科学探索的一条重要思维原那么。
各种形式的数据可以归结为结构化数据、半结构化数据和非结构化数据三
大种类。它们的区别在于数据的表示是否存在预先定义好的数据模型,因此什么
是数据模型是深入理解大数据的关键。数据模型
是一种抽象模型,用于表达数据含义的构成单元及其它们之间相互关系、数据与
现实世界之间的对应关系。
数据模型包括三种相对独立的层次上的模型。
一是物理数据模型,表示了数据在计算机中存储的物理结构,通常是数据
库中的分区、表空间、段、文件等。
二是逻辑数据模型,表示了数据在计算机中进行计算处理的逻辑结构,通
常是数据表、歹I」、对象、符号、树等。通常所说的数据结构是在计算机中高
效存取和运算数据的一种表示方法,是逻辑数据模型的组织形式,选择好一个数
据结构能加快计算过程。
三是概念数据模型,表示了数据所表达的事实,即它们与现实世界的关系,
通常是实体、属性、实体关系等。有时候也称为语义数据模型,是数据在现实世
界的真实表示。
例如对于计算机来说,“图书”只是一个字符串,如何让计算机知道它所
代表的现实含义,这就需要数据模型要能够表达数据与现实世界的映射关系,由
此,可能要告诉计算机印刷的那种东西,进一步要告诉计算机什么是。
在逻辑数据模型方面,对于数据库管理系统(SQLNoSQL来说,其实现的逻
辑数据模型包括单表模型、层次模型、网络模型、关系模型等,后两者分别对应
于我们非常熟悉的图数据库、关系型数据库。但是,不管是层次、网络、关系或
其他类型的逻辑数据模型,都无法完全满足数据的概念定义要求。这是因为它所
能表达的范围是有限的,并且偏向于DBM新使用的实现策略。
在概念数据模型方面,实体关系模型是广泛被接受的模型之一,用于软件
工程中表示结构化数据。通常使用图形方式来表达,如图所示是一个实体关系模
型例子。
“图书”作为一种逻辑数据模型,由“书名”、“作者”、
“"、“出版日期”等单元构成,“作者”、也具有各自的实体描述。这种结
构化数据形式可以转化为关系型数据库中的表,如book
(name,author,publisher,publish_date),存储至U该表中的图书具有统一的
预先设定好的模型。不管是曾剑平编著的书,还是吴军编著的书,最后都必须结
构化为如下四元组的形式。
结构化数据:
(互联网大数据处理技术与应用,曾剑平,清华大学,2017)(数学之美,
吴军、人民邮电,2014)
而对于非结构化数据的表述方式,那么不存在这样的结构。由于缺乏统一
的结构限制,同样的含义就有不同的叙述方式,以下的文本表述就表达了同样的
含义。
非结构化数据:
“《互联网大数据处理技术与应用》一书是由曾剑平编著,并由清华大学
于2017年出版。”
“曾剑平编著了《互联网大数据处理技术与应用》一书,并于2017年由
清华大学出版。”
“清华大学于2017年出版了曾剑平编著的《互联网大数据处理技术与应
用》一书。”
等等。
半结构化数据具有自描述的数据模型。
半结构化数据:
(书名:互联网大数据处理技术与应用;曾剑平;:清华大学;出版日期:
2017)
这里的书名、作者、、出版日期就是自描述标签。
可见,结构化数据、半结构化数据、非结构化数据的最主要区别在于是否
存在预先定义好的数据模型,更确切的说是概念数据模型。
结构化数据能够用统一的某种结构加以表示,离开了这种结构,数据就没
有意义;非结构化数据没有概念数据模型形式的限制,可以自由表达;而
半结构化数据具有某种结构,但是数据本身带有结构的含义。
非结构化数据包含了文本、图象、声音、影视、超媒体等典型信
息,在互联网上的信息内容形式中占据了很大比例。随着“互联网+”战略的实
施,将会有越来越多的非结构化数据产生,据预测,非结构化数据将占据所有各
种数据的70-80%以上。结构化数据分析挖掘技术经过多年的发展,已经形成了
相对比较成熟的技术体系。也正是由于非结构化数据中没有限定结构形式,表示
灵活,蕴含了丰富的信息。
因此,综合看来,在大数据分析挖掘中,掌握非结构化数据处理技术是至关重要
的。
其挑战性问题在于语言表达的灵活性和多样性,具体的非结构化数据处理
技术包括:
(1)Web页面信息内容提取;
(2)结构化处理(含文文本的词汇切分、词性分析、歧义处理
等);
(3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相
关度、句法分析等)
(4)文本建模(含向量空间模型、主题模型等)
(5)隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)
等等。
这些技术所涉及的技术较广,在情感分类、客户语音挖掘、法律文书分析
等等许多领域都有广泛的应用价值。
本文发布于:2023-03-09 06:22:40,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/16783141616633.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:大数据挖掘.doc
本文 PDF 下载地址:大数据挖掘.pdf
| 留言与评论(共有 0 条评论) |