用MATLAB 做文本挖掘 |
发布于:2014/11/04 |
数据挖掘,又称为数据中的知识发现,可以定义为“从巨大的数据存储库中提取有用的知识的科学”。顾名思义,文本挖掘就是从文本中进行数据挖掘的计算机处理技术。MATLAB 是美国MathWorks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。由于其强大的功能及开放性、良好的交互性和出色的图形曲线处理功能,使MATLAB 软件成为进行文本挖掘的理想工具。本书既阐述了文本挖掘的基本概念,同时又展示了使用MATLAB 软件实现文本挖掘的主要优点。 全书由3部分组成。第1部分 基础理论,介绍了使用MATLAB 语言环境进行文本操作的基本步骤和方法。包含第1-5章:1.引言;2.处理文本数据:用来处理文本的不同类型的变量,以及一些用于字符串操作和常用功能的函数;3.正则表达式:MATLAB 中正则表达式的特征及使用;4.字符串基本操作:例如查找、替换、分割、连接等基本的字符串操作,以及一些可以用于字符串和字符集的基本设置操作;5.读取和写入文件:常用的文件格式,关于目录和文件操作的一些基本功能。 第2部分 数学模型,包括第6-9章:6.基本语料统计;7.统计模型,N gram模型和模型插值的基本概念,BoW模型;8.几何模型,TD矩阵的概念及其扩展到向量空间模型表示,距离、相似性及最常用的相关性分值的相关概念;9.降维,词汇修剪与合并,以及一些基本的线性、非线性投影方法。 第3部分 方法和应用,包括第10-12章:10.文档分类,无监督聚类和监督分类以及术语提取的相关概念;11.文档查找,二进制搜索和基于矢量的搜索方法精确度和召回的基本指标,以及信息检索的一些基本概念;12.内容分析,极性估计和属性提取的相关概念。 本书内容丰富全面,层析分明,在每一章最后还有延伸性的阅读以及额外的练习和项目,以便于读者进行进一步的实验及研究。本书主要面向那些对文本挖掘技术有关趣的读者。 李亚宁,硕士研究生 来源:国外科技新书评介
|
|