该研究在德克萨斯高级计算中心进行。Erk说道:“词汇的不同含义可以转化为空间中的不同点。在这个巨大的万维空间中,每一个点都对应一个词的释义。”然而要创建一个能够精确区别词汇意义的模型需要大量的文本以及在此基础上进行的大量分析。她指出,该研究至少需要1亿字的文本集。
利用优化的Hadoop子系统开发分布式程序,扩大了Erk及其同事的研究范围。Hadoop是一个软件构架,适用于各种文本分析,而且可以对非结构化数据进行数据挖掘,从而充分发挥大型计算机簇的优势。稿源:环球网科技
网站联系邮箱 E-mail:hangzhou@vip.sina.com 信息产业部网站ICP备案序号:皖ICP备11003032号-6