初学Hadoop之计算TF-IDF值-Hadoop - 大数据营销技术文章-网赢中国行业资讯

网赢中国专注大数据营销 [会员登录][免费注册][网赢中国下载]我要投稿|加入合伙人|设为首页|收藏|RSS【】

网赢中国是大数据营销代名词。

大数据营销

当前位置:网赢中国 > 行业资讯 > 技术文章 > 大数据营销技术文章 > 初学Hadoop之计算TF-IDF值-Hadoop

初学Hadoop之计算TF-IDF值-Hadoop

编辑：何海洋　发布时间： 2015-5-14 　　文章来源：博客园

大数据营销

1.词频

TF(term frequency)词频，就是该分词在该文档中出现的频率，算法是：（该分词在该文档出现的次数）/(该文档分词的总数)，这个值越大表示这个词越重要，即权重就越大。

例如：一篇文档分词后，总共有500个分词，而分词”Hello”出现的次数是20次，则TF值是： tf =20/500=0.04

　　考虑到文章有长短之分，为了便于不同文章的比较，进行'词频'标准化。

　　或者

2.逆文档频率

　　IDF（inversedocument frequency）逆向文件频率,一个文档库中，一个分词出现在的文档数越少越能和其它文档区别开来。算法是： log(总文档数/(出现该分词的文档数+1)) 。如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。

例如：一个文档库中总共有50篇文档，2篇文档中出现过“Hello”分词，则idf是： Idf = log(50/3) =1.2218487496

3.TF-IDF

　　TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。

3.1用途

　　自动提取关键词，计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

　　信息检索时，对于每个文档，都可以分别计算一组搜索词（'Hadoop'、'MapReduce'）的TF-IDF，将它们相加，就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。

3.2优缺点

　　TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以'词频'衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）

4.使用Hadoop计算TF-IDF

　　运行参数，第一个为文本存储路径，第二个为临时路径，第三个为结果输出路径

/home/hadoop/input /home/hadoop/temp /home/hadoop/output

更多相关： 大数据营销网络营销

免责声明：本文来源于博客园,本文仅代表作者个人观点，与网赢中国无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

有意与本网合作者请与《网赢中国》联系。未经《网赢中国》书面授权，请勿转载或建立镜像，否则即为侵权。

大数据营销

更多大数据营销资讯

复旦大学教授施伯乐：数据库产业前景美好 - 产品和技
DB2增强大数据支持 - 产品和技术-热点
大数据：市场规模达到4.5亿元(图)-热点
方物：国产虚拟化推动大数据能量倍乘-热点
TechFest 2013两大主题:人机交互和大数据-热点
汉诺威IT展：大数据引领IT技术新浪潮-热点
陈冲：云时代数据库发展需要高端人才 - 产品和技术

编辑推荐

雷军隔空喊话董明珠：格力小米欢迎你
杨元庆：Moto在华上市一周预定量超100万
小米洪锋谈O2O布局：做商城不做具体服务
盖茨向不知名实体捐赠15亿美元微软股票持股降至3%
刘强东：允许我获取数据冰箱免费送给你
那些年为域名闹过心的公司马化腾曾斥200万美元购q
小米林斌：小米发布的每款产品都会被很多人黑

图片行业资讯

资讯目录

营销资讯搜索

大数据营销

推荐工具

热点关注

大数据营销

行业资讯排行

企业想转型？先读懂这四个变化

盖茨向不知名实体捐赠15亿美元微软股票持股降至3%

大数据营销

刊物杂志

难道小的企业就不需要做SEO优化

物流运输企业网站怎样做SEO优化

大数据营销

推荐资源

沃尔玛客户关系管理分析

联想集团案例分析之crm案例

大数据营销

大数据营销之企业名录

网络营销之邮件营销

大数据营销之搜索采集系列

大数据营销之QQ号采集

大数据营销之QQ精准营销

大数据营销之QQ消息群发

大数据营销之空间助手

大数据营销之QQ联盟

大数据营销之QQ群助手

设为首页 | 营销资讯 | 营销学院 | 营销宝典 | 本站动态 | 关于网赢中国 | 网站地图 | 网站RSS | 友情链接
本站网络实名：网赢中国　国际域名：www.softav.com　版权所有 2004-2015　深圳爱网赢科技有限公司
邮箱：web@softav.com 电话：+86-755-26010839(十八线)　传真：+86-755-26010838
在线咨询：

点击这里给我发消息

点击这里给我发消息

点击这里给我发消息

点击这里给我发消息

点击这里给我发消息

深圳网络警
察报警平台

公共信息安
全网络监察

经营性网站
备案信息

不良信息
举报中心

中国文明网
传播文明

分享