本文共 3501 字,大约阅读时间需要 11 分钟。
1、sport.tar 是体育类的文章,一共有10个类别;
用这些原始材料构造一个体育类的文本分类器,并测试对比bayes和cbayes的效果;
2、user-sport.tar 是用户浏览的文章,每个文件夹对应一个用户;
利用上题构造的文本分类器,计算每个用户浏览各类文章的占比;
测试分类器模型时,如果觉得模型效果不够满意,可以对过程进行调整,然后重新生成模型。 - 积累更多,更有具代表性的样本;
- 在文本预处理阶段选择更好的分词算法;
- 在训练分类器时,对训练参数进行调整。
建立完文本分类器以后,就可以输入一个文本,输出一个分类。
Step1:将所需用到的原始数据sport和user-sport文件夹上传到hdfs - 用于训练文本分类器
- 包含了多个子文件夹,每个子文件夹都是一个分类的文章
- 在现实项目中,该原始数据需要人工收集
注意:user-sport文件夹下的子文件夹名称是用户id,子文件夹内包含了多个文本文件,都是该用户浏览过的文章。 用到
MRTokenize.jar中的
tokenize.TokenizeDriver 到此为止,原始数据已经分好词,并且已经处理成Mahout训练文本分类器要求的输入格式:
- 每行一篇文章
- 每行的格式为:分类名称 文章分词结果
我们把经过分词处理的原始数据划分为训练集和测试集,训练集用于训练模型,测试集用于测试模型效果。
grunt> processed = load'/dataguru/hadoopdev/week8/fenciout/part-r-00000' as (category:chararray,doc:chararray); grunt> test = sample processed 0.2; grunt> jnt = join processed by (category,doc) left outer, test by (category,doc); grunt> filt_test = filter jnt by test::category is null; grunt> train = foreach filt_test generate processed::category as category,processed::doc as doc; grunt> store test into '/dataguru/hadoopdev/week8/test'; grunt> store train into '/dataguru/hadoopdev/week8/train'; 我们分别训练bayes模型和cbayes模型,后面测试两者的效果做对比。
casliyang@singlehadoop:~$ mahout trainclassifier -i /dataguru/hadoopdev/week8/train -o /dataguru/hadoopdev/week8/model-bayes -type bayes -ng 1 -source hdfs casliyang@singlehadoop:~$ mahout trainclassifier -i /dataguru/hadoopdev/week8/train -o /dataguru/hadoopdev/week8/model-
cbayes -type
cbayes -ng 1 -source hdfs
casliyang@singlehadoop:~$ mahout testclassifier -d /dataguru/hadoopdev/week8/test -m /dataguru/hadoopdev/week8/model-bayes -type bayes -ng 1 -source hdfs -method mapreduce casliyang@singlehadoop:~$ mahout testclassifier -d /dataguru/hadoopdev/week8/test -m /dataguru/hadoopdev/week8/model-cbayes -type cbayes -ng 1 -source hdfs -method mapreduce 我们的待分类数据全存储在user-sport文件夹下,每个子文件夹都存储了一个用户浏览过的文章,子文件夹的名称就是用户id:
Mahout的文本分类器要求输入数据为分词后的文章,我们直接使用训练分类器时用到的
MRTokenize.jar 中的 tokenize.TokenizeDriver 来对文章进行分词,输出格式为: - 每行一篇文章
- 每行的格式为:用户ID 文章分词结果
casliyang@singlehadoop:~/Myfiles$ hadoop jar MRTokenize.jar tokenize.TokenizeDriver /dataguru/hadoopdev/week8/user-sport /dataguru/hadoopdev/week8/user-sport-fenciout Step6:Hadoop环境下,对待分类数据进行分类,并统计每个用户浏览每个分类的次数 Hadoop环境下调用Mahout分类器的程序细节参见: casliyang@singlehadoop:~/Myfiles$ hadoop jar MRClassify.jar classifier.ClassifierDriver /dataguru/hadoopdev/week8/user-sport-fenciout /dataguru/hadoopdev/week8/user-sport-bayesout /dataguru/hadoopdev/week8/model-bayes bayes 参数1:输入路径,即上一步分词处理好的待分类的文章存储路径 参数2:输出路径,即统计好的用户浏览各个分类的数量
Step6:处理上一步的输出数据,得到每个用户访问次数最多的分类 grunt> u_ct = load'/dataguru/hadoopdev/week8/user-sport-bayesout' using PigStorage('|') as (user:chararray, category:chararray, times:int); grunt> u_stat = foreach(group u_ct by user) >> sorted = order u_ct by times desc; >> generate flatten(top),SUM(u_ct.times); grunt> store u_stat into '/dataguru/hadoopdev/week8/user-sport-pigout'; 结果(第一列是用户id,第二列是浏览量最多的类别,第三列是该类别的浏览次数,第四列是该用户总共的浏览量):