词云可视化——中文分词与词云制作

 

近日在微博上大家都在问《个性化词云》制作方法。下面简单介绍实现步骤和思路:
随着微博研究的深入,社会网络分析和可视化技术的需要,面临中文处理问题,开始钻研文本挖掘的问题,过去的传统的数据挖掘一直研究的是结构化数据,文本挖掘和意见挖掘涉及内容更多,特别是中文处理是不可逾越的障碍!
注:俺的中文不好,甚至想过把中文google translate成中文进行研究,英文的文本挖掘技术基本了解!哈哈
从 网络分析、文本挖掘和意见挖掘角度看,主要解决以下内容:网络抓数据—MySql和Hadoop存储—API接口—创建网络数据—Knime和R语言挖掘 -KOL意见领袖和网络分析—中文语料和文本语义—R语言与分词—用户词典构建—情感词典建设和情感分析—文本聚类分类—归并文本挖掘与网络分析—规则建 模推荐算法—PMML模型与云端部署—API插件和接口程序——网络cytoscape可视化分析—Gephi动态可视化分析—Xcelsius仪表盘与 Tableau可视化分析—RoambiAPP移动应用等;
在学习的过程中,我们成立了数艺智库和中国传媒大学数据可视化兴趣小组,每周活动一次。同学们都是80、90后的年轻人更有创新意识,学习也快,特别是小 技巧和工具的掌握。我特别强调工具的应用,因为同学们都是文科背景,coding的能力不是我们的强项,学会和掌握最好最适合的现成软件工具是我的指导思 想。
数据可视化兴趣小组的参与同学热情很高,特别是高年级同学传帮带,象谈和、德凯、若晨等同学成为小组的主要指导教师。这个工具也是同学们先找到了,在谈和同学讲解的过程中,我提出了创意要求。
特别是在数据可视化领域,根据兴趣不同学习了:PS、AI、PREZI、PPT、Xcelsius、Excel、D3js、Processing、Tableau、Romabi等,词云的制作也是大家感兴趣的。
下面来说说词云制作,个性化词云制作:
首先:个性化词云制作非常简单,瞬间就可以完成,甚至可以说是一种雕虫小技,在线制作。当然,我还是希望把研究和创作思路告诉大家:
第一:主题和意义
你为什么需要制作个性化词云,是艺术品还是研究分析内容的一种表现方式,是文本挖掘技术的可视化,还是为了传播更方便。形式大于内容,在有内容的前提下, 可视化也是一种分析!当然我更倾向文本挖掘后的内容可视化。当然,我也不反对纯粹为了表现或者玩玩的可视化,玩也是一种学习。
因此选择什么主题,什么主题适合用个性化词云表现就更为重要了。比如:为大人物明星打标签,品牌logo打标签,SUV汽车打标签,电视台台标打标签都是好的创意和选择。

第二:语料收集
个性化词云是依赖语料和抽取语料关键词呈现的,如果你有了要表现的词云标签,就可以直接制作词云了。记住这里要有两个数据:1)标签关键词 2)关键词词频,词频决定关键词的显示大小。语料的收集依赖你的主题和想法,从应用的角度我们主要是为了分析微博,所有微博是最好的语料来源,也是文本挖 掘的结果。当然你可以从任何途径和资源活动要表现的语料。

交作业啦~对数据库内1,065,827用户分性别做昵称词云图,抽查了几个,貌似不错.女性爱用叠词做昵称,比如”佳佳/木木/妞妞/果果/格格”,男性爱用状态词做昵称,比如”胖子/路上/大侠/俱乐部/魔王/奋斗”,

   第三:分词和关键词抽取
当你获得语料后,如果需要抽取关键词,就需要学习中文分词。中文分词对一些人是技术和障碍,但是现在中文分词是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义下的分词,例如:Rweibo、weiRbo、中科院张华平老师ICTCLAS2012、武大沈阳老师的ROST CM等,这里推荐初学者考虑用ROST-CM工具入手,分词主要考虑是否可以用户自定义词典和剔除、词性标注等。少量语料的分词比较简单,但海量语料的分词要有一定难度和数据处理能力。
特别强调:任何中文分词如果能够加入人工干涉和主观判断都会提升准确性和有效性;下面介绍的在线个性化分词本身也可完成分词(包括中文分词,体验效果:不同语料和多少,时好时坏)
  第四:主题图片和个性化调整
分词和抽取关键词、词频完成后就可以制作个性化词云了,但有个前提,你需要收集与主题相关的个性化主题图片。这是一个艺术和技术融合的过程,原则上可以不 用任何修饰就可以完成词云,但是如果图片不理想或者找不到你需要的构图,就需要自己抠图和PS一下了。当然软件自带有很多预设模板可以选择,比如:高跟 鞋、烟斗、鸡鸭鱼动物、形状等。
第五:开始制作个性化词云
你已经看到了制作软件,Tagxedo词云 http://www.tagxedo.com  这是一个在线制作词云的工具,不用license。其实我不用讲,你应该能够学会的,操作非常简单,这里只是稍微介绍些中文词云要点:

  • 装载词和词频:load——可以直接提交语料自带分词和词频,也可以提交分词后的关键词和词频,用分隔符两列。
  • 选择形状或自定义图形:shape——从内置形状菜单选择或add Image选择自己的图形,这里主要选择自己的图形,就可以随心所欲了。图形可以直接用彩色jpg图片,可选择设定黑或白呈现词频;
  • 美好和调整色彩:Theme——根据自己的爱好,选择配色方案和突出强调,完全个性化爱好了;
  • 调整参数(重要):Layout Options——这步对中文很重要,主要是两个选项:1)Word选择Apply Nonlatin Heuristic设定No,这样就不会把中文分词(否则都是单词和内容分词了),2)Skip选择不需要的词或标签
  • 完成保存:Save——确认满意后就可以把个性化词云保存了,选择jpg或png格式和大小保存即可

第五:完成和传播
上面基本就完成了个性化词云操作,但往往有些细节要注意,比如把软件的水印剪裁掉,如何将一组词云拼接,增加必要的说明和意义解读,当然别忘了说是@沈浩老师 教的。哈哈

注意:我更愿意看到用词云制作的产品与原来有冲击力的图片进行PS拼接,一个人像的真实头像与词云的融合一体,可能更艺术。

下面是同学们的作品:(感谢同学们的作品,不一一提及了)