2020年8月20日,受澳门威斯人3775邀请,清华大学孟天广教授“云”做客澳门威斯人3775,为澳门威斯人3775学子带来“自动文本分析:方法与运用”为主题暑期课程。讲座采用腾讯会议线上举办,澳门威斯人3775管理员陈斌开教授主持,学院老师及小编参加。
社会科学中的文本分析由来已久,但因文本资料难获取、难推广、难管理、难分析,尚未成为社会科学研究主流。近些年,文本分析的繁荣条件逐渐具备,不仅在信息技术上获得大数据存储与管理能力的跟进支持,而且在社会关注度上获得广泛关注与重视。这一变化构成了“计算社会科学”孕育、兴起、壮大的社会背景。
孟教授按照定义介绍、方法介绍、实操模拟的逻辑主线,深入浅出地为同学们描绘文本分析的概念蓝图。孟老师列举了包括清华大学计算社会科学平台在内的大数据分享平台,鼓励同学们多探索、多交流。
进一步地,孟教授从文本类别入手介绍文本分析主流方法,他指出文本分为表达文本与工具文本两类,前者重视客观信息,追求对外现关键信息的准确解码,在该类型的文本提取中词频很重要。后者则重视潜在信息,表现为研究者往往更为关注独立于字面含义的价值信息,如主题、情感等。而且结合课程内容,由郑思尧博士分板块介绍了具体实际操作。
课程最后的提问环节中,同学们针对课程内容与老师积极互动,孟教授一一予以解答。感谢孟天广教授的耐心指导,希望同学们能在日后的学习中灵活运用这一收集数据的方法论,举一反三,在实操中不断提升自己的数据挖掘能力。