科研项目

科研项目
社会大数据挖掘和检索系统

我们计划搭建一个社会大数据挖掘和检索系统,对理论研究结果进行验证,并与中国人民大学的人文社会科学研究相结合对社会热点问题进行分析。该系统将集成前述的短文本理解、多维语义立方体分析、动态数据挖掘和检索技术,可以对用户指定的任何主题进行检索和深入分析。我们希望通过开发该系统构建一个探索大数据驱动的人文社科研究模式的基础平台,并与中国人民大学相关院系合作,持续地开发各种结合社科领域知识的分析模型和算法。



挖掘和检索动态数据

动态性是互联网数据的一个非常重要的特征。在互联网上,尤其是Web 2.0 时代以后的现代互联网上,数据在快速的产生、变化和消失,体现出很强的动态性。另一方面,越来越多的用户信息需求需要有效地捕捉和表述这种动态性,并且能对动态数据进行复杂的数据操作和检索。对于诸如“过去一个小时谁的关注度上升最快”,“过去一周哪种手机负面评价下降了”这一类查询,仅仅使用当前的静态文本集合无法有效回答。本部分的目标是研究动态网络数据的数据表示模型,以有效支持对数据动态性的查询和分析,具体研究内容包括动态网络数据的捕获、动态数据的表示和检索、动态数据的实时分析等。



基于多维语义立方体的互联网文本建模

文档在创建者眼中是一个相对独立完整的信息载体,而在检索者眼中则不一定是一个能满足信息需求的合适信息单元。某些情况下,为了满足用户的信息需求,往往需要对多个相关的文档进行综合处理。为了对多个文档进行综合分析,我们引入数据仓库领域内的数据立方体模型,研究一种称为“多维语义立方体”的文本表示模型,并基于该模型进行互联网文本的分析和挖掘。借鉴数据仓库领域的OLAP方法,我们可以灵活地对立方体中的信息进行单元格层面上的分析和查询。



基于知识库的短文本理解

短文本广泛存在于Web 各个角落,如用户查询、广告关键字、文档标题、图片标签、微博等等。这些短文本虽然字数较少,却承载了用户的完整意图。通常人们可以较容易理解这些短文本,但是机器处理它们却较为困难。这种语义理解上的鸿沟导致现有技术常使用关键字检索技术寻找相关数据,而无法在短文理解的基础上进行数据进一步处理。我们在Web上通过一些固定语法模式进行知识抽取,建立大规模语义网络;将短文本映射到概念空间,从而让机器能够在一定程度上理解并处理短文本数据;将短文本概念化,以及短文本之间语义相似度计算技术应用在多种场景中,如广告关键字匹配、查询推荐、短文本聚类、网络表格抽取以及理解等。