中科院计算所开源深度文本匹配开源工具 MatchZoo

2017-12-05 23:09:58 来源:网络

原标题:中科院计算所开源深度文本匹配开源工具 MatchZoo

via GitHub

雷锋网 AI 科技评论消息,中国科学院计算技术研究所网络数据科学与技术重点实验室近日发布了深度文本匹配开源项目 MatchZoo。MatchZoo 是一个 Python 环境下基于 TensorFlow 开发的开源文本匹配工具,可以应用于文本检索、自动问答、复述问题、对话系统等多种应用任务场景。

在 arxiv 上,MatchZoo: A Toolkit for Deep Text Matching 介绍了开源项目的主要结构:

据雷锋网了解,这一开源工具能够让大家更加直观地了解深度文本匹配模型的设计、更加便利地比较不同模型的性能差异、更加快捷地开发新型的深度匹配模型。

MatchZoo主要特点

MatchZoo 基于 Keras 开发,支持 TensorFlow、CNTK 及 Theano,并能在 CPU 与 GPU 上无缝运行。MatchZoo 包括数据预处理,模型构建,训练与评测三大模块:

数据预处理模块(data preparation)

该模块能将不同类型文本匹配任务的数据处理成统一的格式,具体包含如下的几个文件:

  • word dictionary:每个单词的映射符,通过预设的规则进行过滤常用词,筛选少见词、噪声词。

  • corpus file:问题及回答内容文件,每行以(id, length, word_id)格式书写,分别表示问题或者回答的 id,文本长度,以及词 id;

  • relation file:包括训练、验证、测试文件,每行以(rel,query_id, doc_id)格式书写,分别表示问题与回答的相关度(数据中1为相关,0为不相关),问题的 id,以及答案的 id;

同时,该模块针对不同的任务需求提供了不同的数据生成器,包括有基于单文档的数据生成器、基于文档对的数据生成器、以及基于文档列表的数据生成器。不同的数据生成器可适用于不同的文本匹配任务,如文本问答、文本对话、以及文本排序等。

模型构建模块(model construction)

该模块基于 Keras 以帮助我们快速开发。Keras 中包含了深度学习模型中广泛使用的普通层,如卷积层、池化层、全连接层等,除此之外,在 matchzoo/layers/中,研究人员还针对文本匹配定制了特定的层,如动态池化层、张量匹配层等。这些操作能够快速高效地实现复杂的深度文本匹配的模型,在 matchzoo/models/中,研究人员实现了目前主流的深度文本匹配模型(如 DRMM, MatchPyramid, DUET, MVLSTM, aNMM, ARC-I, ARC-II, DSSM, CDSSM 等)。

训练与评测模块(training and evaluation)

该模块提供了针对回归、分类、排序等问题的目标函数和评价指标函数。例如,在文本排序中常用的基于单文档的目标、基于文档对的目标、以及基于文档序列的目标。用户可以根据任务的需要选择合适的目标函数。在模型评估时,MatchZoo 也提供了多个广为使用的评价指标函数,如 MAP、NDCG、Precision,Recall 等。同时,在文本排序任务中,MatchZoo 还能生成兼容 TREC 的数据格式,可以方便地使用 trec_eval来进行模型评估。

运行

git clone https://github.com/faneshion/MatchZoo.git
cd MatchZoo
python setup.py install

python main.py --phase train --model_file ./models/arci_ranking.config
python main.py --phase predict --model_file ./models/arci_ranking.config

基准测试

在 Github 上,作者们以 WikiQA 数据为例来介绍 MatchZoo 的使用。

以 DRMM 为例,在 MatchZoo/matchzoo 中运行:

python main.py --phase train --model_file models/wikiqa_config/drmm_wikiqa.config

在测试时可运行:

python main.py --phase predict --model_file models/wikiqa_config/drmm_wikiqa.config

运行十个模型的结果如下:

训练 loss 曲线图如下:

测试 MAP 性能曲线图如下:


,中科院计算所开源深刘卫东 度文本匹配开源工具 MatchZoo

相关:

巴林和卡塔尔以色列叙利亚提交加入上合组织申请原标题:上合组织秘书长:巴林和卡塔尔提交加入上合组织申请【环球网报道记者 朱佩】上合组织秘书长拉希德·阿利莫夫在莫斯科的俄科学院远东研究所学术委员会会议上表示,巴林、卡塔尔、以色列和叙利亚提出了加入上合组织的申请。据俄罗斯卫星网12月5日报道,阿利莫夫称,“对本组织的兴趣在增长。我们收到了申请,现在我列举一下几个国家,你们可能会吃惊,首先巴林、卡塔尔向我们提出了申请。以色列提了数次。还有叙利亚”。..

芙蓉姐姐发胖后穿透视裙,胸前的肉都溢出来了(图)芙蓉姐姐曾经一度成为炙手可热的网红,她只靠在网上上传了照片,就出名了,真是太恰合,太容易了。芙蓉姐姐自从出名以后,就开始出席各大活动,她的吸金能力也真是太强了。这不,她又穿了一件抹胸的连衣裙现身,不得不说,芙蓉姐姐的身材还真是不错。不过,这件衣服上身裹不住,下身藏不住,敢穿出来还真需要胆量。她扭动着肥胖的腰肢,走起路来一摇一摆的,网友直呼:活像一只大肥鹅。本文来自凤凰号,仅代表凤凰号自媒体观点。

手撕半个娱乐圈的王思聪,首次认怂主动向他道歉了!众所周知,王思聪很“毒舌”,他喜欢对一些事情和人做出热辣点评,特别是娱乐圈的明星,只要是他看不顺眼的,他都会毫不留情的开炮,虽说王思聪比较毒舌,不过有时说的话还是很有道理的,因此,也有很多网友喜欢这样的王思聪,毕竟现在敢说真话的人已经不多了。其实早年的王思聪也非常低调,很少有人知道他是谁,直到2011年,王思聪在微博上怒撕京城四少汪小菲,这件事还引起了很多网友的关注,王思聪也因此被网友熟知,随后,王..

印媒呼吁多造潜艇对抗中国 称中印目前差距明显原标题:印媒呼吁多造潜艇对抗中国称中印目前差距明显【环球网军事12月5日报道】印度《德干纪事报》4日给出对抗中国海军的新办法是多造潜艇。无独有偶,美国《国家利益》网站也刊文指出,如果让美国海军重来一遍的话,应该多造潜艇少造航母。《德干纪事报》报道称,35年前,当印度拥有一支由8艘进口自苏联的F级柴电潜艇组成的水下舰队时,中国已经装备大量潜艇了。而且,中国当时已经能够自行生产潜艇,并且比大多数国家更好地掌..

土超-朱婷砍18分全场最高 率球队横扫锁定半程第3朱婷扣球北京时间12月5日晚,2017-2018赛季土耳其女排超级联赛常规赛第十一轮,朱婷首发登场,砍下了全场最高的18分。瓦基弗银行主场以3-0击败布尔萨都会(三局比分:25-19/25-13/25-17),取得了对阵对手的十连胜,将自己战绩改写为10胜1负,基本锁定半程第三。数据统计:瓦基弗银行3-0布尔萨(25-19,25-13,25,17),个人得分方面,银行:朱婷18(24扣13中5拦),高兹德12(17扣10中1拦),拉西奇11(10扣4中7拦),耶斯8(19扣8..

美媒:尽管成就切实存在 但中国尚未接管世界美国彭博社12月4日文章,原题:中国或许不能接管世界几乎每一天,美欧中三方的报纸都刊登有关中国科技进步和经济威力的吸睛大字新闻标题。尽管中国的成就切实存在,但它们未必表明西方失败或中国已接管世界。在宣扬此类成就的同时,评论家们通常忽视使之形成的结构性因素。中国许多最具创新力的企业不仅受到政府支持和保护,还受益于使其业务更切实可行而非相反的结构性环境。这些企业在一种充斥着各种挑战和投入的独特熔炉中蓬..

江泽慧和李小鹏在这一天分别公开亮相 只为这件事原标题:昨日,李小鹏和江泽慧分别做了这样两件事!【编辑/张喜斌 统筹/纪欣】12月4日,交通运输部部长李小鹏参加了国家便利运输委员会第二次全体会议并在会上发言。同日,全国政协人口资源环境委员会副主任、国际竹藤组织董事会联合主席、国际竹藤中心主任江泽慧等为竹缠绕复合材料工程技术研究中心揭牌。据悉,国家林业局竹缠绕复合材料工程技术研究中心揭牌仪式4日在浙江省德清县举行。除了江泽慧外,国家林业局副局长彭有冬..

孩子发烧,只有这 3 种情况才考虑用药 发烧,每个孩子在成长的过程中都难以避开的问题。 孩子发烧时,不少家长想的第一件事就是「退烧」,又是擦酒精,又是吃退烧药,恨不得立马带孩子飞奔去医院。 其实,根据发烧程度不同,处理的方式也是不同的。 首先,孩子发热不一定是坏事,发热是人体受到感染、应激等之后的一种正常的保护性反应。 宝宝发烧的话,家长先不要急着给孩子吃药。 如果孩子发烧时,出现以下 3 种情况,就可以适当地考虑..

30 条广为流传的育儿「经验」,最后一条最坑娘! 每天都收到留言说丁香妈妈「抠门」。 每天就三篇文章,太少了,看不够啊! 能不能多来点儿! 嗯,这次我们一口气整理了 30 条育儿干货,从孕期到 3 岁,坑娘坑娃的谣言全找来了,一次性全面打击! ▼ 1. WiFi 路由器有辐射,睡觉一定要关? 不关的结果就是玩手机到失眠。 路由器产生的辐射是「非电离辐射」,对人体没什么伤害。 2. 孕期不能吃 XXX ? 怎么?是老..

李开复:警惕人工智能革命演变成科技“军备竞赛”原标题:李开复: 警惕人工智能革命演变成科技“军备竞赛”| 金融时报专栏本周,在中国乌镇举办的第四届世界互联网大会上,人工智能是讨论的热点话题之一。如今,中国已迅速崛起为人工智能领域的全球领袖,中美将共同引领人工智能革命。同时,人工智能和自动化技术将在未来的10到15年之内替代现今50%的工作。“在一个绝大部分的电子营销、客服、出纳、会计和金融分析都将被自动化的世界里,我们如何保证受此影响的人们不会失业..