目前世界上大约有6000种语言,” 麻省理工学院林肯实验室人类语言技术(HLT)小组的Elizabeth Salesky说。“在执法界,没有足够的多语种分析师具备必要的熟练程度来理解和分析这些语言的内容,”她继续说。 这种语言太多而专业分析人员太少的问题是Salesky和她的同事正在努力为执法机构解决这个问题,但他们的工作有可能适用于和情报界。该研究团队正在利用语言识别,说话人识别,语音识别,机器翻译和信息检索方面的重大进展来自动执行语言处理任务,以便可以更有效地使用可用于分析文本和口语外语的语言专家数量有限。“通过HLT,相当于外语分析师的20倍,”Salesky说。 林肯实验室研究人员致力于研究的一个领域是跨语言信息检索(CLIR)。Cross-LAnguage搜索引擎(CLASE)是由HLT Group为联邦调查局(FBI)开发的CLIR工具。CLASE是语言识别,机器翻译,信息检索和查询偏向摘要的实验室研究的融合。CLASE使英语单语分析师能够帮助搜索和过滤外语文档 - 这些任务传统上仅限于外语分析师。 实验室研究人员考虑了HLT研究界出现的三种CLIR算法:查询翻译,文档翻译和概率CLIR。在查询翻译中,讲英语的分析师查询外语文档中的英语短语; 该查询通过机器翻译翻译成外语。然后将包含翻译查询的最相关的外语文档翻译成英语并返回给分析师。在文件翻译中,外文文件被翻译成英文; 然后,分析师在翻译的文档中查询英语短语,并将最相关的文档返回给分析师。概率CLIR,HLT集团研究人员正在采取的方法, 首先,外语文件通过机器翻译翻译成英文。机器翻译模型概率地将外来词投射到英语中,然后输出包含所有可能翻译的翻译格,其具有各自的准确概率。“例如,法语单词capacityit的格子将显示英语单词capacity 和ability的连接和概率分数,” Michael Coury说道。HLT集团。在分析师对文档集合的查询的基础上,将从集合中提取包含最可能的翻译的文档以进行分析,即使它们包含第二或第三最可能的翻译候选者。此方法允许分析人员检索查询或文档翻译未找到的文档。CLIR结果的评估基于精确度(检索到的相关文档的比例),召回(检索的相关文档的比例)和F-度量(精度和召回的调和平均值)。 “我们有兴趣实现高回忆率。如果我们不检索所有相关文件,我们可能会错过一个关键的,”Coury说。“当我们搜索Google时,我们通常只对第一页上10个最相关的结果感兴趣。对于执法社区,我们希望识别每个可能有意义的搜索结果。” 如前所述,CLASE严重依赖于实验室在语言识别和机器翻译方面的研究。詹妮弗威廉姆斯同样在HLT集团,一直在开发算法来识别文本数据中存在的语言,以便CLASE可以选择适当的机器翻译模型。据威廉姆斯称,文本语言识别面临许多挑战。需要可靠的方法来提高区分具有相似字符集的语言的准确性。区分相似语言并不是文本语言识别的唯一问题。另一个挑战涉及在语音的基础上处理用户生成的内容,该内容已被罗马化或为拉丁字母。“这种做法的一个例子是用罗马化阿拉伯语写的推文,在HLT社区中被称为Arabizi。我们也看到了罗马化的中文,俄文和其他语言,”威廉姆斯说。在某些情况下,语言的基础事实数据是不存在的(例如,对于低资源语言,如乌尔都语和豪萨语)或不可靠。“不存在通用的语言识别系统,因此不同系统之间的差异可能是极端的,”她补充道。 该小组的其他研究人员正在创建自动将文本从一种语言翻译成另一种语言的系统。根据Salesky的说法,这些机器翻译工作对HLT集团在CLIR的工作至关重要。Wade Shen是HLT集团的副组长,目前正在国防高级研究计划局担任间人事法案,并且大学研究人员开发了一个名为Moses的开源统计机器翻译工具包。这种基于短语的系统允许用户训练任何语言对的翻译模型,并在可能的选择中找到最高概率的翻译。 FBI训练翻译模型固有的问题是绘制可用训练数据的域与FBI感兴趣的域之间的不匹配。此上下文中的域是指具有自己的书写样式,内容和约定的主题或字段。例如,推文为140个字符,并以休闲风格编写,通常包含缩写和拼写错误; 新闻文章相当长,并带有重要信息; 报告以正式方式编写,包含独特的术语。根据林肯学者计划在麻省理工学院攻读高级学位的HLT小组Jennifer Drexler表示,当获取训练数据的域与感兴趣的数据所在的域类似时,转换精度最佳。这样的匹配有助于创建翻译模型,该模型被告知目标域内的细微差别和特性。然而,在感兴趣的领域中获取训练数据可能是困难且昂贵的。它需要数百万个并行的人工翻档来创建自动翻译模型。人工翻译每个单词的成本在0.20美元到0.80美元之间。对于罕见的语言,例如乌尔都语,翻译费用是高额的,以励翻译人员的专业知识。获取感兴趣的领域中的训练数据可能是困难且昂贵的。它需要数百万个并行的人工翻档来创建自动翻译模型。人工翻译每个单词的成本在0.20美元到0.80美元之间。对于罕见的语言,例如乌尔都语,翻译费用是高额的,以励翻译人员的专业知识。获取感兴趣的领域中的训练数据可能是困难且昂贵的。它需要数百万个并行的人工翻档来创建自动翻译模型。人工翻译每个单词的成本在0.20美元到0.80美元之间。对于罕见的语言,例如乌尔都语,翻译费用是高额的,以励翻译人员的专业知识。 Drexler和Shen与研究人员合作,发现当感兴趣的领域中的训练数据量有限时,可以使用分层最大后验(MAP)适应1来改善翻译结果,但来自其他领域的大量数据是可用。这就是CLASE系统的情况 - 由于安全考虑因素了翻译人员对域内数据的访问,因此可以使用相对少量的“域内”FBI数据来训练翻译模型,但“域外“数据(例如,新闻文章或博客)更丰富。分层MAP自适应技术提供了组合来自这些不同域的模型的原理方式, Shen和前林肯实验室的工作人员Sharon Tam在2010年初开始了HLT集团在CLIR的工作。HLT社区的研究人员之前已经证档翻译比查询翻译更准确; 因此,Shen和Tam专注于评估文档翻译与概率CLIR的比较。他们发现,与文档翻译相比,概率CLIR的精度至少提高了30%,因此他们决定将概率CLIR算法用于CLASE。 自2012年加入林肯实验室以来,Coury已经建立了Shen和Tam的初步实验,以评估与FBI案件有关的CLIR表现。结果令人鼓舞,HLT集团相信他们的CLIR技术是最先进的,CLASE是FBI分析师在文档分类期间使用的有用工具。“我们的概率方法对于检索跨语言文档至关重要。联邦调查局的单语者第一次可以协助进行文件分类,为较小的外语专家增加了更多的分析师,”Coury说。 CLIR研究已经导致了如何将检索到的内容呈现给分析师的相关问题 - 这是Williams,Shen和Tam在2013年开始研究的一个问题.Williams继续领导这项工作来定义查询偏向摘要与整体系统性能之间的关系作为一个人在循环的问题。Williams及其同事发现,在给出分析师的查询时,可以使用查询偏向的摘要算法自动捕获文档中的相关内容,然后将该内容呈现为原始文档的精简版本。“搜索引擎使用这种摘要,提供包含搜索条件的网站链接的片段,”威廉姆斯说。 为了评估CLIR查询偏差摘要的效用,该团队进行了实验,比较了以下类别的13种摘要方法:无偏全机翻本,无偏词云,查询偏向词云和查询偏向句子摘要。他们发现,在回忆,任务时间和准确性方面,查询偏向词云是最佳的整体总结策略。然而,用户在消化信息方面有不同的偏好或需求,威廉姆斯本人就是这样,他不喜欢文字云。一些用户可能更喜欢句子,而其他用户可能更喜欢听觉信号而不是信息的文本或视觉表示。 “跨语言查询偏向摘要是CLASE的重要组成部分,因为它可以帮助分析人员决定他们应该阅读哪些外语文档。我们可以利用这一摘要来改善整体系统回忆,”Williams解释道。虽然理论上查询偏向的摘要可以使分析师更快地工作,但还需要进行额外的研究来确定这种摘要是否适用于真实世界的CLIR系统,例如CLASE。 根据Coury的说法,有很多真实场景可以从使用CLASE中受益。“你可以想象它在叙利亚难民危机期间被使用。关键字搜索可以在收集的推特上进行,以帮助分析人员找到隐藏在庄巧涵献b门全套图移民群体中的潜在恐怖,”他说。Coury和他的同事们也对该技术如何有利于主义援助和救灾工作感兴趣 - 在涉及翻译人员稀缺且没有自动化HLT技术的语言的危机期间快速检索信息。 随着实验室研究人员继续在机器翻译,CLIR和查询偏向总结方面取得进展,这些进步将被整合到CLASE中,并将继续帮助分析师快速准确地找到他们所需的信息。“当我在HLT文献中搜索研究团队进行研究并停止研究时,我注意到了这一点,”威廉姆斯说。“每项研究都试图解决一个非常具体的问题。没有一项工作结合了机器翻译,信息检索和查询的总结。林肯实验室是第一个将所有这些领域结合在一起的人。
|