北京建议疫情高发区计划返京人员暂不返京

中新网客户端北京2月8日电 (记者杜燕)北京市提出建议,疫情高发区计划返京人员,提前联系告知暂不返京,对已返京人员严格落实居家观察等措施。

什么是疫情高发区?北京市卫生健康委员会新闻发言人高小俊表示,湖北、武汉地区之外,还有省市确诊病例超过1000例,这些地方也算。

下图说明了此过程,该图显示了 LaserTagger 在句⼦融合中的应⽤:

输⼊和输出⽂本的⾼重叠特性也可以得到⼀个推论,即:所需的修改往往是局部的并且彼此独⽴。这意味着编辑操作可以⾼精度地并⾏进⾏预测,与顺序执⾏预测的⾃回归 seq2seq 模型相⽐,可以显着提⾼端到端的速度。

(1)最⼩化词汇表的⼤⼩;

由此可见,LaserTagger 的优势在⼤规模应⽤时变得更加明显。研究人员表示:通过减少响应的⻓度并减少重复性可以用于改进某些服务中语⾳应答格式。

雷锋网原创文章,。详情见转载须知。

他说,湖北、武汉地区的人员,希望在原地落实辖区的管控措施。能不到北京来的,尽量不来。特别是要来北京看病的人员,如果没有极特殊的疾病,建议最好在当地诊疗。

图为工人正在分割藏香猪肉。蔡尧 摄

当在 100 万个示例的完整数据集上训练模型时,LaserTagger 和基于 BERT 的 seq2seq 基线模型均具有可⽐的性能,但是在 10,000 个或更少示例的⼦样本上进⾏训练时,LaserTagger 明显优于基线模型(SARI 得分越⾼越好)

因此,LaserTagger 会产⽣⼀系列的编辑操作,⽽不是实际的单词。我们使⽤的四种编辑操作类型是: Keep(将单词复制到输出中),Delete(删除单词)和 Keep-AddX / Delete-AddX(添加短语 X)标注的单词之前,并可以选择删除标注的单词)。

他指出,从疫情高发区来京的,一定要居家隔离或者做好医学观察。从其他地区来京的,也要做好相应的隔离观察,特别是有发热症状或其他身体不舒服的,要及时报告。

据悉,这批物资将捐赠给武汉市中心医院、武汉市第一医院、武昌医院等10余家疫情防控一线医院。

可控性强 通过控制输出短语词汇(也可以⼿动编辑或整理),LaserTagger ⽐ seq2seq 基线模型不易产⽣幻觉。 推理速度快 LaserTagger 计算预测的速度⽐seq2seq 基线模型快 100 倍,使其适⽤于实时应⽤。 数据效率高 即使仅使⽤⼏百或⼏千个训练示例进⾏训练,LaserTagger 也可以产⽣合理的输出。在实验中,seq2seq 基线模型需要成千上万个示例才能获得可比拟的性能。

所有添加的短语均来⾃受限制的词汇表。该词汇表是⼀个优化过程的结果,该优化过程具有两个⽬标:

雷锋网(公众号:雷锋网) AI 开发者

下图显示了 WikiSplit 数据集上的结果,其具体任务是将⼀个⻓句⼦改写为两个连贯的短句⼦:

图为工人正在将藏香猪肉装车。蔡尧 摄

工布江达县委副书记、县长石运本说:“这些年通过全国各族人民的无私援助,我们西藏经济社会发生了翻天覆地的变化。一方有难,八方支援。此次疫情发生以后,我们林芝上至各级党委政府,下至普通百姓,纷纷自发组织,主动捐款捐物,与全国人民特别是湖北武汉人民一道共克时艰。”(完)

研究人员在实验中对 LaserTagger 实现的四个文本生成任务进行了评估,四个任务分别为:句⼦融合、拆分和改述、抽象总结和语法纠正。

该模型的核心思想在于:不从头开始⽣成输出⽂本,⽽是通过使⽤预测的编辑操作标注单词来⽣成输出;然后在单独的实现步骤中将这些单词应⽤于输⼊单词。这是处理⽂本⽣成的⼀种不太容易出错的⽅法,而且它可以通过更易于训练和更快执⾏的模型架构来处理文本。

文本生成神经网络架构发展;其中,BERT是深双向的,OpenAI GPT是单向的,ELMo是浅双向的

其中添加到⽬标⽂本的唯⼀必要单词仅来⾃词汇表,短语词汇量受限制会使输出决策的空间变⼩,并防⽌模型添加任意词,从⽽减轻了「幻觉」问题。

但根据实际使用情况,将 seq2seq 模型⽤于⽂本⽣成也有一些实质性的缺陷,例如:⽣成输⼊⽂本不⽀持的输出(称为幻觉,hallucination)、需要⼤量的训练数据才能到达很好的效果;此外,seq2seq 模型通常需要逐字⽣成输出,因此其推断时间较长。

LaserTagger 适⽤于句⼦融合。预测的编辑操作对应于删除「.Turing」,然后替换为「and he」,注意输⼊和输出⽂本之间的⾼度重叠

根据实验结果,研究人员将 LaserTagger 与传统的 seq2seq⽅法相⽐,总结出该新型模型具有以下优点: 

许多⽂本⽣成任务的显着特征是输⼊和输出之间经常存在⾼度重叠。例如:在检测和纠正语法错误、或者是在融合句⼦时,⼤多数输⼊⽂本可以保持不变,并且仅⼀⼩部分单词需要修改。

而较⾼的推理速度使该模型可以插⼊现有技术堆栈中,并且不会在⽤户端增加任何明显的延迟;除此之外,改进的数据效率可以收集多种语⾔的训练数据,从⽽使来⾃不同语⾔背景的⽤户受益。

(2)最⼤化训练示例的数量;

在所有任务 中,LaserTagger 的性能与使⽤⼤量训练示例的基于 BERT 的强⼤seq2seq 基线相当;并且在训练示例数量有限时,其结果明显优于该基线。

序列到序列(seq2seq,https://en.wikipedia.org/wiki/Seq2seq)模型最初由软件⼯程师 Eric Malmi 和 Sebastian Krause 开发,这一模型一经推出后,为机器翻译领域带来了巨大的技术革新,并成为了各种⽂本⽣成任务(如摘要生成、句⼦融合和语法错误纠正)的主流模型。

图为志愿者正在制作包装箱。蔡尧 摄