主页

各种短线和引号字符

在输入和处理计算机文本时,一个很让人疑惑和感到麻烦的地方在于有很多相似短线和引号字符,本文解释了各种短线和引号字符的区别,以备查阅。 短线 各种短线符号:(表格中粗体表示ASCII字符,后表同) 名称 Unicode码 示例 一般用法 Hyphen-Minus(连字符) U+002D - 连字符(连接单词)/减号/负号 Hyphen(连字符) U+2010 ‐ (较少使用)用作连字符,用于连接单词,例如old-aged En dash(连...

阅读更多

n维立方体角、面、边的个数

在看Gilbert Strang的Introduction to the Linear Algebra (5th)的过程中看到一个有趣的问题: How many corners does a cube have in 4 dimensions? How many 3D faces? How many edges? A typical corner is (0, 0, 1, 0). A typical edge goes to (0, 1, 0, 0). 现在试着回答一下对于n维立方体,这些性质是怎样的。 n维立方体有几个角? 一个n维立方体中的点可以用一个n维向量表达,其中每个component都可以取 $[0, 1]$ 中的任何一个值(为了方便讨论,这里使用的是单位立...

阅读更多

Linux目录名含义

对于Linux的操作,一直是野路子出身,没有系统学习过,所以最近在看《Linux命令行大全》来系统学习。这本书的第三章《Linux系统》有一部分是解释Linux中各种目录的作用的。这些目录的名称大多都是缩写,但其究竟是什么的缩写和其来由都没有在本书说明,因此我在网上搜索整理的这份文档,以备查阅。 /bin - Binaries. /boot - Files required for booting. /dev - Device files. /etc - Et cetera. The name is inherited from the earliest Unixes, which is when it became the spot to put config-f...

阅读更多

安装Rouge1.5.5

Rouge的安装向来很麻烦,这里给出在Ubuntu 16.04+和Windows 10两个系统下安装Rouge 1.5.5的简明步骤。 Ubuntu Ubuntu一般自带perl,bash输入perl -v检查perl版本 输入cpan -v检查cpan(perl的包管理器)的版本,初次使用会提示需要配置,一路Enter即可 使用sudo cpan install XML::DOM安装必须的XML解析包 下载ROUGE-1.5.5,该资源在网上随处可见,与操作系统无关,下载后运行目录下的perl脚本runROUGE-test.pl,若它正常运行不报错则一切OK Windows 下面是在Windows下安装Rouge和 pyrouge 的指南,引用自ht...

阅读更多

【论文笔记】Array programming with NumPy

(nature 2020) Array programming with NumPy 概述 这篇论文多维数组计算库Numpy的核心概念及其Python科学计算生态系统中的位置。 Numpy诞生于2005年,建立在它的两位前辈Numeric和Numarray的基础之上,结合了两个库的优点,使得社区重新统一。 到2020年,Numpy已经成为几乎每个Python科学/数值计算库的基础组成部分,包括SciPy、Matplotlib、pandas、scikit-learn、scikit-image等,并且因为Numpy数组内禀的简单性,它已经成了Python事实上的数组交换格式。 现在,为了适应新的计算硬件(GPU/分布式系统等)等特殊需求,各种不同的多维数组实现正在不断出现,但是它们都可...

阅读更多

【论文笔记】Heterogeneous Graph Neural Networks for Extractive Document Summarization

(acl 2020) Heterogeneous Graph Neural Networks for Extractive Document Summarization 概述 文章使用异质图建模句子之间的关系,并将其用于抽取式摘要,取得了优于所有对比模型的效果(本文模型和对比模型均没有使用预训练语言模型,如BERT)。 图的结构 图中包含两类节点:词节点和句节点 句节点与其中包含的词的节点相连接 只有词节点和句节点之间的连接,同类节点之间不会连接 是一个二分图(Bipartite Graph) 节点初始化 词节点 300维的Embedding Vocabulary大小为50000 使用GloVe初始...

阅读更多

【论文笔记】Sentence Mover’s Similarity

(acl 2019) Sentence Mover’s Similarity: Automatic Evaluation for Multi-Sentence Texts 概述 在翻译和摘要等文本生成任务中,为了节约人力和时间,我们需要一种自动评估机器生成文本的质量的方式。 本文提出了一种计算(多个句子组成的)文本相似度的方式Sentence Mover’s Similarity(SMS)。 SMS可以用来判断生成文本和参考文本之间的语义距离,从而评估机器生成本文的质量。 在评估摘要文本上,基于SMS的方法与人类判断的相关性显著高于基于ROUGE的方法。 SMS还可以用做强化学习训练生成模型时的奖励。 在文本摘要任务上,根据人类评估,使用SMS训练的生成模型...

阅读更多