GitHub

File listing:

anymalign.py: anymalign算法
filter.py: 自定义过滤脚本
filter_conf.json: 过滤规则配置文件
run_align.sh: 启动脚本
options: anymalign算法参数说明
README.md

Description

本程序的目标是以平行语料作为输入，输出高质量的平行短语对。包括两个阶段：抽取和过滤，通过run_align.sh来控制运行的流程。抽取阶段由anymalign.py来执行，如果run_align.sh中的run_anymalign变量设置为1，则启动抽取过程；可以根据需求，对anymalign的执行参数进行设定，包括短语的长度范围，采样时长和一次性加载的句对数量（语料较大，无法完全load的情况）等，详情见options文件。filter.py负责过滤操作，由run_align.sh中的run_filter变量控制是否启动；可以在filter_conf.json中配置过滤规则，每条rule在filter.py中有对应的执行逻辑，由judge函数循环调用。若新增过滤规则，需在filter_conf.json中添加规则名和参数，然后在filter.py中实现过滤逻辑。

File format

1. 平行语料

分离的文本文件，对应的行互为翻译

源文件

He is one of my friends.
She put a bunch of flowers by the edge of the table.

目标文件

他是我的朋友。
她把一束花放在桌边。

2. 短语对齐文件

每行是一对短语，包括5个字段：源短语，目标短语，词汇权重，翻译概率和频率，以 \t 分隔

a bunch of flowers \t 一束花 \t 0.98 0.86 \t 1.0 0.5 \t 1276

其中词汇权重和翻译概率均包含源到目标和目标到源的两个值，以空格分隔

Rules

multi_align：          一对多对齐，选择翻译概率大于0.5的即可，既可以保证是概率最大的翻译，同时可信度高；
en_no_en：             英文短语中不包含字母；
zh_no_zh：             中文短语中不包含中文字；
en_has_zhPunc：        英文短语中有中文标点；
zh_has_enPunc：        中文短语中有英文标点；
start_with_Punc：      短语的开始字符是标点；
zh_start_with_special：中文短语以特殊词开始，比如‘了’和‘的’；
en_end_with_special：  英文短语以特殊单词结束，比如'the'；
en_paren_mismatch：    英文短语中括号不匹配；
zh_paren_mismatch：    中文短语中括号不匹配；
ptr_sum_low：          双向翻译概率的和小于阈值；
ptr_or_low：           存在一个方向的翻译概率小于阈值；
lexicalW_zero：        至少存在一个方向的lexical权重等于0，虽然lexical权重波动较大，不过等于0的情况下大多数存在对齐偏差；
len_diff：             中英文短语的长度比超出阈值，把长度差限定在合理的区间；

备注：根据需求，可以变更括号匹配的类型；和标点相关的rule，都可以配置对应的标点符号集；翻译概率的阈值调大，过滤会更严格，短语对的精度会提高，但是获取的短语数量会减少，可根据需求进行权衡。

Usage

Requirements

numpy
json

$ git clone https://github.com/AtmanCorp/data-process.git
$ cd data-process/data_process/gen_phrase/
$ ./run_align.sh <source> <target>

Contact

张明华
zhangmh1993@163.com
Atman Corp

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

File listing:

Description

File format

1. 平行语料

2. 短语对齐文件

Rules

Usage

Requirements

Contact

About

Releases

Packages

Zminghua/GenPhrase

Folders and files

Latest commit

History

Repository files navigation

File listing:

Description

File format

1. 平行语料

2. 短语对齐文件

Rules

Usage

Requirements

Contact

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages