We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
希望进行新算子的研发。 搭配ai语义理解,遮蔽存折账号、证券账户、电子钱包ID(支付宝/微信支付账号)身份证号、护照号、驾驶证号,手机号、家庭住址(精确到门牌号)等PII身份敏感信息。
大众对于数据处理,会很注重数据隐私性和安全性,大部分时候不希望PII相关信息被其他人看见。研发遮蔽PII信息的算子可以拓宽目标客户群体。
No response
The text was updated successfully, but these errors were encountered:
嗨 @ellie77ovo ,感谢你对 Data-Juicer 的关于与建议!
这类算子我们之前有考虑到,不过后来我们发现大部分情况下它们的清洗流程都是类似的(模式发现 -> 替换/清除),而其中发现的流程大部分情况下可以使用正则表达式实现,因此我们没有具体实现针对这些情况的每一类算子,而是提供了一个更为通用的算子replace_content_mapper,可以将符合指定模式的字符串替换为另外的指定的字符串,它接受两个参数:
replace_content_mapper
pattern
repl
这里举一个简单但是不是完全正确的例子,比如我们需要把所有1开头的11位数字,即潜在的手机号码,替换为11个星号"***********",那我们可以在配置文件中添加这个算子:
- process: - replace_content_mapper: pattern: '(1)[0-9]{10}' repl: '***********'
你可以尝试一下这个算子看看能否满足你的需求~
Sorry, something went wrong.
要发现并进行替换的字符串正则表达式模式
好的,我会尝试一下!但很多时候没法列举出所有情况的正则表达式,例如提及工资数额的时候,我想如果有ai辅助理解会更精确抹除敏感信息。如果想要ai辅助理解,我该如何编写OP呢,你可以给我一些建议吗?
AI辅助遮蔽PII的算子目前在纯文本上确实没有,我们之后会考虑引入这样的算子,不过由于其他任务的关系,可能暂时并不在我们的高优先级开发项中。
但目前有一些AI辅助从文本中提取重要信息的算子,我觉得也许你可以参考下,比如calibrate_qa_mapper,extract_entity_attribute_mapper以及其他一些相关的算子,它们是借助AI的能力从原始文本中提取一些更关键的信息,流程上与处理PII有一定的相似性。
calibrate_qa_mapper
extract_entity_attribute_mapper
好的,我会尝试一下!但很多时候没法列举出所有情况的正则表达式,例如提及工资数额的时候,我想如果有ai辅助理解会更精确抹除敏感信息。如果想要ai辅助理解,我该如何编写OP呢,你可以给我一些建议吗? AI辅助遮蔽PII的算子目前在纯文本上确实没有,我们之后会考虑引入这样的算子,不过由于其他任务的关系,可能暂时并不在我们的高优先级开发项中。 但目前有一些AI辅助从文本中提取重要信息的算子,我觉得也许你可以参考下,比如calibrate_qa_mapper,extract_entity_attribute_mapper以及其他一些相关的算子,它们是借助AI的能力从原始文本中提取一些更关键的信息,流程上与处理PII有一定的相似性。
好的,谢谢!😊
HYLcool
No branches or pull requests
Search before continuing 先搜索,再继续
Description 描述
希望进行新算子的研发。
搭配ai语义理解,遮蔽存折账号、证券账户、电子钱包ID(支付宝/微信支付账号)身份证号、护照号、驾驶证号,手机号、家庭住址(精确到门牌号)等PII身份敏感信息。
Use case 使用场景
大众对于数据处理,会很注重数据隐私性和安全性,大部分时候不希望PII相关信息被其他人看见。研发遮蔽PII信息的算子可以拓宽目标客户群体。
Additional 额外信息
No response
Are you willing to submit a PR for this feature? 您是否乐意为此功能提交一个 PR?
The text was updated successfully, but these errors were encountered: