ComComparison ΡΡΠΎ ΠΏΡΠΎΡΡΠ°Ρ Π² ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ ΠΈ ΠΌΠΎΡΠ½Π°Ρ ΠΊΠΎΠΌΠ°Π½Π΄Π½Π°Ρ ΡΡΡΠΎΠΊΠ°. ΠΠΎΡΠΎΠ²ΠΎΠ΅ ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ Π΄Π»Ρ Π²Π°Ρ!
- ΠΡΡΠΎΡΠΌΠ°ΡΠΈΡΠΎΠ²Π°ΡΡ ΠΊΠΎΠ΄ Ρ ΠΏΠΎΠΌΠΎΡΡΡ isort ΠΈ black/autopep8/yapf.
- ΠΡΠ±ΡΠ°ΡΡ Π½Π°Π±ΠΎΡ ΠΏΠ»Π°Π³ΠΈΠ½ΠΎΠ² Π΄Π»Ρ flake8 (ΠΎΡ 5 ΡΡΡΠΊ).
- repo: https://github.com/PyCQA/flake8
rev: 6.0.0
hooks:
- id: flake8
args: [--max-line-length=131]
additional_dependencies: [
'flake8-bugbear>=19.8.0',
'flake8-docstrings>=1.5.0',
'flake8-isort>=2.7.0',
'flake8-bandit>=3.0.0',
'flake8-expression-complexity>=0.0.11',
'flake8-annotations-complexity>=0.0.7',
'flake8-requirements>=1.5.3',
]
- ΠΠ°ΠΏΠΈΡΠ°ΡΡ Π²ΡΠ±ΡΠ°Π½Π½ΡΠ΅ ΡΠΎΡΠΌΡΠ΅ΡΡ, Π»ΠΈΠ½ΡΠ΅ΡΡ ΠΈ ΠΏΠ»Π°Π³ΠΈΠ½Ρ Π² readme.md. (1 Π±Π°Π»Π»Π°)
ΠΠΈΡΡ ΠΈΡ ΡΡΠ΄Π°) trailing-whitespace, end-of-file-fixer, check-yaml, check-added-large-files, black ΠΈ flake8 Ρ Π΄ΠΎΠΏΠ°ΠΌΠΈ - ΠΠ°ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°ΡΡ Π½Π°ΡΡΡΠΎΠΉΠΊΠΈ ΡΠΎΡΠΌΠ°ΡΠ΅ΡΠ° ΠΈ Π»ΠΈΠ½ΡΠ΅ΡΠ° Π² pyproject.toml ΠΈΠ»ΠΈ setup.cfg (1 Π±Π°Π»Π»Π°)
- ΠΠ°ΡΡΡΠΎΠΈΡΡ ΠΈ Π΄ΠΎΠ±Π°Π²ΠΈΡΡ pre-commit Π² ΠΏΡΠΎΠ΅ΠΊΡ. (1 Π±Π°Π»Π»Π°)
- ΠΡΠΎΠ²Π΅ΡΡΠΈ Π°Π½Π°Π»ΠΈΠ· ΠΊΠΎΠ΄Π° Ρ ΠΏΠΎΠΌΠΎΡΡΡ flake8 ΠΈ ΠΏΠ»Π°Π³ΠΈΠ½ΠΎΠ² ΠΈ Π·Π°ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°ΡΡ ΠΏΡΠΎΠ±Π»Π΅ΠΌΡ Π² ΡΠ°ΠΉΠ»Π΅ linting.md (1 Π±Π°Π»Π»Π°)
- [] ΠΡΠΎΠ²Π΅ΡΡΠΈ ΡΠ΅ΡΠ°ΠΊΡΠΎΡΠΈΠ½Π³ Π²ΡΡΠ²Π»Π΅Π½Π½ΡΡ ΠΏΡΠΎΠ±Π»Π΅ΠΌ. (3 Π±Π°Π»Π»Π°)
Π‘ΡΠ°Π½Π΄Π°ΡΡΠ½Π°Ρ ΡΡΡΠ°Π½ΠΎΠ²ΠΊΠ° ΠΈ Π·Π°ΠΏΡΡΠΊ pre-commit:
poetry add pre-commit
pre-commit sample-config > .pre-commit-config.yaml
pre-commit install
pre-commit run --all-files
Π΅ΡΠ»ΠΈ ΠΎΡΠΈΠ±ΠΊΠΈ
pre-commit clean
pre-commit autoupdate
ΠΡΠΈΠΌΠ΅Ρ ΡΠ°Π±ΠΎΡΡ
(.venv) (base) nikivene@DESKTOP-78NOBF0:/mnt/c/Users/TurboFen/Desktop/Online_Edu/ComComparison$ pre-commit run --all-files
trim trailing whitespace.................................................Passed
fix end of files.........................................................Passed
check yaml...............................................................Passed
check for added large files..............................................Passed
black....................................................................Passed
flake8...................................................................Passed
- ΠΠ½Π΅ΡΠ΅Π½ΠΈΠ΅ ΡΠ²ΠΎΠ΅ΠΉ Π±Π°Π·Ρ Π΄Π°Π½Π½ΡΡ π
- ΠΡΠΈΡΡΠΊΠ° Π±Π°Π·Ρ Π΄Π°Π½Π½ΡΡ β
- ΠΠ΅ΠΊΡΠΎΡΠΈΠ·Π°ΡΠΈΡ π
- ΠΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ π
- ΠΠΎΠ³ΠΈΡΡΠΈΡΠ΅ΡΠΊΠ°Ρ ΡΠ΅Π³ΡΠ΅ΡΡΠΈΡ π¬
- Π Π°Π½ΠΆΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ β³
- ΠΡΠ²ΠΎΠ΄ ΡΠΎΠΏ-10 ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ ΡΠΎ ΠΎΠ΅Π½ΠΊΠΎΠΉ ΡΡ ΠΎΠΆΠ΅ΡΡΠΈ π‘
ΠΡΠΏΠΎΠ»Π½Π΅Π½ Π² ΡΡΠΈΠ»Π΅ ΠΊΠ»Π°ΡΡΠΈΡΠ΅ΡΠΊΠΎΠ³ΠΎ Π±ΡΠ°ΡΠ·Π΅ΡΠ½ΠΎΠ³ΠΎ ΠΏΠΎΠΈΡΠΊΠΎΠ²ΠΈΠΊΠ°. ΠΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ Π²ΡΠ²Π΅ΡΡΠΈ Π²ΡΠ΅ ΡΠΎΠ·Π²ΡΡΠ½ΡΠ΅ ΠΎΡΠ³Π°Π½ΠΈΠ·Π°ΡΠΈΠΈ.
ΠΠ²Π΅Π΄ΠΈΡΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ:
>>>
ΠΠ»Ρ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ ΡΠ΄ΠΎΠ±Π½ΡΠΉ ΠΏΠ°ΠΏΠΏΠ»Π°ΠΉΠ½ train.py
# Generate PRE pipeline
pipe_pre = Pipe(
TextTransform.to_lower_case(),
TextTransform.drop_char(chars=r".,()0123456789«»$^#β"),
TextTransform.drop_char(chars=r'-*"/&+:;@=\|?!' + r"'", replace=" "),
TextTransform.drop_words(words=drop_ownership_list),
TextTransform.drop_words(words=drop_countries_list),
TextTransform.drop_whitespaces(),
TextTransform.transliterate(),
)
ΠΡΠ½ΠΊΡ Π² ΡΠ°Π·ΡΠ°Π±ΠΎΡΠΊΠ΅
ΠΠ²Π΅Π΄ΠΈΡΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ:
bridgestone
Π’ΠΎΠΏ 10 ΠΏΠΎΡ
ΠΎΠΆΠΈΡ
ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ:
1: Zeon Research Vietnam Co., Ltd; Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ Π΄ΡΠ±Π»Ρ: 1.0
2: Bridgestone India; Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ Π΄ΡΠ±Π»Ρ: 1.0
3: Bridgestone International Group; Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ Π΄ΡΠ±Π»Ρ: 1.0
4: Bridgestone De Mexico S.A. De C.V.; Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ Π΄ΡΠ±Π»Ρ: 1.0
5: Bridgestone De Costa Rica S.A.; Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ Π΄ΡΠ±Π»Ρ: 1.0
6: Bridgestone India Pvt., Ltd.; Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ Π΄ΡΠ±Π»Ρ: 1.0
7: Bridgestone Canada Inc.; Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ Π΄ΡΠ±Π»Ρ: 1.0
8: Bridgestone Firestone De Mexico Sa De Cv; Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ Π΄ΡΠ±Π»Ρ: 0.99
9: Bridgestone Neumaticos De; Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ Π΄ΡΠ±Π»Ρ: 0.99
10: Michelin Americas Research; Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ Π΄ΡΠ±Π»Ρ: 0.99
ΠΠ²Π΅Π΄ΠΈΡΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ:
pir
ΠΠΎΡ
ΠΎΠΆΠΈΡ
ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ Π½Π΅Ρ Π² ΡΠΏΠΈΡΠΊΠ΅ ΠΈΠ»ΠΈ Π²Π²Π΅Π΄Π΅Π½Ρ ΠΊΡΠ°ΠΊΠΎΠ·ΡΠ±ΡΡ
ΠΠ²Π΅Π΄ΠΈΡΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ:
dsfhsdhsdhdfh
ΠΠΎΡ
ΠΎΠΆΠΈΡ
ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ Π½Π΅Ρ Π² ΡΠΏΠΈΡΠΊΠ΅ ΠΈΠ»ΠΈ Π²Π²Π΅Π΄Π΅Π½Ρ ΠΊΡΠ°ΠΊΠΎΠ·ΡΠ±ΡΡ
ΠΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½Ρ ΠΌΠ΅ΡΡΠΈΠΊΠΈ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ (Π»ΠΎΠ³ΠΈΡΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΡΠ΅Π³ΡΠ΅ΡΡΠΈΠΈ) Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡΠΈ ΠΎΡ ΠΌΠ΅ΡΠΎΠ΄Π° Π²Π΅ΠΊΡΠΎΡΠΈΠ·Π°ΡΠΈΠΈ ΠΈ ΡΠ°ΠΊΡΠ° ΠΎΡΠΈΡΡΠΊΠΈ Π΄Π°ΡΠ°ΡΠ΅ΡΠ°
f1 | f1-macro | recall | roc-auc | |
---|---|---|---|---|
tf-idf | 0.40 | 0.69 | 0.28 | 0.96 |
tf-idf + ΠΎΡΠΈΡΡΠΊΠ° | 0.73 | 0.86 | 0.65 | 0.96 |
word2vec | 0.42 | 0.71 | 0.29 | 0.93 |
word2vec + ΠΎΡΠΈΡΡΠΊΠ° | 0.52 | 0.76 | 0.37 | 0.93 |
- python >= 3.10
- numpy >= 1.23.4
- pandas >= 1.5.0
- scikit-learn >= 1.1.2
- notebook >= 6.5.1
- tables >= 3.7.0
- gensim >= 4.2.0
- nltk >= 3.6.5
- joblib >= 1.1.0
Π§Π΅ΡΠ΅Π· requirements.txt Π΄Π»Ρ pip:
pip install -r requirements.txt
Π‘ ΠΏΠΎΠΌΠΎΡΡΡ Poetry ΡΡΡΠ°Π½Π°Π²Π»ΠΈΠ²Π°ΡΡΡΡ Π²ΡΠ΅ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡΠΈ. ΠΡΠΎΠΌΠ΅ pip ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Homebrew ΠΈΠ»ΠΈ Conda.
git clone https://github.com/pandakov/ComComparison.git
pip install poetry
poetry install
Π‘ΡΠ΅Π½Π°ΡΠΈΠΉ 1 - ΠΠ±ΡΡΠ°Π΅ΠΌ Π½Π° Π²Π°ΡΠΈΡ Π΄Π°Π½Π½ΡΡ
Π ΠΏΠ°ΠΏΠΊΡ /data
Π΄ΠΎΠ±Π°Π²Π»ΡΠ΅ΡΠ΅ ΡΠ²ΠΎΠΉ train.csv
>>>train()
>>>ranking()
ΠΡΠΎΠ³ΡΠ°ΠΌΠΌΠ° ΡΠΎΡΠΌΠΈΡΡΠ΅Ρ ΡΠ°ΠΉΠ»Ρ Π²Π΅ΡΠΎΠ²(embeddings.h5
, logit.joblib
, word2vec.model
) ΠΈ Π΄ΠΎΠ±Π°Π²Π»ΡΠ΅Ρ Π² /data
.
Π’ΡΠ΅ΠΉΠ½ Π»Π΅ΠΆΠΈΡ Π½Π° Π΄ΠΈΡΠΊΠ΅
Π‘ΡΠ΅Π½Π°ΡΠΈΠΉ 2 - ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΠΌ Π½Π°ΡΠΈ Π²Π΅ΡΠ°
Π ΠΏΠ°ΠΏΠΊΡ /data
Π΄ΠΎΠ±Π°Π²Π»ΡΠ΅ΡΠ΅ ΡΠ²ΠΎΠΉ embeddings.h5
, logit.joblib
, word2vec.model
>>>ranking()
ΠΠ½ΠΈ Π»Π΅ΠΆΠ°ΡΡ Π½Π° Π΄ΠΈΡΠΊΠ΅
ΠΠ° Π±Π°Π·Π΅ AI Talent Hub Π£Π½ΠΈΠ²Π΅ΡΡΠΈΡΠ΅Ρ ΠΠ’ΠΠ ΡΠΎΠ²ΠΌΠ΅ΡΡΠ½ΠΎ Ρ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠ΅ΠΉ Napoleon IT Π·Π°ΠΏΡΡΡΠΈΠ» ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΡΡ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΡ Β«ΠΠ½ΠΆΠ΅Π½Π΅ΡΠΈΡ ΠΌΠ°ΡΠΈΠ½Π½ΠΎΠ³ΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡΒ». ΠΡΠΎ Π½Π΅ ΠΊΡΠ°ΡΠΊΠΎΡΡΠΎΡΠ½ΡΠ΅ ΠΊΡΡΡΡ Π±Π΅Π· ΠΏΡΠ°ΠΊΡΠΈΡΠ΅ΡΠΊΠΎΠ³ΠΎ ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½ΠΈΡ, Π° ΠΎΠ½Π»Π°ΠΉΠ½-ΠΌΠ°Π³ΠΈΡΡΡΠ°ΡΡΡΠ° Π½ΠΎΠ²ΠΎΠ³ΠΎ ΡΠΎΡΠΌΠ°ΡΠ°, ΠΎΡΠ½ΠΎΠ²Π°Π½Π½Π°Ρ Π½Π° ΡΠ΅Π°Π»ΡΠ½ΠΎΠΌ ΡΠ°Π±ΠΎΡΠ΅ΠΌ ΠΏΡΠΎΡΠ΅ΡΡΠ΅ Π² ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΡΡ .
ΠΡΠΎΡ ΠΏΡΠΎΠ΅ΠΊΡ ΡΠΎΠ·Π΄Π°Π½ Π² ΡΠ°ΠΌΠΊΠ°Ρ Π²ΡΠΎΡΠΎΠ³ΠΎ Π·Π°Π΄Π°Π½ΠΈΡ ΠΏΠΎ ΠΊΡΡΡΡ: "ΠΠ»ΡΠ±ΠΎΠΊΠΎΠ΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ Π½Π° ΠΏΡΠ°ΠΊΡΠΈΠΊΠ΅"
ΠΡ ΠΊΠΎΠΌΠ°Π½Π΄Π° ViN:
ΠΡΠ»ΠΈ Π²Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΠ΅ ComComparison Π² ΡΠ²ΠΎΠΈΡ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΡΡ , ΡΠ°ΡΡΠΌΠΎΡΡΠΈΡΠ΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΡ ΡΠΈΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ
@misc{=comComparison,
title={ComComparison: An Easy-to-use and High Performance CLI},
author={ViN Contributors},
howpublished = {\url{https://github.com/pandakov/ComComparison}},
year={2022}
}
- NLP. ΠΡΠ½ΠΎΠ²Ρ. Π’Π΅Ρ Π½ΠΈΠΊΠΈ. Π‘Π°ΠΌΠΎΡΠ°Π·Π²ΠΈΡΠΈΠ΅. Π§Π°ΡΡΡ 1
- NLP. ΠΡΠ½ΠΎΠ²Ρ. Π’Π΅Ρ Π½ΠΈΠΊΠΈ. Π‘Π°ΠΌΠΎΡΠ°Π·Π²ΠΈΡΠΈΠ΅. Π§Π°ΡΡΡ 2: NER
- ΠΠ°ΠΊ Π½Π°ΠΉΡΠΈ ΡΡΠΎ-ΡΠΎ Π² ΡΠ΅ΠΊΡΡΠ΅
- SpaCy
- NLTK
- Π‘ΡΠ°Π²Π½ΠΈΠ²Π°Π΅ΠΌ ΡΠ°Π±ΠΎΡΡ open source Python β Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊ Π΄Π»Ρ ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΡ ΠΈΠΌΠ΅Π½ΠΎΠ²Π°Π½Π½ΡΡ ΡΡΡΠ½ΠΎΡΡΠ΅ΠΉ