Skip to content

Company names comparison project. Detect one company with different names.

Notifications You must be signed in to change notification settings

pandakov/ComComparison

Repository files navigation

ComComparison

1 2 3 4



ComComparison это простая Π² использовании ΠΈ мощная командная строка. Π“ΠΎΡ‚ΠΎΠ²ΠΎΠ΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ для вас!

πŸ“ŒΠ”Π·3 ΠΏΠΎ ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Π½Ρ‹ΠΌ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ°ΠΌ Π² ML

  • ΠžΡ‚Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΠ΄ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ isort ΠΈ black/autopep8/yapf.
  • Π’Ρ‹Π±Ρ€Π°Ρ‚ΡŒ Π½Π°Π±ΠΎΡ€ ΠΏΠ»Π°Π³ΠΈΠ½ΠΎΠ² для flake8 (ΠΎΡ‚ 5 ΡˆΡ‚ΡƒΠΊ).
-   repo: https://github.com/PyCQA/flake8
    rev: 6.0.0
    hooks:
    -   id: flake8
        args: [--max-line-length=131]
        additional_dependencies: [
            'flake8-bugbear>=19.8.0',
            'flake8-docstrings>=1.5.0',
            'flake8-isort>=2.7.0',
            'flake8-bandit>=3.0.0',
            'flake8-expression-complexity>=0.0.11',
            'flake8-annotations-complexity>=0.0.7',
            'flake8-requirements>=1.5.3',
        ]
  • Π—Π°ΠΏΠΈΡΠ°Ρ‚ΡŒ Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹Π΅ Ρ„ΠΎΡ€ΠΌΡ‚Π΅Ρ€Ρ‹, Π»ΠΈΠ½Ρ‚Π΅Ρ€Ρ‹ ΠΈ ΠΏΠ»Π°Π³ΠΈΠ½Ρ‹ Π² readme.md. (1 Π±Π°Π»Π»Π°)
    ΠŸΠΈΡˆΡƒ ΠΈΡ… сюда) trailing-whitespace, end-of-file-fixer, check-yaml, check-added-large-files, black ΠΈ flake8 с Π΄ΠΎΠΏΠ°ΠΌΠΈ
  • Π—Π°Ρ„ΠΈΠΊΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ настройки Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅Ρ€Π° ΠΈ Π»ΠΈΠ½Ρ‚Π΅Ρ€Π° Π² pyproject.toml ΠΈΠ»ΠΈ setup.cfg (1 Π±Π°Π»Π»Π°)
  • ΠΠ°ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ ΠΈ Π΄ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ pre-commit Π² ΠΏΡ€ΠΎΠ΅ΠΊΡ‚. (1 Π±Π°Π»Π»Π°)
  • ΠŸΡ€ΠΎΠ²Π΅ΡΡ‚ΠΈ Π°Π½Π°Π»ΠΈΠ· ΠΊΠΎΠ΄Π° с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ flake8 ΠΈ ΠΏΠ»Π°Π³ΠΈΠ½ΠΎΠ² ΠΈ Π·Π°Ρ„ΠΈΠΊΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ Π² Ρ„Π°ΠΉΠ»Π΅ linting.md (1 Π±Π°Π»Π»Π°)
  • [] ΠŸΡ€ΠΎΠ²Π΅ΡΡ‚ΠΈ Ρ€Π΅Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈΠ½Π³ выявлСнных ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ. (3 Π±Π°Π»Π»Π°)

Бтандартная установка ΠΈ запуск pre-commit:

poetry add pre-commit 
pre-commit sample-config > .pre-commit-config.yaml 
pre-commit install 
pre-commit run --all-files 

Ссли ошибки

pre-commit clean 
pre-commit autoupdate 

ΠŸΡ€ΠΈΠΌΠ΅Ρ€ Ρ€Π°Π±ΠΎΡ‚Ρ‹

(.venv) (base) nikivene@DESKTOP-78NOBF0:/mnt/c/Users/TurboFen/Desktop/Online_Edu/ComComparison$ pre-commit run --all-files
trim trailing whitespace.................................................Passed
fix end of files.........................................................Passed
check yaml...............................................................Passed
check for added large files..............................................Passed
black....................................................................Passed
flake8...................................................................Passed

πŸ“ŒFeatures

πŸš‚ΠŸΠΎΠ΄ ΠΊΠ°ΠΏΠΎΡ‚ΠΎΠΌ (ΠœΡ‹ прСдоставляСм сцСнарий):

  • ВнСсСниС своСй Π±Π°Π·Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ… πŸ“‚
  • ΠžΡ‡ΠΈΡΡ‚ΠΊΠ° Π±Π°Π·Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ… βœ‚
  • ВСкторизация πŸ“
  • ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ πŸ‘
  • ЛогистичСская рСгрСссия πŸ’¬
  • Π Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ⏳
  • Π’Ρ‹Π²ΠΎΠ΄ Ρ‚ΠΎΠΏ-10 ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ со ΠΎΠ΅Π½ΠΊΠΎΠΉ схоТСсти πŸ’‘

πŸ”Ž НСйронная поисковая систСма

Π’Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ Π² стилС классичСского Π±Ρ€Π°ΡƒΠ·Π΅Ρ€Π½ΠΎΠ³ΠΎ поисковика. ΠŸΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ‚ вывСсти всС созвучныС ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ.

Π’Π²Π΅Π΄ΠΈΡ‚Π΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ:
>>>

❓ Настройка ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…

Для Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΡƒΠ΄ΠΎΠ±Π½Ρ‹ΠΉ ΠΏΠ°ΠΏΠΏΠ»Π°ΠΉΠ½ train.py

# Generate PRE pipeline
pipe_pre = Pipe(
    TextTransform.to_lower_case(),
    TextTransform.drop_char(chars=r".,()0123456789«»$^#β„–"),
    TextTransform.drop_char(chars=r'-*"/&+:;@=\|?!' + r"'", replace=" "),
    TextTransform.drop_words(words=drop_ownership_list),
    TextTransform.drop_words(words=drop_countries_list),
    TextTransform.drop_whitespaces(),
    TextTransform.transliterate(),
)

πŸ’Œ NLTK ΠΈ spaCy

ΠŸΡƒΠ½ΠΊΡ‚ Π² Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅

⚑ ΠŸΡ€ΠΈΠΌΠ΅Ρ€ Ρ€Π°Π±ΠΎΡ‚Ρ‹

Π’Π²Π΅Π΄ΠΈΡ‚Π΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ:
bridgestone

Π’ΠΎΠΏ 10 ΠΏΠΎΡ…ΠΎΠΆΠΈΡ… ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ:
1: Zeon Research Vietnam Co., Ltd; Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ дубля: 1.0
2: Bridgestone India; Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ дубля: 1.0
3: Bridgestone International Group; Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ дубля: 1.0
4: Bridgestone De Mexico S.A. De C.V.; Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ дубля: 1.0
5: Bridgestone De Costa Rica S.A.; Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ дубля: 1.0
6: Bridgestone India Pvt., Ltd.; Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ дубля: 1.0
7: Bridgestone Canada Inc.; Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ дубля: 1.0
8: Bridgestone Firestone De Mexico Sa De Cv; Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ дубля: 0.99
9: Bridgestone Neumaticos De; Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ дубля: 0.99
10: Michelin Americas Research; Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ дубля: 0.99
Π’Π²Π΅Π΄ΠΈΡ‚Π΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ:

pir

ΠŸΠΎΡ…ΠΎΠΆΠΈΡ… ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ Π½Π΅Ρ‚ Π² спискС ΠΈΠ»ΠΈ Π²Π²Π΅Π΄Π΅Π½Ρ‹ кракозябры
Π’Π²Π΅Π΄ΠΈΡ‚Π΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ:

dsfhsdhsdhdfh

ΠŸΠΎΡ…ΠΎΠΆΠΈΡ… ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ Π½Π΅Ρ‚ Π² спискС ΠΈΠ»ΠΈ Π²Π²Π΅Π΄Π΅Π½Ρ‹ кракозябры

πŸš€ ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ

ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½Ρ‹ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства ΠΌΠΎΠ΄Π΅Π»ΠΈ (логистичСской рСгрСссии) Π² зависимости ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈ Ρ„Π°ΠΊΡ‚Π° очистки датасСта

f1 f1-macro recall roc-auc
tf-idf 0.40 0.69 0.28 0.96
tf-idf + очистка 0.73 0.86 0.65 0.96
word2vec 0.42 0.71 0.29 0.93
word2vec + очистка 0.52 0.76 0.37 0.93

πŸ“ŒInstallation

Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Π΅ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ

  • python >= 3.10
  • numpy >= 1.23.4
  • pandas >= 1.5.0
  • scikit-learn >= 1.1.2
  • notebook >= 6.5.1
  • tables >= 3.7.0
  • gensim >= 4.2.0
  • nltk >= 3.6.5
  • joblib >= 1.1.0

Π§Π΅Ρ€Π΅Π· requirements.txt для pip:

pip install -r requirements.txt

Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Poetry ΡƒΡΡ‚Π°Π½Π°Π²Π»ΠΈΠ²Π°ΡŽΡ‚ΡΡ всС зависимости. ΠšΡ€ΠΎΠΌΠ΅ pip ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Homebrew ΠΈΠ»ΠΈ Conda.

git clone https://github.com/pandakov/ComComparison.git
pip install poetry
poetry install

πŸ“Œ Quick Start

Π‘Ρ†Π΅Π½Π°Ρ€ΠΈΠΉ 1 - ΠžΠ±ΡƒΡ‡Π°Π΅ΠΌ Π½Π° Π²Π°ΡˆΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…

Π’ ΠΏΠ°ΠΏΠΊΡƒ /data добавляСтС свой train.csv

>>>train()
>>>ranking()

ΠŸΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° Ρ„ΠΎΡ€ΠΌΠΈΡ€ΡƒΠ΅Ρ‚ Ρ„Π°ΠΉΠ»Ρ‹ вСсов(embeddings.h5, logit.joblib, word2vec.model) ΠΈ добавляСт Π² /data. Π’Ρ€Π΅ΠΉΠ½ Π»Π΅ΠΆΠΈΡ‚ Π½Π° дискС

Π‘Ρ†Π΅Π½Π°Ρ€ΠΈΠΉ 2 - ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ наши вСса

Π’ ΠΏΠ°ΠΏΠΊΡƒ /data добавляСтС свой embeddings.h5, logit.joblib, word2vec.model

>>>ranking()

Они Π»Π΅ΠΆΠ°Ρ‚ΡŒ Π½Π° дискС

πŸ“ŒCommunity

Расти вмСстС с AI Talent Hub!

На Π±Π°Π·Π΅ AI Talent Hub УнивСрситСт ИВМО совмСстно с ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠ΅ΠΉ Napoleon IT запустил ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡƒ Β«Π˜Π½ΠΆΠ΅Π½Π΅Ρ€ΠΈΡ машинного обучСния». Π­Ρ‚ΠΎ Π½Π΅ краткосрочныС курсы Π±Π΅Π· практичСского примСнСния, Π° ΠΎΠ½Π»Π°ΠΉΠ½-магистратура Π½ΠΎΠ²ΠΎΠ³ΠΎ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π°, основанная Π½Π° Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ Ρ€Π°Π±ΠΎΡ‡Π΅ΠΌ процСссС Π² компаниях.

Π­Ρ‚ΠΎΡ‚ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ создан Π² Ρ€Π°ΠΌΠΊΠ°Ρ… Π²Ρ‚ΠΎΡ€ΠΎΠ³ΠΎ задания ΠΏΠΎ курсу: "Π“Π»ΡƒΠ±ΠΎΠΊΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅"

ΠœΡ‹ ΠΊΠΎΠΌΠ°Π½Π΄Π° ViN:

πŸ˜„ Π¨ΡƒΡ‚Π΅ΠΉΠΊΠ°

Jokes Card

Π¦ΠΈΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅

Если Π²Ρ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚Π΅ ComComparison Π² своих исслСдованиях, рассмотритС Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ цитирования

@misc{=comComparison,
    title={ComComparison: An Easy-to-use and High Performance CLI},
    author={ViN Contributors},
    howpublished = {\url{https://github.com/pandakov/ComComparison}},
    year={2022}
}

Π‘Π»Π°Π³ΠΎΠ΄Π°Ρ€Π½ΠΎΡΡ‚ΡŒ

ЛицСнзия

The MIT License.

About

Company names comparison project. Detect one company with different names.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •