'분류 전체보기' 카테고리의 글 목록 (2 Page) — 뚝딱이

분류 전체보기

Machine Learning/기법

Apriori 이란? - 장바구니, 연관성 분석

https://pasongsong.tistory.com/537 Association Rule 연관 규칙 Association Rule 추천 시스템에서 Baseline이 되는 것으로 어떤 사건이 얼마나 자주 함께 발생하는 지를 수치화 하는 방법이다. items 사이의 관계를 수치화 하는 방법으로 items끼리의 상호 연관관계를 pasongsong.tistory.com Association Rule을 적용하기 위해서는 각 item이 item Set에서 어떤 빈도로 출현했는지, 어떤 item과 함께 나왔는지 파악 해야 한다. Dataset의 모든 후보 itemset에 대해 하나하나 검사하는 것은 굉장히 비효율적이며 시간이 오래 걸린다. 이러한 문제를 해결하기 위해 Apriorim, FP-Growth Algor..

Machine Learning/기법

Association Rule 연관 규칙

Association Rule 추천 시스템에서 Baseline이 되는 것으로 어떤 사건이 얼마나 자주 함께 발생하는 지를 수치화 하는 방법이다. items 사이의 관계를 수치화 하는 방법으로 items끼리의 상호 연관관계를 나타냄 \( X \Rightarrow Y \): X를 선택하였을 때 Y가 선택될 확률 "X를 사면 Y를 산다"는 규칙을 찾는 것으로 추천 시스템의 Baseline으로 사용됨 용어 조건절 Antecedent, 결과절 Consequent \( X \Rightarrow Y \): X를 선택하였을 때 Y가 선택될 확률 Antecedent(IF): X Consequent(THEN): Y Item Set 조건절(Antecedent), 결과절(Consequent)을 구성하는 상품의 집합 Assoc..

NLP

프롬프트 엔지니어링 prompt-engineering 기초

Chat GPT의 공개로 대화형 인공지능(Conversation AI)의 시대가 열였다. 시험용 버전의 사용자가 1억명을 넘어섰으며 많은 사람들이 일상생활에서 Chat GPT를 활용하고 있다. 그렇기에 대화형 인공지능을 다루는 방법을 익히는 것이 중요해지며 인공지능과 상호작용을 통해 "답"을 원하는 양식으로 얻을 수 있는 "능력"이 중요해질 것이다. 프롬프트 엔지니어링 사용 사례 주제별 전문 지식 비판적 사고 창의성 프롬프트(Prompt) 프롬프트(prompt)란 거대 언어 모델(Large Language Model; LLM)로 부터 응답을 생성하기 위한 입력값을 의미하며 자연어의 형태를 지님 즉 특정 작업을 수행하도록 생성형 AI에 요청하는 자연어 text이며 모든 유형의 입력에 유용한 출력을 생성하지..

NLP

GNN(Graph Neural Network)의 기초, 이론, 모델 학습

그래프는 기존의 머신러닝, 딥러닝 모델이 잘 처리하지 못하는 non-Euclidean 데이터이며 처리하기 어려운 이유는 기존의 모델들은 상대적으로 단순한 데이터 유형에 특화되어 있기 때문임 이미지, 텍스트, 오디오는 인접한 픽셀, 전후 순서 연결 등이 있으며 상하좌우도 없고 고정된 순서도 없는 복잡한 그래프보다는 단순함 이러한 그래프를 데이터를 처리하기 위해 GNN이 등장 선행지식 Graph https://pasongsong.tistory.com/237 Graph란 Vecties(꼭짓점, 정점)와 edges(간선)으로 이루어진 데이터 구조를 말함 정의는 G=(V, E)로 정의되며 V는 node set, E는 Edge set이다. V는 데이터의 정보를 담고 있으며, E는 데이터 간의 관계 정보가 포함되어 ..

NLP

NER 기초

NER(Named Entity Recognition) Named Entity(이름을 가진 개체)를 Recognition(인식)하는 것을 의미하며 "개체명 인식"이라고 불림 정보 통신 용어에 따르면 아래와 같이 정의 미리 정의해 둔 사람, 회사, 장소, 시간, 단위 등에 해당하는 단어(개체명)를 문서에서 인식하여 추출 분류하는 기법. 추출된 개체명은 인명(person), 지명(location), 기관명(organization), 시간(time) 등으로 분류된다. 개체명 인식(NER)은 정보 추출을 목적으로 시작되어 자연어 처리, 정보 검색 등에 사용됨 인간은 단어를 듣거나 text를 읽을 때마다 그 단어가 어디에 속하는 지 식별(사람, 장소 위치 등)하는 능력을 가지고 있으며 단어를 빠르게 인식하고 분류하..

Python/이론, 기초

리스트형태의 문자열을 리스트로 만들기

df 다음과 같이 data가 들어있을 때 이것 전체를 str로 보기 때문에 리스트 형태로 변환해서 사용해야 함 import ast emojif['processed_text_v2'] = emojif['processed_text_v2'].apply(ast.literal_eval) 위의 코드를 사용하면 리스트로 변환이 가능함 각 data가 " "로 둘러싸여 있지 않다면 re를 활용하여 변경이 가능 import pandas as pd import re data = {'column_name': ["[기타, 기타, 웃는얼굴, 기타, 기타, 상메달, 기타, 기타]"]} df = pd.DataFrame(data) def extract_list_from_string(input_string): return re.finda..

NLP

Seq2Seq + Attention 코드로 이해하기

Dataset data = { "src" : [ "i love you", "i love myself", "i like you", "he love you" ], "tar" : [ "ich liebe dich", "ich liebe mich", "ich mag dich", "er liebt dich" ] } 단어 사전 각각 src, tar이다. Encoder class Encoder(nn.Module): def __init__(self): super(Encoder, self).__init__() #embedding과 LSTM 준비 self.embed = nn.Embedding(src_tok.n_vocab, hparam['embed_size']) # embed_size = 4 self.rnn = nn.LSTM..

기타/etc

JAVA 환경 설정하기

JAVA 설치 https://www.oracle.com/ Oracle | Cloud Applications and Cloud Platform Thank you BlackRock, Callaway Golf, Genentech, John Snow Labs, NMC Healthcare, Principal Financial Group, Telefónica España, and many others across many industries for trusting us to help drive your business success. www.oracle.com Windows x64 installer로 설치했다. 자신의 작업 환경이랑 호환되는 JAVA를 깔자! 환경 변수 설정 자신이 설치했던 파일 주소 넣기 모든 창..

파송송
'분류 전체보기' 카테고리의 글 목록 (2 Page)